我院在面向大数据的低质数据质量提升方面取得重要进展 -山西大学大数据科学与产业研究院

我院在面向大数据的低质数据质量提升方面取得重要进展

2021年2月12日，我院钱宇华教授与梁吉业教授，王文剑教授，姜高霞副教授在面向大数据的低质数据质量提升的理论与方法研究中取得了突破性进展，相关成果以“A Unified Sample Selection Framework for Output Noise Filtering: An Error-Bound Perspective”为题在人工智能顶级期刊《Journal of Machine Learning Research》在线发表。该论文以山西大学为唯一单位，第一作者为姜高霞副教授，通讯作者为王文剑教授，梁吉业教授、钱宇华教授为合作作者。

大数据价值已被社会全面认可，基于机器学习的数据挖掘可进一步推动大数据的应用。但由于在数据的采集、传输、处理过程中存在的主客观原因，数据中会出现无标注、含噪声、不完整等质量问题，从而导致源于数据的知识和决策产生严重错误。目前已有一些方法处理数据的弱标注和填充等问题，但在大规模数据中很难保证没有任何噪声，如果出现部分噪声/错误标签，机器学习模型的预测结果会产生严重偏差。噪声过滤策略旨在找到噪声标签并将噪声样本去掉，避免模型受噪声标签的误导。虽然传统噪声过滤方法能够降低数据的噪声水平，但无法在理论和实际中确保模型预测能力的提升。

针对标签噪声问题，本论文首次从泛化误差界的角度提出一种噪声过滤框架，解决了回归任务中噪声过滤的有效性判别和样本自适应选择问题（见图1）。此框架明确了噪声环境下泛化误差界的影响因素，找到了判别噪声过滤有效性的准则，确定了噪声数据下模型泛化能力的最优目标函数，对提升数据质量和模型预测能力具有重要的科学意义。同时，此框架可以与任意的噪声估计结果相结合，形成新的过滤算法。这种过滤框架对于分类任务中的标签噪声处理具有借鉴意义，同时也为噪声环境下的鲁棒建模和数据预处理提供了新思路。

图片1.png

图1：(a) 噪声过滤的有效性判别(b) 噪声过滤的最优样本选择

研究团队还提出一种基于无偏噪声估计（见图2）的过滤方法，为含噪数据处理提供了一种切实有效途径。此方法在真实公开的年龄估计数据集上找到了明显不准确的年龄标签（见图3），并且提升了模型的预测性能。此算法的有效性也在标准数据集上得到了验证。

图片2.png

(a)均匀分布;(b)Gaussian分布; (c) Laplace分布; (d) 混合Gaussian分布。

图2 不同分布下的噪声估计结果

图片3.png

图3 在真实公开数据集上的年龄标签噪声检测（部分）结果

JMLR建刊于2000年，是国际上公认的计算机领域顶级期刊之一，主要刊登机器学习与人工智能领域的高质量前沿研究成果。同时，JMLR也是中国计算机学会推荐的机器学习、人工智能和模式识别领域的四大A类期刊之一，2020年共发表论文252篇。