我院在缓解随机一致性的决策树算法的研究上取得重要进展 -山西大学大数据科学与产业研究院

我院在缓解随机一致性的决策树算法的研究上取得重要进展

8月19日，我院在随机一致性方面的重要成果“缓解随机一致性的基尼指数与决策树方法”，在《中国科学:信息科学》官方网站在线发表。

链接地址：http://engine.scichina.com/doi/10.1360/SS-2022-0337

机器学习实验室王婕婷老师为论文第一作者，钱宇华教授为通讯作者，李飞江老师，李珏博士，梁吉业教授为合作作者。

决策树模型具有较强的可解释性, 是随机森林、深度森林等机器学习方法的基础. 如何选择节点的分割属性与分割值是决策树算法的关键问题, 对树的泛化能力、深度、平衡程度等重要性能产生影响. 传统属性选择准则的定义大多基于凹函数（如图1所示）, 使得决策树算法存在多值偏向问题, 即倾向于选择取值种类多的属性作为节点分割属性 .

微信截图_20230912105348.png

已有研究表明缓解随机一致性的评价准则能够降低分类偏差与类簇个数偏向. 本文将基于标准化框架缓解基尼指数的随机一致性, 以此缓解其多值偏向问题. 本文贡献主要体现在以下三方面:

（1）证明置换集合中特征向量与标签向量形成的列联表元素服从超几何分布, 并在超几何分布下给出基尼指数期望与方差的表达式;

微信截图_20230912105405.png

（2）定义缓解多值偏向的标准基尼指数, 在人造数据集上验证其特征选择的有效性;

微信截图_20230912105420.png

（3）提出基于标准基尼指数的决策树算法, 并通过实验验证其泛化性能.

通过人造数据集验证, 标准基尼指数能够缓解基尼指数的多值偏向问题, 并且选择出具有决策信息的属性. 通过十二个基准数据集与两个图像数据集的实验验证, 基于标准基尼指数的决策树算法比现有缓解多值偏向的决策树算法具有较高的泛化性能.

微信截图_20230912105437.png

该研究工作得到山西大学大数据科学与产业研究院、计算智能与中文信息处理教育部重点实验室、山西省机器视觉与数据挖掘工程研究中心、科技创新2030-重大项目(批准号: No.2021ZD0112400)、国家自然科学基金重点项目(批准号: 62136005)、国家自然科学基金青年基金(批准号:62106132)、山西省科技重大专项(批准号:202201020101006)、山西省基础研究计划(批准号: 20210302124271, 202103021223026)的支持.

附：《中国科学：信息科学》是中国计算机学会推荐的A类中文期刊，中国通信学会推荐A类期刊。该期刊力求刊载信息科学领域最高学术水平的中文文章，及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、电子科学与技术等领域基础与应用研究方面的原创性成果。2023年共发表论文70余篇。