山西大学大数据科学与产业研究院

缓解随机一致性的基尼指数与决策树方法

Authors: 王婕婷,李飞江,李珏,钱宇华,梁吉业

Abstract:

决策树模型具有较强的可解释性, 是随机森林、深度森林等机器学习方法的基础. 如何选择节点的分割属性与分割值是决策树算法的关键问题, 对树的泛化能力、深度、平衡程度等重要性能产生影响. 传统属性选择准则的定义大多基于凹函数, 使得决策树算法存在多值偏向问题, 即倾向于选择取值种类多的属性作为节点分割属性. 已有研究表明缓解随机一致性的评价准则能够降低分类偏差与类簇个数偏向. 本文将基于标准化框架缓解基尼指数的随机一致性, 以此缓解其多值偏向问题. 通过人造数据集验证, 标准基尼指数能够缓解基尼指数的多值偏向问题, 并且选择出具有决策信息的属性. 通过十二个基准数据集与两个图像数据集的实验验证, 基于标准基尼指数的决策树算法比现有缓解多值偏向的决策树算法具有较高的泛化性能.

Keywords： 基尼指数,多值偏向,决策树,随机一致性

中国科学发表版.pdf

Mon Aug 28 17:58:00 CST 2023