基于样本稳定性的聚类方法

Authors: 李飞江, 钱宇华, 王婕婷, 梁吉业, 王文剑

Abstract:

数据类型和分布的复杂化导致样本间关系的不确定性增强,给有效挖掘数据的潜在类簇结构带来挑战.为降低样本关系不确定性对数据聚类带来的影响,本文将聚类集成中样本稳定性概念扩展至聚类分析中.本文从理论上分析样本稳定的合理性,并提出基于信息熵的样本稳定性度量方法.此外,本文提出一个基于样本稳定性的聚类方法,该方法先将数据分为稳定样本集和不稳定样本集,然后挖掘稳定样本的团簇结构,并将不稳定样本划分至该团簇结构中.最后,本文通过二维人造数据和图像分割场景可视化显示样本稳定性的合理性,并在基准数据集上验证本文所提聚类算法的有效性.

Keywords: 机器学习,无监督学习,聚类分析,样本稳定性,稳定性理论

基于样本稳定性的聚类方法.pdf

Wed Nov 25 10:50:00 CST 2020