我院在多模态机器学习方面取得重要进展 -山西大学大数据科学与产业研究院

我院在多模态机器学习方面取得重要进展

2021年11月9日，我院在人工智能领域国际顶尖期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》 (IEEE TPAMI，影响因子：17.861)在线刊发了题为“AF: An Association-based Fusion Method for Multi-Modal Classification” 的研究论文。2016级博士生梁新彦为第一作者，钱宇华教授为通讯作者，梁吉业教授、郭倩博士、成红红博士为合作者。

多模态数据是信息科学领域的常见数据形态，如何有效融合不同模态信息进行分析决策是该领域的重要科学问题。从学习范式来看，现有传统多模态学习范式往往忽视了特征间的关联关系信息和特征的高阶信息；深度多模态学习范式则面临数据饥渴、融合过程语义解释性不强问题。尽管面向多模态信息处理的人工智能技术已经取得了一些进步，但是仍然面临着不同模态语义统一表示难、融合效果提升难等挑战（见图1）。

图 1 现有多模态学习范式面临的挑战

针对现有多模态机器学习面临的挑战，该研究通过采用将特征间的关联关系信息和高阶信息耦合到原数据空间的技术路线（见图2），创新性地提出了关联关系驱动的融合方法（AF）。该方法不仅将不同模态统一表示到语义一致的关联关系空间，也是一个可嵌入到现有任意的多模态模型中的通用融合框架，为多模态融合领域面临的语义鸿沟瓶颈问题提供了一个有效解决方案。大量实验结果表明，耦合了关联关系的新表示具有更强的区分能力（见图3）。

图 2 关联关系驱动的多模态融合理论与方法

图 3 Iris 数据集在原始空间和 AF 空间中的散点图与可分性

研究团队通过耦合AF到最好模态融合、早期融合、晚期融合、模型融合以及深度模型中，提出五种增强的多模态分类算法，该方法在大量的真实数据上都统计优于增强前的方法（见图4、5）。此外，通过大量实验分析论证，研究团队给出了不同场景下关联指标选择一般性选择策略（见图6），大大降低使用该算法的难度。

图 4 AF嵌入不同融合框架实验结果

图 5 与最先进算法的比较结果

图 6 不同关联性指标影响分析

研究工作得到计算智能与中文信息处理教育部重点实验室、山西省机器视觉与数据挖掘工程研究中心、国家重点研发计划、国家自然科学基金重点基金、山西省1331工程重点学科建设计划的支持。

研究成果原文阅读链接：https://ieeexplore.ieee.org/document/9609548

附：

TPAMI建刊于1979年，是国际上公认的计算机领域顶级期刊，主要刊登人工智能领域的高质量前沿研究成果，2020年共发表论文221篇。