数据智能(DIG)大讲堂第20期成功举办
2026年2月4日,山西大学大数据与产业研究院成功举办第20期数据智能(DIG)大讲堂。本次活动邀请上海交通大学宫辰教授与中国人民大学刘勇副教授,分别为研究院师生带来题为“机器学习模型的‘小’与‘大’”和“大模型机理分析”的专题报告。研究院师生通过现场聆听的方式参与,现场学术氛围浓厚、交流热烈。
宫辰教授围绕当前人工智能领域中备受关注的“小模型”与“大模型”深入探讨。他指出,在小样本、弱标注等数据受限场景下,模型常面临表征能力不足、标签噪声干扰及分布漂移等挑战。针对这些问题,他提出应重视自监督对比学习、由易到难的多阶段训练策略,以及基于相似样本关系建模的新方法,以提升模型泛化能力。随后,他聚焦“大模型”的演进路径,强调其不仅依赖参数规模扩张,更需融合逻辑推理、认知理论与垂直领域知识。最后,系统阐述了“从大到小”的模型压缩思想,包括知识蒸馏、无数据迁移等技术,为轻量化部署提供可行方案。
刘勇教授带来题为“大模型机理分析”的报告。他指出,当前大模型技术虽在工程实践上迅猛发展,但基础理论研究严重滞后,已成为制约其深度突破的关键瓶颈。为此,他从三个维度系统梳理了大模型理论前沿:一是合成数据在大模型训练中的作用机理,揭示其如何有效替代真实数据并提升泛化性能;二是从能量视角重新解析Transformer架构,建立其与能量模型之间的理论联系,为理解注意力机制提供新范式;三是深入剖析大模型的推理机制,探讨其在上下文学习、链式思维等能力背后的内在原理。刘勇教授指出,厘清这些底层规律,对构建可解释、可信赖、高效的大模型体系具有重要意义。
本次大讲堂活动为研究院师生搭建了高水平的交流平台,突出展示了理论探索的前沿方向。两场报告内容翔实、视角前瞻,既有宏观趋势把握,又有微观机理剖析,引发在场师生强烈共鸣。互动环节中,师生们就模型压缩的有效性边界、合成数据的理论保障、Transformer的能量解释适用范围等问题与两位讲者展开深入讨论。此次报告不仅拓宽了对机器学习“大”“小”模型的整体认知,也深化了对大模型基础理论必要性的理解,为后续科研工作提供了宝贵思路。
讲者简介:
宫辰,现任上海交通大学自动化与感知学院教授、博导;入选国家级高层次青年人才、IET Fellow。主要研究方向为机器学习、模式识别。已在ACM/IEEE Transactions以及CCF A类会议上发表120余篇学术论文,谷歌引用10000+,H指数53;另有11项发明专利获得授权。目前担任国际权威期刊IEEE T-PAMI、IEEE T-IP、IEEE T-CSVT、Neural Networks、Neural Processing Letters编委;ICML, ICLR, AAAI, IJCAI, ICDM, AISTATS等多个国际会议的领域主席(Area Chair)。主持国家自然科学基金重点项目、面上项目、上海市大模型专项等。获吴文俊人工智能优秀青年奖、CCF-IEEE青年科技奖、中国科协“青年人才托举工程”、中国电子学会自然科学二等奖、上海市自然科学二等奖、中国人工智能学会“优秀博士学位论文”奖等,并入选百度发布的全球华人AI青年学者榜单以及斯坦福大学发布的全球前2%顶尖科学家榜单(2021-2025)。
刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。曾获中国人民大学“杰出学者”、中国科学院“青年创新促进会”成员、中国科学院信息工程研究所“引进优青”等称号。主持/参与国家自然科学面上/基金青年、科技部重点研发、北京市科技计划中央引导地方专项、北京市面上项目等项目。
