徐宗本: 大模型的极限理论——解读智能涌现现象

报告时间：2024年11月10日（星期日）15:30

报告地点：翡翠湖校区科教楼A座二楼大报告厅

报告人：徐宗本中国科学院院士

工作单位：西安交通大学

举办单位：数学学院

报告简介：

以大模型为特征的生成式人工智能近年来迅猛发展，正深刻影响并变革着科学技术的研究范式与工业革命进程。按照流行的认识,大模型的能力之所以强大源自它可能存在的智能涌现(Intelligent Emergence)。然而,什么是智能涌现? 是什么要素摧生了智能涌现?大模型在什么情况下才会出现智能涌现? 对这些问题充满着疑惑和争论。本报告提出一个数学框架和数学理论来对此加以解析。我们的核心思想是: 利用三元随机函数ℰ(N, P, ∂ℓ)来度量大模型泛化性, 利用 ℰ(N, P, ∂ℓ)的极限行为/极限速度 (N→∞, P→∞, ∂ℓ→0)来度量大模型的尺度变化律(Scaling Law),并以此为基础来解译智能涌现，这里N 是用以训练大模型的数据规模, P是模型尺寸(包含参数个数), ∂ℓ是训练损失达到极小的程度。我们定义“极限架构”这一无穷维系统概念,说明大模型智能涌现的新特征/新行为即是该极限架构的特征和行为(其泛化能力由ℰ(∞, ∞,0)度量)。我们提出ℰ(N, P, ∂ℓ)- ℰ(∞, ∞,0)的标准误差分解, 即将其分解为权值误差ℰ(N, P, ∂ℓ)- ℰ(N, P, 0)，架构误差ℰ(N, P, 0)- ℰ(N, ∞, 0)和样本误差ℰ(N, ∞, 0)- ℰ(∞, ∞,0)之和, 然后分别应用随机逼近工具、非线性Lipschitz算子工具, 无限维Bayes估计工具来对这些误差进行估计。最终,我们获得了大模型泛化误差的极限速度估计。

根据这一估计, 我们发现: 1）大模型泛化性能与模型规模的尺度率在亚指数率与指数律之间；2）大模型泛化性能与训练数据规模的尺度率为亚指数率；3）当大模型的权值最优设定,而且其基块满足相应条件时，模型规模、训练数据规模趋于无穷将导致大模型出现智能涌现。

对于线性大模型情形, 我们进而应用大维随机矩阵理论详细刻画了大模型的极限行为, 导出了模型尺寸与训练数据规模的最优配置律，展现了大模型完全不同于小模型的统计学习规律。最后, 我们提出与本研究直接关联的系列公开问题。

报告人简介：

徐宗本，中国科学院院士，数学家、信号与信息处理专家、西安交通大学教授。

主要从事智能信息处理、机器学习、数据建模基础理论研究。曾提出稀疏信息处理的L(1/2)正则化理论,为稀疏微波成像提供了重要基础；发现并证明机器学习的“徐-罗奇”定理, 解决了神经网络与模拟演化计算中的一些困难问题,为非欧氏框架下机器学习与非线性分析提供了普遍的数量推演准则; 提出基于视觉认知的数据建模新原理与新方法，形成了聚类分析、判别分析、隐变量分析等系列数据挖掘核心算法, 并广泛应用于科学与工程领域。曾获国家自然科学二等奖、国家科技进步二等奖、陕西省最高科技奖; 国际IAITQM 理查德.普莱斯(Richard Price)数据科学奖;中国陈嘉庚信息技术科学奖、华罗庚数学奖、苏步青应用数学奖；曾在2010年世界数学家大会上作45分钟特邀报告。

曾任西安交通大学副校长。现任鹏城国家实验室广州基地/琶洲实验室（黄埔）主任、陕西国家应用数学中心主任、大数据算法与分析技术国家工程实验室主任。是国家大数据专家咨询委员会委员、国家新一代人工智能战略咨询委员会委员。

1	袁荃: 基于功能核酸的分子识别设计及生物分析应用
2	王育华: 无机固体发光材料的设计与性能调控
3	郑明明: 医校协同——临床心理科知识与技能应用于学生心理健康教育
4	王维国: “理论感”探析
5	方亚鹏: 食品胶体应用技术
6	李斌: 28年魔芋研究的几点体会
7	吴庆生: 折叠电子仿生制造，兼谈纳米协同抗耐药
8	张伟: 基于冷原子体系的量子网络节点进展
9	陆昌浩: 知己知彼，百战不殆
10	王华雄: Algebra, Combinatorics and Cryptography

徐宗本: 大模型的极限理论——解读智能涌现现象
发布日期：2024-11-06 字号：大 中 小【打印】

点击排行榜

徐宗本: 大模型的极限理论——解读智能涌现现象 发布日期：2024-11-06 字号：大 中 小 【打印】

点击排行榜

徐宗本: 大模型的极限理论——解读智能涌现现象
发布日期：2024-11-06 字号：大中小【打印】