2024 年的 ICML 大会上,北京师范大学的蔡永强教授凭借一篇没有算法和实验的纯理论论文,在众多投稿中被选中。这篇论文《Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions(词的万能逼近:从语言角度看映射组合)》成为唯一入选 Spotlight 的论文。
近年来,深度学习的序列模型,尤其是语言模型,取得了进展。这让研究人员开始思考,能不能把非序列问题也转换成序列形式来解决。深度神经网络本质上就是一系列线性或非线性映射的组合,每个映射可以看作是一个 “词”。蔡教授的论文聚焦于有限情形下的函数词汇表 V,构造性地证明了存在一个有限的函数词汇表 V,可以实现所谓的万能逼近。对于任何一个连续映射 f、紧集 Ω 和任意小的 ε>0,都能找到 V 中的一个有限序列,使得这些映射的组合在 Ω 上可以近似 f,且逼近误差小于 ε。
在 2024 年 ICML 的 2610 篇收录论文中,144 篇是 Oral,191 篇是 Spotlight。而在今年的 Oral 和 Spotlight 论文中,唯一一篇没有算法和实验的纯理论文章,正是蔡教授的这篇作品。
最近几年,深度学习序列模型,比如 BERT 和 GPT,在自然语言处理领域取得了进展。这些模型通过把自然语言问题转化为序列学习,提升了语言理解和生成的能力。对于那些非序列问题,处理起来还有一定难度。于是,研究人员开始研究,能不能把这些非序列问题也变成序列形式,用深度学习模型的能力来解决更广泛的问题。在这个背景下,深度神经网络被看作是由一系列线性或非线性映射组成的复合函数,每个映射可以看成一个 “词”。这种复合的思想为解决复杂问题提供了新视角。
为了构造这个有限的函数词汇表 V,研究人员采用了一种构造性的办法。具体步骤如下:
- 定义映射集合:定义一个包含所有可能映射的集合。
- 选择基函数:从这个集合中挑选一组基函数,通过线性组合可以表示其他映射。
- 构造词汇表 V:把选好的基函数组合成一个有限的词汇表 V。
接下来,研究人员用严格的数学证明,展示了词汇表 V 的万能逼近能力。对于任何连续映射 f、紧集 Ω 和 ε>0,存在 V 中的一个有限序列,使得它们的复合映射能在 Ω 上近似 f 且逼近误差小于 ε。这结果展示了函数复合的近似能力,也为正则语言提供了新的模型。
通过这些方法和理论证明,本文展示了有限词汇表 V 在深度神经网络中的应用潜力,为解决复杂的非序列问题提供了新的思路。论文的研究结果为正则语言模型提供了新的视角和方法。通过将深度神经网络的映射视为 “词”,并证明有限词汇表的存在,研究为语言模型的构建提供了新的思路。这种方法可以简化模型的复杂度,提高泛化能力和逼近精度,为自然语言处理和其他序列建模任务提供了新的工具和理念。
论文主要是理论研究,但其结果在实际应用中潜力巨大。首先,证明有限词汇表的存在有助于开发更高效的深度学习模型,减少计算资源的消耗。其次,这种方法可以应用于各种非序列问题的序列化处理,如图像识别、语音识别等,提升模型性能和应用效果。