最近,AI 领域的专家贾扬清在社交媒体上发表了自己的看法。他认为,尽管现在大家都在追求更大的模型,但未来的发展趋势可能会转向更小、更高效的模型。贾扬清提到,这种趋势和 CNN 的发展历程有点类似。在 ImageNet 时代,我们见证了模型参数的快速增长,但接下来,研究人员开始关注如何让模型变得更小、更高效。
AI 领域的另一位专家卡帕西也支持这一观点。他指出,当模型变大后,通过优化和数据重构,使其变小以实现更高效的计算是必然的。
在计算机视觉领域,卷积神经网络(CNN)曾是王者。早期的 CNN 模型,如 AlexNet 和 VGGNet,通过增加参数规模来提升性能。比如,2012 年的 AlexNet 以其数千万的参数引领了深度学习的潮流,而随后登场的 VGGNet 把参数数量提高到了上亿级别。不过,模型越大,计算资源和存储需求也跟着水涨船高。
为了应对这些问题,研究人员转而探索更小、更高效的模型。2015 年,GoogleNet 推出了 Inception 模块,大幅减少了参数数量,同时保持了高性能。同年,SqueezeNet 设计出紧凑的网络结构,把模型大小缩小到仅几 MB,但在 ImageNet 上的表现依然出色。这些小型模型的出现,标志着 CNN 时代从单纯追求参数规模,转向了效率和性能的双重平衡。
随着 Transformer 的兴起,尤其是在自然语言处理(NLP)领域,模型参数规模再次迎来爆发式增长。以 GPT 系列为例,GPT-2 的参数达到了 15 亿,而 GPT-3 更是达到了 1750 亿。尽管这些大模型在多个任务上表现出色,但高昂的计算成本和资源需求也引发了广泛关注。
于是,研究人员和企业开始研究小型模型的可能性。像 GPT-4o mini、苹果的 DCLM-7B 和谷歌的 Gemma 2B 等小型模型相继问世。这些模型在保持高性能的同时,大大降低了计算成本和资源需求。
大模型在数据重构和合成中展现了不俗的能力。通过大规模的无监督学习,这些模型能够从海量数据中提取有用信息,并生成高质量的输出。不过,在特定任务中,小模型往往更胜一筹。比如,Mistral AI 的 Mistral NeMo 在多语言应用中表现出色,超过了 Gemma 2 9B 和 Llama 3 8B。这说明,在某些特定领域,小模型通过专门的训练和优化,可以达到甚至超越大模型的表现。
大模型的高计算成本是个大麻烦。训练和运行这些模型需要大量的计算资源和电力,导致运营成本居高不下。相比之下,小模型在成本效益上具有明显优势。比如,GPT-4o mini 每百万输入 Token 的成本仅为 15 美分,比上一代模型便宜了 60% 以上。这使得小模型在实际应用中更具吸引力,尤其对于资源有限的企业和研究机构来说更是如此。
模型尺寸的变化反映了技术和应用需求的不断演进。从早期的参数规模增长,到如今的小型高效模型,研究人员和企业在追求性能和成本效益的平衡中,不断探索新的可能性。