GPT-5的迟迟未能发布,跟OpenAI面临的Scaling law实现路径有关。OpenAI无法单纯依靠算力的力量实现有商业价值且足够智能的全新一代大模型,但这并不意味着算力逻辑的崩溃,相反,对于OpenAI而言,某种程度上说,现在比以往时候更加需要算力,更多更大的算力,为他们赢得时间。
2019年3月13日,加拿大计算机科学家与 DeepMind 的首席科学顾问里奇·萨顿(Rich Sutton)在他那篇著名的《苦涩的教训》中提到:
在无穷的算力面前,人类的知识都只不过是一些小聪明而已。
这是Scaling law(缩放定律)的最原始文章。Rich Sutton的这篇文章号称每个OpenAI员工都会背,就是为了坚定在Scaling law的信仰。这篇文章里,萨顿告诉我们了一个基本理论:
“算力才是王道,其他都是干扰” 。
此后OpenAI也是这么做的,率先通过大算力的训练,得到了ChatGPT。
萨顿教授从过去人类60年的AI研究中总结出过去AI研究的基本逻辑:
1,研究者总想构建一些知识并教给 AI;
2,这些知识在短期内让人感觉是有用的;
3,但是从长远看,人类构建的知识有个明显的天花板,它们的发展会被限制;
4,让 AI 自行搜索和学习的暴力破解法,最终才能带来突破性进展。
在研究AI产业发展的趋势以及思考算力的需求及未来可能的竞争格局之前,我们非常有必要系统又深入简出的了解一下Scaling law的内涵:
缩放定律到底是什么?缩放什么?为什么每个人都对它们感到兴奋(或害怕)?
先总结一下:Scaling law的核心是,当你增加模型的以下3个指标时,大型语言模型 (LLM) 的损失会减少:
1,参数;
2,训练数据;
3,算力;
上面这个图,分别代表了算力、数据规模、参数规模扩大时,LLM的损失曲线。
这就是为什么目前AI的核心理论支撑就是Scaling law,因为缩放定律会导致损失略有改善,但LLM的能力的大幅提高,这意味着我们不需要依赖在理论或架构上持续取得进步来显著增强 LLM 的能力,而是可以让GPU尽情发挥,就可以获得非常好的AI涌现。
前面提到对于Scaling law的领先研究和技术落地,让OpenAI率先推出了ChatGPT,一瞬间引爆了整个世界对于AI的关注。
但是不久之后,2022 年,DeepMind 颠覆了我们对缩放定律的理解——并引发了一场“新AI军备竞赛”...DeepMind 的一个例子,通过一些微小的改进为LLM带来了大规模泛化和新功能。
DeepMind 的新缩放定律指出,随着计算预算的增加,参数和数据应该同等缩放。
在研究中,DeepMind训练了两个LLM:Gopher 和 Chinchilla。
Chinchilla的训练效率更高,其交叉熵为1.97,而 Gopher 的交叉熵为 2.05(越大越好,意味着损失越小),仅提高了4%。
然而在一系列高级任务(例如高中数学)上,Chinchilla 却完胜 Gopher。Chinchilla在MMLU(一个多任务语言理解数据集,涵盖从专业医学考试到高中化学的考试)上的表现平均比 Gopher好10倍,同时在大学物理竞赛中以超过30倍的优势战胜了Gopher。
Deepmind在学术上到底做了什么努力,让Scaling law不再那么“依赖”扩大参数以及提高GPU算力来提升LLM的能力?
答案是:数据。
DeepMind关于Chinchilla 论文的结论是:传统的LLM训练极其浪费,并发现了需要更多数据而非参数的缩放定律。
DeepMind发现了一个关键,AI正面临着数据限制,尤其是高质量数据的匮乏正在限制大模型的向前推进。对于固定的算力预算,数据与参数之间存在一个最佳点。
DeepMind 找到了这个最佳点,把这个作为计算预算的函数——这就是DeepMind对缩放定律的新理解,红线链接的每一个最低点,就是New Scaling Law。这个研究告诉我们如何在增加计算预算时以最佳方式扩展数据和 LLM参数,并预测损失如何随着我们的数据、参数增加而减少。
结果,在语言任务上,Chinchilla 远远超过了其他大模型。
DeepMind告诉我们,谁获得最大的高质量文本数据集谁就获胜。这给谷歌等真正索引互联网的公司带来了天然的优势。
可以说,在技术落地方面,是OpenAI在2020年发现了LLM的缩放定律——但一个细微的错误使得OpenAI给出了错误的定律,而这些定律多年来一直未被质疑。
OpenAI 在 2020 年发表的原始论文得出结论:参数的扩展程度应该比数据的扩展程度高得多。
结果,两年的LLM训练确实就被浪费了。也就是说,ChatGPT当时所对应的产品能力,原本应该更好。
那么OpenAI为什么会犯这个错误?
在 2020 年的原始论文中,OpenAI在所有模型上都使用了固定的算力假设以及训练计划,也就是说,OpenAI人为的侧重于参数的提升,而忽视了数据的意义。而Chinchilla 使用了与GPT-3同等的算力预算,参数只有1/4,但数据是4倍。
虽然目前来看,OpenAI的GPT-5在训练上遇到的问题并不小,这也能够解释GPT-4o当时为什么要在Google发布会前一天搞狙击,就是为了通过提前发布,让OpenAI不至于被Google盖过风头,从而影响“领导地位”。
OpenAI明显走了弯路,Ilya的离职很可能一方面是因为在AI安全上的理念分歧,另一方面也是因为看到了OpenAI在算力上的资源倾斜可能出了问题。
最新的消息是,Ilya 的新公司,十个员工、估值50亿美金,融资10亿美金。他对 Scaling Law 最近有了新的思考,翻译了一下:
苏茨克韦尔是早期的Scaling law倡导者,也是对芯片、数据中心和能源领域的人工智能投资浪潮,为像 ChatGPT 这样的生成式人工智能的进步奠定了基础。
苏茨克韦尔表示,他将以与前雇主不同的方式来对待规模扩展,但没有透露细节:“每个人都只说规模扩展假设。每个人都忽略了一个问题,我们在扩展什么?”他说。
“有些人可以长时间工作,他们只是会更快地沿着同样的道路前进。这不是我们的风格。但如果你做一些不同的事情,那么你就有可能做出特别的事情。”
很明显,对于OpenAI的Scaling Law,Ilya有不一样的理解。这可能是GPT-5遇到巨大问题的另一个佐证。
OpenAI在寻求新一轮融资,那就必须要讲出新的故事,例如GPT-5,以及Scaling Law的全新理解和路径的验证结果。
而从目前ScalingLaw的学术进展来看,无论是数据还是参数,亦或者是其他,都并不妨碍算力作为核心预算的假设。
只要ScalingLaw有效,那么无穷的算力就是必然的追求方向,而参数、数据以及(LLM的)词汇量,都是在固定算力预算上进行的改进。
也就说:在确定的参数、数据等的条件下,更大的算力必然会产生更多的AI涌现,也会生成更多的功能和应用。
类似于摩尔定律,无论设计怎么改、芯片结构有什么创新,更先进的制程都是提高芯片综合能力的最核心手段。
我们无法怀疑算力的庞大需求,ScalingLaw离上限还有茫茫远的路径。甚至于,OpenAI因为微软的支持,在理论调整他同时,依靠超大的算力,正在大力出奇迹,先弄出一些“还算进步”的功能,继续为自己赢得下一代模型突破的时间。
这,可能就是Strawberry模型的战术意义。
(全文完)
本文链接:https://houze.cc/gpt5/114.html
chatgpt5.0什么时候公测chatgpt5.0与4.0对比chatgpt5.0自我训练gpt5在国内什么时候能用gpt5.0进货gpt5.0可以做什么gpt5参数多少gpt5.0功能gpt5 数据gpt5最新进展
网友评论