这是故意泄露吗?OpenAI 对人工智能行业的影响力不容小觑。每一个动作或决策都自动成为头条新闻……即使他们没有真正宣布这件事。
几天前,许多人都曾玩过的一个模型被删除后,整个AI行业都对此感到着迷。这个模型被命名为“gpt2-chatbot”,在 lmsys.org 的“直接聊天”功能中可以访问几天。
但为什么会引起这么大的轰动呢?
这是因为这个模型与我们以前见过的任何模型都不一样。它处于一个完全不同的水平。
因此,许多人认为这是 ChatGPT-4.5 或甚至 GPT-5 的非官方预告。或者,更令人兴奋的是,使用数字“2”作为即将到来的新一代长推理模型的信号。
连 OpenAI 的 CEO Sam Altman 也无法抗拒承认它的存在,并在此过程中对我们进行了挑逗:
那么,这个模型到底有多好,它到底是什么呢?
即将到来的预告
随着每一天的过去,很明显 OpenAI 的下一个模型将在推理和复杂问题解决方面实现飞跃。
为了证明这个新的神秘模型可能就是它,这里有一些示例,表明这个神秘模型的能力,可能意味着这艘船已经抵达那个港口:
下面所有的例子都被认为是当前最先进的模型难以解决或根本不可能解决的。
首先,它在零射击模式下解决了一个数学奥林匹克问题(没有提供辅助例子来支持解决方案):
我甚至无法开始解释前一个例子有多疯狂,用当前最先进的模型得到这样的答案绝对是不可能的。
它在解析 JSON 的能力也非常出色,这是 LLM 与 API 和其他基于网络的工具集成的基本技能。
此外,它在复杂的绘图任务(如根据代码绘制 SVG 文件或使用 ASCII 代码绘制独角兽)上完全击败了 GPT-4,过程中羞辱了当前最先进的 Claude 3 Opus:
gpt2-chatbot(左)和 Claude 3 Opus(右)
此外,尽管这很可能只是一种幻觉,但该模型声称它是由 OpenAI 训练的,基于 GPT-4 变体。
当然,在如此强大的表现之后,许多人建议“gpt2-chatbot”可能甚至是著名的 Q* 模型。
但我们不要只是屈服于人们提出的各种奇思妙想,让我们采取更明智的方法,看看 OpenAI 本身通过几个月(甚至几年)的研究在暗示什么。
长推理的力量
几个月来,像 Demis Hassabis 或 Andrej Karpathy 这样的空间专家已经讨论了单靠 LLMs 是不够的,我们需要“某些其他东西”才能真正将它们推向下一个阶段。
在这两种情况下,他们都指的是实现“AlphaGo 但在 LLMs 中”的等价物,这实际上是间接提到:
•自我改善
•测试时计算 LLMs
但他们指的是什么?
AI 的一大步
AlphaGo 是 AI 的历史。它是第一个无可争议地在围棋游戏中超越人类能力的模型,围棋是一种棋盘游戏。
它使用蒙特卡罗树搜索算法,探索任何给定步骤中可能的走法,能够超越当前动作并预测对方玩家会做什么。
你们中的一些人可能还记得 Deep Blue,那是在 1997 年第二局比赛中勉强击败 Gary Kasparov 的棋机,在输掉第一局后。
然而,尽管 Deep Blue 可以被击败,AlphaGo 却是不可战胜的。
但怎样做到的呢?
自我改进以达到超人类水平
使 AlphaGo 优越的关键因素是其训练方式,通过与自身的较弱版本对战来创建自我改善循环。
它不断地与自己对战,逐渐提高其 ELO 到 3.739,几乎达到当今最佳围棋选手的水平。
在 2017 年,一个改进版 AlphaZero 达到了 5.018 ELO,完全超越人类且无法被击败。
换句话说,通过 AlphaGo,人类首次找到了通过自我改善来训练模型的方法,使其达到超人类能力,因为它不再依赖于模仿人类来学习。
如果你好奇,LLMs 并非如此。
当前的 LLMs 完全受限于人类级别的表现,因为所有数据和训练本质上都依赖于人类(到了训练过程中的对齐阶段,即模型被建模以提高其安全级别并避免攻击性响应的部分,严格使用“人类偏好”执行)。
顺便说一下,Meta 最近提出了自奖励模型,这些模型可以通过自己的响应进行自我改善。然而,这种反馈循环是否真的可以使 LLMs 超越人类还不清楚。
但尽管很难相信“gpt2-chatbot”是通过自我改善训练的,我们有充分的理由相信这是 OpenAI 多年来一直在努力实现的测试时间计算的第一次成功实施。
测试时间计算模型的到来
测试时间计算模型的到来
多年来,OpenAI 的几篇研究论文暗示了这一将模型倾向于“重推理”的想法。
例如,早在 2021 年,他们就提出了在推理时使用“验证器”来改善模型响应的概念。
这个想法是训练一个辅助模型,该模型会实时评估模型给出的几个响应,选择最佳响应(然后呈现给用户)。
这与 AlphaGo 使用的某种树搜索算法结合在一起,例如 Google Deepmind 对 LLMs 进行的 Tree-of-Thought 研究,你最终可以创建一个在回答之前探索“可能响应的领域”的 LLM,仔细筛选并选择解决方案的最佳路径。
树状思考的一个例子
尽管这个想法早在 2021 年就由 OpenAI 提出,但如今这个想法变得非常流行,微软和 Google 的跨界研究正在应用它来培训下一代验证器,Google 甚至成功创建了一个模型,Alphacode,执行了这种架构并取得了巨大的成功,在竞争激烈的程序员中达到了 85% 的百分位,这些程序员是最优秀的人类。
那么为什么这一代新的 LLMs 有如此大的潜力呢?
好吧,因为它们解决问题的方式与人类非常相似,通过有意识且广泛的思考来解决给定任务。
总之,将“搜索+LLM”模型视为分配更多计算资源(类似于人类思维)给模型实际运行时间的 AI 系统,这样,它们就不必立即猜测正确的解决方案,而是简单地说,“给予更多时间来思考”。
但 OpenAI 已经更进一步。
用于改进数学执行的 PRM 模型
就在去年五月,他们发布了 Let’s Verify Step-by-Step 论文,OpenAI 的首席科学家 Ilya Sutskever 和一些原始验证论文的研究人员如 Karl Cobbe 参与了这项工作。
这里的想法是修改模型对齐阶段使用的奖励模型。
尽管我建议查阅这篇文章以获取有关 LLM 训练的完整指南,但创建像 ChatGPT 这样的产品的过程的最后一步是使用来自人类反馈的强化学习,或 RLHF。
这个想法是让模型改进其决策。因此,我们训练一个辅助奖励模型(本质上是与正在训练的模型几乎相同的模型副本),该模型学会根据人类偏好对训练模型的结果进行排序。
今天大多数奖励模型都是 ORM,或称为结果监督奖励模型。通俗地说,为了评估模型预测的正确程度,它们会全局查看,忽略整个“思考过程”。
另一方面,PRM,或过程监督奖励模型,会评估模型响应中的每一个步骤。因此,它们“迫使”模型在整个过程中密切注意并付出努力,这在像下面这样的情况中至关重要:
然而,这是一个非常非常昂贵的过程,因为偏好数据需要重大的人工制作,以便可以应用监督信号。因此,每个训练示例都有数十个甚至更多的奖励要衡量。
因此,“gpt2-chatbot”可能包括了某种奖励训练的变体,考虑到它在制定计划和执行复杂问题解决方案方面的熟练程度。
不可能不感到兴奋
考虑到 gpt2-chatbot 的疯狂表现,并牢记 OpenAI 最近的研究和泄露,我们现在可能已经对这个东西是什么有了一个很好的概念。
我们可以肯定的是,我们很快就会面对一个完全不同的野兽,一个将会将 AI 的影响提升到一个新的水平。
•我们是否终于达到了让 LLMs 超越人类水平的里程碑,就像我们曾经用 AlphaGo 做到的那样?
•AI 征服系统 2 思维的长时间推理时代即将到来吗?
可能还没有。然而,很难不为我们即将在未来几个月内见证的疯狂发展感到高度乐观。
与此同时,我想我们将不得不等待以获取这些答案,但不会太久。
本文链接:https://houze.cc/gpt5/74.html
chatgpt5.0是什么chatgpt5.0概念股chatgpt5叫停chatgpt5.0参数chatgpt5.0预计什么时候上线chatgpt5.0能做一些什么chatgpt5.0和4.0chatgpt5.0有哪些功能gpt5游戏gpt5是哪个国家的
网友评论