页面

OpenAI O1介绍

首发两种模型：o1-mini：具有成本效益的小模型，尤其在数学和编码方面表现优异，几乎与o1的性能相当。它适用于需要推理但不涉及广泛世界知识的应用程序，且运行速度更快。o1-preview：o1的预览版本，能力略弱于之后发布的全量o1，但推理能力已经比现有最强模型GPT-4o强大许多。

在各种基准测试中o1系列都狠狠秒了现有的最强模型GPT-4o，意味着大模型的能力在一夜之间又发生了一次飞跃，新模型可以实现更加复杂的推理，解决以往需要大量人工辅助解决的问题。

OpenAI CEO 山姆·奥特曼多次高调预热的模型 “草莓” 正是本次发布的o1系列，它通过以前从未在大语言模型中产品化的强化学习技术实现。

他表示虽然 o1 仍然有缺陷，但在首次使用仍会感到震撼。

目前在 OpenAI 官方能够有限制地使用新模型

Plus用户每周可以使用 o1-preview 30 次，o1-mini 50 次。是的，仅仅是每周。

并且由于是预览版本，诸如读取图片，文件等功能都暂未支持。

OpenAI 计划定期更新和改进这些模型，并在未来扩展到更多的 ChatGPT 免费用户。

这样看来，新的模型如果需要大量使用，仍然需要较高的成本，还需要一段时间的规模扩张。

o1 系列模型的核心创新在于其复杂的推理能力，这一切得益于其背后的强化学习技术。

在回答问题之前，o1模型会进行深度思考，生成一条长长的“思维链”，这使得它在推理任务中能够采取类似于人类的策略，进行多次反思和改进。

但OpenAI考虑后决定不将思维链的内容放出，减少了用户对AI自我反思过程的了解。

强化学习与o1模型的结合

强化学习是一种机器学习方法，模型通过与环境交互并获得反馈来不断改进自身行为。与传统的监督学习不同，强化学习不仅需要通过固定的输入输出对进行训练，更强调决策过程中的长期回报。这正是o1模型在解决复杂推理问题时的关键。

在o1模型中，强化学习允许模型在面对复杂问题时花更多的时间进行思考，通过尝试不同的策略找到最优解。这种基于强化学习的“思维链”机制让模型不仅能识别自己的错误，还能逐步完善推理过程。这种策略使得o1在一系列挑战性任务中的表现甚至超越了博士级别的专家。

o1的推理表现

在多个领域的基准测试中，o1系列的表现堪称惊艳。例如，在国际数学奥林匹克竞赛（IMO）的测试中，GPT-4o的正确率仅为13%，而o1模型的正确率高达83%。同样，在Codeforces编程竞赛中，o1的表现也进入了前89%的行列，显著超越了现有模型。

Sutton 在《苦涩的教训》中提到的概念，指出“学习和搜索”是可以无限扩展计算的两个技术。

OpenAI最新发布的OpenAI Strawberry 彻底革新了推理模型的研发方向，展示了推理过程在计算上的无限扩展可能。

正如 “苦涩的教训” 中提到，只有学习和搜索技术可以随着计算能力无限扩展。现在，是时候将注意力转向后者了。

1. 小模型也能实现强大推理

不需要一个庞大的模型来实现推理。许多参数用于记忆事实，以便在竞猜问答等基准测试中表现出色。然而，我们可以将推理与知识分开，例如构建一个小巧的“推理核心”，它可以调用浏览器或代码验证器等工具。这样，预训练的计算需求可能减少。

2. 计算重点转向推理阶段

大量计算能力从训练转移到推理阶段。大型语言模型作为文字模拟器，通过在模拟器中探索多种策略和情景，模型最终收敛于良好解决方案。这与AlphaGo的蒙特卡洛树搜索（MCTS）过程类似。

3. 推理扩展的科学发现

OpenAI可能早已掌握推理扩展规律，而学术界最近才发现。

两篇新论文探讨了推理计算扩展的效果：

通过重复采样扩展推理计算的研究。

测试时计算的优化扩展比仅扩展模型参数更有效。

4. 实际应用的挑战

如何确定何时停止搜索，设计奖励函数，以及何时调用工具，都是在真实世界中推理应用的挑战。

需要考虑CPU过程的计算成本。

由此可见，在OpenAI未来的计划中，o1的几十秒思考时间可能并不够长，未来每次问答或许会思考数小时甚至更久。

届时的此类推理模型或许会更多使用于推进科技发展进步，产品开发等

而用于日常生活的模型会是一些蒸馏过后的小模型或是减少反思轮数的模型。

OpenAI o1官网地址：https://openai.com/o1