OpenAI发布o1系列模型：AI推理能力迈向新高度

nidongde2024-09-24 19:16:11171

2024年9月12日，人工智能领域的领军企业OpenAI正式宣布推出全新的GPT-o1系列模型，即业界盛传的“草莓”模型。GPT-o1采用全新方法训练，专门设计用于解决复杂问题，在解决复杂的推理任务中具有重大进步，并且在科学、编程和数学等领域展现出前所未有的性能，甚至具有专家型人才的水平，这标志着AI推理能力的重大突破。

OpenAI在社交媒体上发布新系列模型

1. 名称由来

OpenAI新系列模型的命名并没有采用之前宣传的‘草莓’，而是起名为o1，关于这一名字的由来，OpenAI官方的解释为：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来就是：“对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。”该名称中的“o”或指代“Orion”，即“猎户座”。

官方宣传图

2. 版本介绍

OpenAI并没有直接发布o1的正式版，而是先发布了其两个测试版本：o1-preview预览版和o1-mini迷你版。

o1-preview是系列推理模型在 ChatGPT 和 API 中的早期预览，OpenAI 还计划继续开发并发布 GPT 系列的模型，同时发布新的 OpenAI o1系列模型。
o1-mini是一款更快、更便宜的推理模型，特别适用于编程，旨在为开发人员提供更高效的解决方案。作为较小的模型，o1-mini 的成本比 o1 预览版便宜 80%，是一款适合需要推理但不需要广泛世界知识的应用的强大且具成本效益的模型。此外，OpenAI 也计划为所有ChatGPT免费用户提供 o1-mini 访问权限。

3. 运作机制

首先，o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练”，这个数据集中包含“推理数据”和专门为其量身定制的科学文献。其次，之前的GPT模型训练方法是模仿数据集的规律或范式（pattern），而o1采用“强化学习”的方式，通过奖励和惩罚来教导模型自行解决问题，再通过“思路链”（chain of thoughts）来处理用户查询的问题，给出思路链的总结摘要版，类似于人类一步步来处理问题的方式。

o1系列的核心创新在于其独特的"深度思考"机制。OpenAI通过先进的训练方法使得模型像人类一样在做出反应之前花更多时间思考问题，进行更全面、深入的推理过程。这种方法使AI能够尝试多种解决策略、识别并纠正推理过程中的错误以及逐步优化思考路径。

此外，如果点击“展示思路链”便可发现，o1模型在“思考”时似乎格外“拟人化”，加入了“嗯……”、“我很好奇”、“我正在思考”、“好的，让我想一下”等口语化的表达来推进思考步骤。

思维链

4. GPT-o1的优势

OpenAI称o1模型对于复杂的推理任务来说是个重大进步，代表了人工智能能力的新水平，而且模型“思考”的时间越长，在推理任务上的表现就越好，因为o1可以花更多时间来考虑一个复杂问题的所有部分，从而有效地进行事实核查。

具体来说，o1模型的推理能力大幅提升，在国际数学奥林匹克竞赛(IMO)资格考试中，o1模型正确率高达83%，远超GPT-4o的13%；在Codeforces编程竞赛中，o1的准确率达到了89%；在物理、化学、生物等领域的博士级科学问题(GPQA Diamond)中，人类专家水平是69.7%，o1则都达到了78%，表现接近博士生水平。作为预览版的o1-preview在上述测试中虽不如o1，但其表现相较于GPT-4o的提升也很显著。具体得分如下图所示：

性能评估1

性能评估2

对于“正在解决科学、编程、数学和类似领域复杂问题的人士”来说，这些增强的推理能力可能特别有用：

例如，医疗研究人员可以使用o1来注释细胞测序数据，物理学家可以使用o1来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用o1来构建和执行多步骤工作流程。

同时，o1模型的安全性得以提升，比之前模型更能遵守安全准则，并且更能抵抗产生有害内容。在用户试图绕过安全规则的“越狱测试”中，并且在最严格的标准下GPT-4o仅得22分（百分制），o1预览版的分数却高达84分。

5. GPT-o1的不足

作为o1模型的最初始版本，发布的o1-preview也有明显缺点。例如，o1只是一款“纯文字版”模型，暂时无法浏览网页信息以及上传文件和图片，不具备ChatGPT的许多功能，在很多常见情况下不如GPT-4o那么强大。

OpenAI还在一篇技术论文中承认，其收到了一些“轶事反馈”，称o1预览版和迷你版比GPT-4o及其迷你版更容易产生“幻觉”，也就是AI仍在很自信地编造答案，而且o1很少会承认它不知道问题的答案。

另外，虽然GPT-o1在数学与科学领域取得了巨大的进展，但其在文本创作和语言生成等任务上的表现与GPT-4o相比并无显著提升。因此，对于需要进行创意写作或文本编辑的任务，GPT-4o仍是较好的选择。但如果您需要AI协助解决数学问题、编程任务或进行科学研究，GPT-o1无疑是更佳的工具。

6. 如何使用GPT-o1

自9月12日起，ChatGPT Plus和Team用户可以在ChatGPT中访问o1模型（在对话界面的左上角的模型选择器中手动选择o1-preview或o1-mini模型），模型发布时规定的使用限制分别为30条/周和50条/周。

9月17日，OpenAI又宣布将使用限制放宽为现在的50条(o1-preview)/周和50条(o1-mini)/天，并且部分普通用户现在也可以免费访问o1-mini了。

模型选择器

如果您是Plus或Team用户，但在模型选择器中没有找到o1-preview和o1-mini模型，则可以直接在浏览器chatGPT对话页面的地址后输入“?model=o1-mini”或“?model=o1-preview”使用对应的模型。

7. GPT-o1使用体验

(1) 推理与计算能力

作为专注于推理的o1模型，最直观的感受就是其相对于其他模型的逻辑推理与数学运算能力有了显著提升。比如，对于一个经典的逻辑推理与数学计算问题：

A princess is as old as the prince will be when the princess is twice as old as the prince was when the princess's age was half the sum of their present age. What is the age of prince and princess? Provide all solutions to this question.

GPT-o1在思考一段时间后给出了正确答案，这是之前的所有模型无法做到的。

逻辑推理与计算能力大幅提升

又比如，在找出单词“strawberry”中有多少个“r”时，GPT-4o给出了错误答案“2”，而GPT-o1就能给出正确答案“3”。之所以像GPT-4o这样先进的模型会在如此简单的任务上犯错，是因为像4o这样的模型是为了处理文本，而不是字符或单词或介于两者之间的“字词（subword）”。

字符计数对比

这个例子表明，即使某些计数问题看似与推理无关，但加入了推理功能后就能有效避免错误，因为其可以对将要输出的结果进行审查。

尽管如此，GPT-o1在面对含有更加复杂的逻辑推理的字符计数问题中仍然会犯错，比如，它无法对自己已经输出的回答进行推理或审查：当问到“在你针对这个提示词的回答中有多少个字母‘r’”时，GPT-o1仍然给出了错误答案“There are five ‘r’s in my response.”，然而，在这句话中仅有四个‘r’。不过，通过简单的提示就能得到正确答案。

复杂的字符计数问题仍会犯错

(2) 代码编辑能力

此前，GPT-4o的代码编辑能力一度不如Anthropic的Claude-3.5模型，这次的o1模型解决了这个问题。下面是一个简单的示例：

代码编辑能力

模型在思考了44秒后给出了答案，运行代码后即可得到一个简单的3D甜甜圈旋转动画：

代码运行结果

8. 总结

GPT-o1在推理能力、思维链、记忆功能、多任务处理能力、强化学习训练、性能提升以及多样化应用场景等方面都具有显著的亮点和特点，展示了其在人工智能领域的强大潜力和广泛应用前景，但在以语言为中心的领域，o1-mini 相对于 GPT-4o的优势并不明显。此外，每周50条的o1-preview使用额度对于日常任务的处理是远远不够的，所以GPT-4o和4o mini在未来一段时间内可能仍然会是用户使用最多的模型。

本文链接：https://houze.cc/gpt5/116.html

chatgpt5.0即时编译 chatgpt5.0允许开发吗 chatgpt5.0功能 gpt5什么功能 gpt5什么时候发布的人类的最后一篇推文gpt5 gpt6和gpt5的区别 gpt5代码 gpt5 预测 gpt5.0国内中文版靠谱吗