OpenAI最新的推理大模型o1与GPT-4o有什么区别?

nidongde2024-09-19 13:02:5681

OpenAI 的 o1 模型是当前最强大的具有超强推理能力的大语言模型。

但是,o1模型本身的能力如何,o1版本和o1-mini版本模型的差异在哪等似乎都很不清晰。OpenAI 在 Twitter 上举办了一次AMA(Ask me anything)活动,解答了很多大家关心的问题。

01
OpenAI的o1模型不同版本的差异

OpenAI的o1模型包含两个不同参数规模版本:

  • o1:较大参数规模版本。

  • o1-mini:较小参数规模版本。

  • o1-preview:当前o1模型可能是没有训练完成(也可能是训练完成没有发布),发布的o1-preview版本是o1模型训练过程中的一个checkpoint。

虽然o1-mini的参数规模相对较小,但是与o1-preview相比,有些能力可能更强。

o1-mini模型在STEM相关任务上(Science、Technology、Engineering和Math)表现很好,在编程相关的任务上甚至好于o1-preview。不过o1-mini的世界知识更少。

由于o1-mini模型更小更快,因此它可以比o1-preivew有探索更多的思维链(thought chain),这一点也许是获得更高准确性的一个关键。因为根据OpenAI官方的数据,推理迭代次数越多(也就是如果能探索更多的思维链),准确性也越高。

02
o1系列模型与GPT-4o模型的差别

根据官方的描述,o1模型是一个全新的模型,它不是一个类似GPT-4o+系统工程做出来的。

o1系列模型与GPT-4o模型唯一的相同点可能就是它们使用了相同的tokenizer,输入的token数的计算逻辑和GPT-4o一样。

不过,OpenAI官方描述说o1模型可以处理更长的输入文本,原话如下:


o1 models can handle longer, more open-ended tasks with less need for chunking input compared to GPT-4o.

这句话至少告诉了我们如下信息:

  • o1具有更长文本处理能力:”longer tasks” 指的是需要处理大量文本或信息的任务。o1模型能够一次性处理更长的输入,而不需要将其分成多个小块。

  • 开放式任务:”more open-ended tasks” 指那些没有明确定义的边界或单一答案的任务。这可能包括创意写作、复杂问题解决、长篇分析等。

  • 减少分块需求:”less need for chunking input” 是这句话的关键。在处理长文本时,旧模型(如GPT-4o)常常需要将输入分成多个小块,逐块处理后再整合结果。o1模型减少了这种需求,能够更整体地处理长文本。

03
关注o1必备的GitHub库

在这个名为Awesome-LLM-Strawberry的GitHub库中,涵盖了大量关于o1的信息。

GitHub库:https://github.com/hijkzzz/Awesome-LLM-Strawberry

01

关于o1的博客

  • 博客:Learning to Reason with LLMs

  • 作者:OpenAI

  • 链接:https://openai.com/index/learning-to-reason-with-llms/

  • 概述:这篇博客介绍了OpenAI o1的训练方法,其中包括链式推理、自我批评、验证、多步骤推理、任务分解和蒙特卡洛树搜索等技术。


  • 博客:OpenAI o1-mini

  • 作者:OpenAI

  • 链接:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

  • 概述:介绍了o1 mini模型在推理成本和效率方面的改进,在保持高推理性能的同时,显著降低了计算和运行成本。


  • 博客:Finding GPT-4’s mistakes with GPT-4

  • 作者:OpenAI

  • 链接:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

  • 概述:讨论了如何利用GPT-4模型自身来发现和修正生成的错误。文章中提到的“自我审查方法”通过双重评估提高了错误检测的准确性,从而让模型输出的内容变得更加可靠。


  • 博客:Summary of what we have learned during AMA hour with the OpenAI o1 team

  • 作者:Tibor Blaho

  • 链接:https://twitter-thread.com/t/1834686946846597281

  • 𝕏:https://x.com/btibor91/status/1834686946846597281

  • 概述:这篇博客总结了OpenAI团队在AMA(问答环节)中分享的关于o1模型的主要内容和特性。其中包括:模型的推理范式以及规模和性能、输入token上下文和模型能力、CoT(思维链)推理、API和使用限制、定价、微调和扩展等内容。


  • 博客:Reverse engineering OpenAI’s o1

  • 作者:Nathan Lambert

  • 链接:https://www.interconnects.ai/p/reverse-engineering-openai-o1

  • 概述:文章详细讲了OpenAI的o1模型,重点在于它的推理能力。o1通过生成复杂的思维链来处理复杂任务,比以前的模型表现更出色。还讨论了o1的设计和训练细节,特别是它如何通过优化数据处理和算法来提高推理效率。同时指出,相比单纯增加模型规模,提升推理计算投入对提升模型性能更有效。


02

OpenAI o1贡献者参与撰写的论文

01
  • 论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

  • 作者:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

  • 团队:Google Research, Brain Team(谷歌大脑)

  • 链接:https://arxiv.org/pdf/2201.11903

  • 概述:发布于2022年1月,文章讨论了如何通过生成一系列中间推理步骤(思维链)来大幅提升大型语言模型的复杂推理能力。作者提出了一种叫做“思维链提示”的方法,具体做法是在提示中给出一些思维链的示例,帮助模型进行更深入的推理。最终实验结果显示,它在三个大型语言模型上都显著提高了它们在算术、常识和符号推理任务中的表现。


02
  • 论文:Let’s Verify Step by Step

  • 作者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

  • 团队:OpenAI

  • 链接:https://arxiv.org/abs/2305.20050

  • 概述:发布于2023年5月,文章讨论了大型语言模型在复杂多步推理任务中的表现。作者比较了两种训练方法:一种只关注最终结果,另一种关注每一步推理。结果显示,关注每一步推理的方法更有效,能在MATH数据集上提高到78%的成功率。文中还强调了主动学习在提升训练效果中的重要性,并发布了一个包含80万个步骤级反馈的PRM800K数据集,用于训练最佳模型。


03
  • 论文:LLM Critics Help Catch LLM Bugs

  • 作者:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike

  • 团队:OpenAI

  • 链接:https://arxiv.org/abs/2407.00215

  • 概述:发布于2024年6月,文中介绍了用“批评者”(CriticGPT)模型来提升机器学习模型输出的评估。这些批评者模型能更有效地发现代码中的错误,甚至能找到人类可能忽略的问题。尽管这些模型有时会出错,但与人类结合使用可以减少误导,同时提高错误检测的效率。



2024年发布:


2023年发布:

参考:
https://www.sohu.com/a/809745718_610300
https://www.datalearner.com/blog/1051726411663762

本文链接:https://houze.cc/gpt5/111.html

chatgpt5.0发布chatgpt5.0官网chatgpt5.0可以使用了么chatgpt5.0手机版chatgpt5.0手机版在哪里下载gpt5.0 会员要交钱是真的吗gpt5军事用途gpt5教程为什么暂停训练gpt5手机gpt5

相关文章