摘要
OpenAI 于北京时间2024年9月13日凌晨发布了全新的大模型 OpenAI o1系列,新模型在复杂推理任务方面取得了重大进步,基于此,采用了新的模型命名 OpenAI,并从1开始计数,表明了该模型的里程碑式的意义。
新模型能够在回应之前花费更多时间进行思考,从而在科学、编程和数学等领域解决比以往模型更加复杂的问题,并且超越人类博士生的水平。
OpenAI o1 的核心特点
深入思考与推理能力
新模型能够像人类一样在回答问题前进行深入思考,通过训练学习优化思考过程,尝试不同的策略,并识别错误。
新模型功能表现
物理、化学和生物学等学科:在 GPQA 基准任务上的表现超过了人类博士的水平。
数学学科:在国际数学奥林匹克竞赛(IMO)的资格赛中,新模型的解题准确率高达83%,远高于4个月前发布的模型 GPT-4o 13%的准确率。
编程能力:在Codeforces这样的编程竞赛中,o1 系列模型的表现达到了第89百分位,这意味着它在所有参与者中排名前11%,在解决复杂编程问题方面具有很强的能力
OpenAI o1 的思考链
OpenAI 使用大规模的强化学习算法来训练 o1 模型,类似于人类在面对难题时会进行深入思考,o1 模型在解决问题时也会构建一个“思考链”(chain of thought),即一系列逻辑步骤,教会模型如何高效地进行思考,帮助它逐步推理和解决问题。
强化学习:强化学习是一种让模型通过奖励和惩罚来学习最优行为的方法,o1 模型基于此学习识别并纠正自己的错误,随着时间的推移提高其准确性和可靠性。
分解复杂步骤:模型学习将复杂的问题分解为更简单的步骤,这使得它能够更有效地处理难题,并逐步构建解决方案。
策略调整:当前方法不奏效时,o1 模型会尝试不同的方法。这种灵活性是提高问题解决能力的关键,使模型能够适应各种不同的问题和情况。
随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 模型的性能持续提高。这表明模型能够通过更多的训练和思考来优化其推理和决策能力。
训练时计算(train-time compute):指的是在模型训练阶段使用的计算资源,包括处理数据、更新模型参数等。
OpenAI o1 与 GPT-4o 的对比
OpenAI o1 在复杂任务的推理能力上显著高于 GPT-4o
学科 | OpenAI o1 | GPT-4o |
---|---|---|
数学竞赛 AIME | 准确率:83.3% | 准确率:13.4% |
编程竞赛 Codeforces | 百分位:89.0 | 百分位:11.0 |
物理、化学和生物学 GPQA | 准确率:78.0% | 准确率:56.1% |
在更广泛的基准测试中,OpenAI o1 的表现都要明显优于 GPT-4o,并且超过人类的预期。比如,OpenAI o1 在 MMLU基准测试的54个子类别任务(总共57个子类别)上超越了 GPT-4o 模型的表现。
备注:MMLU (Massive Multitask Language Understanding)是一个广泛用于评估语言模型在多种语言理解和推理任务上性能的测试套件,包含多个子类别,比如各种不同的语言任务,如情感分析、文本蕴含、问答、自然语言推理等。这些任务覆盖了语言模型需要处理的多种语言现象和推理挑战。
OpenAI o1 的不足
作为一个早期模型(该系列第一个模型),还不具备 ChatGPT 系列模型的部分功能:
浏览网页:OpenAI o1 目前不能主动浏览互联网来获取信息,这意味着它不能像 ChatGPT 那样实时访问和引用最新的在线数据。
上传文件和图像:OpenAI o1 还不能处理用户上传的文件和图像,这限制了它在需要分析和理解非文本内容的场景中的应用。
但是相信随着模型迭代,这些基础能力都会得到补充。
如何使用
访问权限:ChatGPT Plus 用户和团队用户将能够从今天开始在 ChatGPT 中访问 o1 模型
模型选择:用户可以在模型选择器中手动选择 o1-preview 和 o1-mini 模型
o1-preview:适用于需要复杂推理和广泛知识的任务
o1-mini:是一个更小、更专注的版本,特别适合编程任务,并且成本效益更高
使用限制:在推出时,o1-preview 模型的每周消息限制为 30 条,而 o1-mini 模型的每周消息限制为 50 条
本文链接:https://houze.cc/gpt5/105.html
chatgpt5.0出了吗怎么看chatgpt5的最近进展gpt5背后的逻辑gpt5 摄像头gpt5教程类人机器人gpt5gpt5怎么试用open ai创始人分享gpt5gpt5.0功能gpt5编程
网友评论