OpenAI o1：今天 OpenAI 发布了全新的里程碑式的大模型

nidongde2024-09-13 13:04:18116

摘要

OpenAI 于北京时间2024年9月13日凌晨发布了全新的大模型 OpenAI o1系列，新模型在复杂推理任务方面取得了重大进步，基于此，采用了新的模型命名 OpenAI，并从1开始计数，表明了该模型的里程碑式的意义。

新模型能够在回应之前花费更多时间进行思考，从而在科学、编程和数学等领域解决比以往模型更加复杂的问题，并且超越人类博士生的水平。

OpenAI o1 的核心特点

深入思考与推理能力

新模型能够像人类一样在回答问题前进行深入思考，通过训练学习优化思考过程，尝试不同的策略，并识别错误。

新模型功能表现

物理、化学和生物学等学科：在 GPQA 基准任务上的表现超过了人类博士的水平。
数学学科：在国际数学奥林匹克竞赛（IMO）的资格赛中，新模型的解题准确率高达83%，远高于4个月前发布的模型 GPT-4o 13%的准确率。
编程能力：在Codeforces这样的编程竞赛中，o1 系列模型的表现达到了第89百分位，这意味着它在所有参与者中排名前11%，在解决复杂编程问题方面具有很强的能力

OpenAI o1 的思考链

OpenAI 使用大规模的强化学习算法来训练 o1 模型，类似于人类在面对难题时会进行深入思考，o1 模型在解决问题时也会构建一个“思考链”（chain of thought），即一系列逻辑步骤，教会模型如何高效地进行思考，帮助它逐步推理和解决问题。

强化学习：强化学习是一种让模型通过奖励和惩罚来学习最优行为的方法，o1 模型基于此学习识别并纠正自己的错误，随着时间的推移提高其准确性和可靠性。
分解复杂步骤：模型学习将复杂的问题分解为更简单的步骤，这使得它能够更有效地处理难题，并逐步构建解决方案。
策略调整：当前方法不奏效时，o1 模型会尝试不同的方法。这种灵活性是提高问题解决能力的关键，使模型能够适应各种不同的问题和情况。

随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 模型的性能持续提高。这表明模型能够通过更多的训练和思考来优化其推理和决策能力。

训练时计算（train-time compute）：指的是在模型训练阶段使用的计算资源，包括处理数据、更新模型参数等。

OpenAI o1 与 GPT-4o 的对比

OpenAI o1 在复杂任务的推理能力上显著高于 GPT-4o

学科	OpenAI o1	GPT-4o
数学竞赛 AIME	准确率：83.3%	准确率：13.4%
编程竞赛 Codeforces	百分位：89.0	百分位：11.0
物理、化学和生物学 GPQA	准确率：78.0%	准确率：56.1%

在更广泛的基准测试中，OpenAI o1 的表现都要明显优于 GPT-4o，并且超过人类的预期。比如，OpenAI o1 在 MMLU基准测试的54个子类别任务（总共57个子类别）上超越了 GPT-4o 模型的表现。

备注：MMLU （Massive Multitask Language Understanding）是一个广泛用于评估语言模型在多种语言理解和推理任务上性能的测试套件，包含多个子类别，比如各种不同的语言任务，如情感分析、文本蕴含、问答、自然语言推理等。这些任务覆盖了语言模型需要处理的多种语言现象和推理挑战。