OpenAI O1正式发布,详细介绍

nidongde2024-09-13 23:45:4056

OpenAI发布全新推理模型o1:

复杂问题解决能力再升级

近日,OpenAI发布了其备受期待的新模型o1,这一模型正是此前传闻中的“Strawberry”

o1以其卓越的推理能力和处理复杂问题的速度而备受瞩目,不仅在编程和数学难题上表现出色,还能详细解释其推理过程。

尽管o1在某些方面的性能超越了前代模型,如GPT-4o,但它同样面临着高成本和相对缓慢的问题。



#01

新一代推理模型登场

近日,人工智能领域的领军企业OpenAI宣布推出一款名为o1的新模型,这款模型在处理复杂查询方面的能力有了显著提升,比人类更快捷。

同时,还推出了一个更小、更便宜的版本——o1-mini。这一新模型正是之前备受瞩目的“Strawberry”模型。

对于OpenAI而言,o1不仅是其迈向类人智能道路上的一个重要里程碑,它在编写代码和解决多步骤问题上也表现出色。

然而,与GPT-4o相比,o1的使用成本更高且速度较慢。目前,OpenAI将其定义为“预览版”(o1-preview ),以强调其尚处于初期阶段。


#02

用户访问权限与定价策略

从今天起,ChatGPT Plus和Team用户将能够访问o1-preview和o1-mini,而Enterprise和Edu用户将在下周获得访问权限。

OpenAI计划未来向所有免费用户提供o1-mini的访问权限,但具体日期尚未确定。

开发者对o1的API访问费用则相当高昂:

o1-preview的输入令牌价格为每百万个收费为15美元,输出令牌价格为每百万个为60美元。

相比之下,GPT-4o的价格则为输入每百万个为5美元,输出每百万个为15美元。


#03

技术革新与训练方法

据OpenAI的研究负责人Jerry Tworek介绍,o1的训练方式与其前身有着根本性的不同。

Tworek表示,o1采用了全新的优化算法和专门为其定制的训练数据集。

与以往通过模仿训练数据中的模式来工作的GPT模型不同,o1通过强化学习技术训练,使其能够独立解决问题,并通过“思考链”来处理查询,类似于人类逐步解决问题的方式。

OpenAI 提供的图表。他们写道,“o1 在包括 54/57 MMLU 子类别在内的广泛基准上都比 GPT-4o 有所改进。”

得益于新的训练方法,OpenAI的研究负责人Jerry Tworek指出,o1在准确性上有所提高。“我们注意到这个模型较少出现幻觉性错误。” 他说,尽管这个问题仍然存在。

o1在解决如编程和数学等复杂问题方面表现突出,并能解释其推理过程。

OpenAI的首席研究官Bob McGrew透露,o1在AP数学测试上的表现超过了他本人,而在国际数学奥林匹克竞赛的资格考试中,o1的得分率高达83%,远超GPT-4o的13%。



#04

争议与质疑

然而,o1在世界事实知识方面不如GPT-4o,也不能浏览网页或处理文件和图像。即便如此,OpenAI认为o1代表了一种全新的能力类别。o1的命名意在“将计数器重置回1”。

Bob McGrew坦诚地说:“传统上我们在命名方面确实很糟糕。我希望这标志着我们开始使用更新、更理智的名字,以便更好地向外界传达我们的工作。”

在本周的一次视频通话中,McGrew和Tworek展示了它的解题能力。

他们给模型提出了一道复杂的年龄谜题,模型在30秒内给出了正确答案,并展示了其推理步骤。

令人印象深刻的是,o1似乎刻意模仿了类似人类的思维过程,使用诸如“我在思考”、“让我看看”这样的短语来创建一个逐步思考的错觉。

在回答的过程中添加了诸如“我很好奇”,“我正在思考”,“好的,让我看看”等短语创造了一种逐步思考的幻觉。

Is this what could “威胁到人类?”

自去年十一月以来,“Strawberry”一直受到广泛关注,最初它被称为Q*(Q星)。

当时,《The Information》和路透社报道说,在Sam Altman短暂离任CEO之前,OpenAI员工曾向公司董事会发出警告,称新的Q*模型可能“威胁到人类”。

今年八月,当《The Information》报道OpenAI向美国国家安全官员展示Strawberry的消息时,这种炒作进一步加剧。

即使现在o1已经发布,AI行业的观察者也应该注意到,这一模型即将发布时在媒体上被大肆渲染为一种危险的进步,而OpenAI并未公开降低这种说法。

对于一个需要108秒才能解决八个填字游戏线索并且在一个答案上产生幻觉的AI模型,我们可以断言其潜在的危险可能是过度炒作(至少目前看来)。

围绕“推理”术语的争议

众所周知,科技界有些人对将AI模型拟人化,并使用“思考”或“推理”等词汇来描述这些神经网络系统执行的合成和处理操作持有异议。

就在OpenAI宣布o1之后不久,Hugging Face公司的CEO Clement Delangue在社交媒体上评论道:“再一次地,AI系统并不是‘思考’,而是‘处理’、‘运行预测’……就像Google或计算机一样。

给人错误的印象,让技术系统看起来像人类,这只是廉价的噱头和营销手段,目的是让你觉得它比实际上更聪明。”

“推理”也是一个有些模糊的概念,因为即使在人类中,也很难准确界定这个术语的含义。在公告发布的几小时前,独立AI研究员Simon Willison在推特上回应了《Bloomberg》关于Strawberry的故事,他写道:“我仍然难以用LLM的能力来定义‘推理’。

我很想知道有没有一种提示,可以在当前模型失败的情况下,却能在Strawberry上成功,从而有助于解释这个词的含义。”

无论是否具备推理能力,o1-preview目前缺少早期模型中的一些功能,例如网络浏览、图像生成和文件上传。OpenAI计划在未来更新中增加这些功能,并继续开发o1和GPT系列模型。

虽然OpenAI声称o1-preview和o1-mini模型今天开始推出,但我们尚未在ChatGPT Plus界面中看到它们的身影,因此还没有机会评估这两个模型的表现。我们将报告我们的印象,说明这一模型与其他我们先前报道过的大型语言模型有何不同。



未来...

展望未来,OpenAI正致力于构建具有自主决策能力的系统,即代理(agent),这些系统能够在用户的指示下做出决策并采取行动。

尽管目前o1的推理能力还有待提高,但无疑为实现这一愿景迈出了坚实的步伐。随着OpenAI不断推进其技术边界,我们可以期待看到更多令人兴奋的发展和应用。

本文链接:https://houze.cc/gpt5/102.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章

网友评论