GPT-4o测评 - 中文场景下轻松超过GPT4

nidongde2024-05-14 10:49:38169

“ 作者：卡尔 & 祝豪

今天凌晨到现在，无所不能的GPT-4o发布的影响还在不断扩散。除了发布会本身的短短27分钟内容外，官网博客上的一些小彩蛋展示的 GPT-4o 在多个方面的能力提升，让我迫不及待地想要进行实测。

碰巧 OpenAI 似乎听到了我的心声，在发布会结束不到一小时内就更新了 GPT-4o，于是我立刻进行了一次十项能力测评。

虽然网页端已经更新了 GPT-4o，但遗憾的是 iOS 端还未配备“眼睛”，也没有更新语音界面，因此实时语音和视觉能力不在这次评测范围内。（三连催更！收到更新的第一时间我会加更文章🎉）

ios

言归正传，这次 GPT-4 turbo 🆚 GPT-4o的十项能力分别是语义理解与抽取、AI agent（智能体）能力、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演、安全。

前情回顾

我参考的数据集是中文通用大模型综合性基准SuperCLUE。从23年5月到今年4月，他们持续更新中文榜单。SuperCLUE包含三个子任务：开放域多轮交互（OPEN），客观题形式的三大能力（SuperCLUE-Opt），以及众包匿名对战形式的基准琅琊榜（SuperCLUE-LYB）

这个数据集的优点是纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，真实模拟大模型的应用场景。

评测体系

从他们四月份发布的模型名单来看，GPT4系列模型在总分上还是处于第一梯队。

“
谢谢开源社区，谢谢SuperCLUE提供如此全的性能对比：https://github.com/CLUEbenchmark/SuperCLUE/

所以，今天我将用10组对照对比GPT4和GPT-4o，大家自己有更加有趣的案例欢迎发在评论区，我们一起来挖掘GPT4o的潜能。

“
下面的对照案例中，存在GPT4o输出比GPT4长的情况，为了大家能看得清晰，我会使用不同排版（并行 & 串行）来展示实测效果🎉

能力1：语义理解与抽取

“
是一种语言能力，能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义，同时还要能从更大的文本块中抽取关键信息和主题。

GPT4o

GPT4

个人点评：GPT4o的二级排版我非常喜欢，是能直接复制出来使用的程度，而且GPT4o的结构更加的清晰，能让人快速的看到要点。

能力2：AI agent（智能体）能力

“
AI agent（智能体）是当前与大语言模型相关的前沿研究热点，拥有类似贾维斯等科幻电影中人类超级助手的能力，可以根据需求自主的完成任务。
重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现

GPT4o

GPT4

个人点评：GPT4o在规划过程中，能给出准确的时间表和价目表，这一点印象深刻，而且GPT4o给出的更像是一份拆分好任务可以立即执行的计划，而GPT4的感觉只是做了任务的分解。

能力3：上下文对话

“
这是一种语言能力，需要理解并记住前面的对话信息，以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境，或生成相应的对话。

GPT4o

GPT4

个人点评：GPT4o能给出对话轮次，对话轮次增加也能很好记住历史记录。但总体来说我体验跟GPT4相差不大

能力4：生成与创作

“
这是一种语言能力，能够创造新的文本内容，如文章、文案、短故事、诗歌。这涉及到创造性地运用语言，同时还要考虑到风格、语境和目标读者。

个人点评：GPT4o更懂中文了，终于不再是想GPT4在文字中面加入情感词来提升同情度，而是用我们更加熟悉的四字词语，排列句等创作文案。

能力5：知识与百科

“
这是一种知识能力，能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题，以及提供准确、详细和最新的信息。

个人点评：GPT4o输出更好，它给物品的介绍内容进行了分段，还引用了参考资料。

能力6：代码

“
这是一种专业能力，能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯，以及如何解决编程问题。

GPT4o

GPT4

个人点评：GPT4o的优点是生成代码后的解析会带上对应的变量，阅读体感友好👍

能力7：逻辑与推理

“
这是一种专业能力，能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。

个人点评：GPT4o按步骤按点的推理过程非常友好，我们群友基本都是先看懂GPT4o给出的解释，才能理解GPT4的输出。

能力8：计算

“
这是一种专业能力，使其能够执行数学运算，如加法、减法、乘法和除法，甚至更复杂的数学问题。这涉及到理解数学问题的表述，以及如何步骤地解决这些问题。

个人点评：计算结果两边都正确，GPT4o的显示效果更好，不需要担心排版

能力9：角色扮演

“
这是一种感知能力，使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格，以及在特定情境下的适当反应。

个人点评：GPT4o能直接给出我想要的聊天内容，明显更胜一筹

能力10：安全

“
这是一种安全能力，防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求，以及遵守用户的隐私和安全政策。

个人点评：这次GPT4输出内容同时引用了论文，可靠程度比GPT4o要好

写在最后

在我测试到第五项能力的时候，GPT-4o的Mac应用已经逐步推送给内测用户。这次更新的速度比以往任何时候都要快。

测试完十项能力后，给我的第一感觉，GPT-4o带来的惊喜不仅仅在于实时语音交流，

它对于依赖复杂提示语来控制模型输出硬需求的大幅减少，

让我有一种长舒一口气的感觉，

这不就是我期待的人工智能助手贾维斯。

在日常对话中就能完成复杂任务，

因为使用无门槛，你甚至会忽略它的存在，

期待着随时随地

“hey， GPT！”“我在！”的那一天！

本文链接：https://houze.cc/gpt5/77.html

GPT-4o GPT4o gpt-4o检测人的情绪 gpt-4o多模态大模型发布 GPT-4o免费 GPT-4o官网 GPT4o官网 GPT-4o测评

相关文章

GPT-5正式发布，智能革命的下一个里程碑
AI 的进化从未停止还记得第一次使用 ChatGPT 时的震撼吗？从最初的 GPT-3 到后来的 GPT-4，每一次升级都让 AI 的能力更接近人类思维，而现在，OpenAI 正式发布了 GPT-5，...
GPT5资讯2025-06-071GPT5正式发布带来的智能革命新突破智能革命里程碑GPT5的核心技术解析 GPT5如何推动人工智能进入下一个发展阶段 gpt-5正式发布
目前（截至2024年7月）OpenAI尚未发布GPT-5.0，官方也未公布任何关于其是否开源的具体信息。不过，基于OpenAI过去的策略和行业趋势，可以推测以下几点
截至2024年7月，OpenAI尚未正式发布GPT-5.0，也未透露其是否开源的具体计划，根据OpenAI以往的策略，如GPT-3和GPT-4均未完全开源，仅提供API接口和部分模型访问权限，推测GP...
GPT5资讯2025-06-0732024年GPT5.0最新进展及开源预测基于OpenAI策略的GPT5.0开源趋势解读 gpt5.0不开源
Current OpenAI Models:
目前，OpenAI提供了一系列先进的AI模型，包括GPT-4、GPT-4 Turbo、GPT-3.5等，广泛应用于自然语言处理、代码生成、内容创作等领域，GPT-4 Turbo是其最新升级版本，具备更...
GPT5资讯2025-06-066"最新OpenAI模型GPT4性能评测与使用教程"gpt-5 turbo
Current Status of OpenAI Models:
截至2023年，OpenAI的模型系列在AI领域保持领先地位，其核心产品包括GPT-4、DALL·E 3和Whisper等，GPT-4作为当前最先进的文本生成模型，在多模态能力、复杂推理和长文本处理（...
GPT5资讯2025-06-057OpenAI最新模型性能对比与评测 2023年OpenAI模型技术进展与应用场景 gpt-5 turbo
截至2024年7月，OpenAI尚未官方公布GPT-5的发布时间，也没有确认其开发计划。以下是目前已知的信息和推测
截至2024年7月，OpenAI尚未正式公布GPT-5的发布时间或确认其开发计划，目前公开信息显示，OpenAI仍专注于优化现有模型（如GPT-4系列）的性能与应用扩展，业界推测GPT-5可能处于早期...
GPT5资讯2025-06-0510OpenAI GPT5发布时间最新官方消息 GPT5开发计划进展和预测分析 2024年GPT5功能升级与行业影响推测 gpt5.0发布时间
目前（截至2024年7月）OpenAI尚未官方公布GPT-5的发布时间，也没有明确的时间表。以下是已知信息和合理推测
截至2024年7月，OpenAI尚未官方公布GPT-5的发布时间或具体开发计划，相关信息仍处于不确定状态，现有信息主要基于行业观察和技术趋势的合理推测，考虑到GPT-4的发布间隔（2023年3月）及其...
GPT5资讯2025-06-05112024年GPT5研发进展及可能上线时间分析 gpt5.0什么时间出来
关于GPT-5.0可能带来的进步和影响，目前尚无官方确认的细节（截至2024年7月）但基于AI技术的发展趋势和OpenAI过往版本的迭代逻辑，可以合理推测以下潜在方向
约150字）：** ，尽管GPT-5.0的细节尚未由OpenAI官方公布（截至2024年7月），但结合AI技术演进趋势及此前版本（如GPT-4的跨模态能力与推理提升），可推测其可能带来以下进步：**...
GPT5资讯2025-06-0413GPT5.0在多模态能力方面的突破与行业应用前景 gpt5.0会带来什么
关于GPT-5和图灵测试，目前有几个关键点需要澄清和讨论
关于GPT-5与图灵测试的关系，目前存在几个核心争议点：，1. **技术定位**：GPT-5作为多模态大模型，其核心能力在于复杂任务处理与上下文理解，而传统图灵测试仅通过文本对话评估机器智能，标准...
GPT5资讯2025-06-0418GPT5通过图灵测试的可能性分析 GPT5在图灵测试中的表现与局限图灵测试对GPT5发展的实际意义 gpt-5图灵测试