最近,Open AI在聊天机器人竞技场上发布了一款新模型,许多人猜测这款模型可能就是传说中的GPT 4.5或者GPT 5。今天,我们就来一探究竟,看看这个引起广泛猜测的模型到底是什么。首先,我们得了解一下什么是聊天机器人竞技场。简单来说,这是一个可以测试不同聊天机器人性能的在线平台。你可以输入任何问题,比如“为什么人工通用智能(AGI)如此危险?”然后,点击发送,两个不同的AI系统将对这个问题作出回应。你可以并排比较,看看哪个AI系统的回答更好。我们在这里做的是一个盲测,很多人用这个网站来测试新GPT2模型的能力。可以看到,一个模型得了9分,另一个得了10分,我认为后者可能略胜一筹。但最终,我可以说这基本上是个平局。点击“平局”后,网站会告诉我们每个模型的身份。我们可以看到,模型A是拥有370亿参数的LLaMA,而模型B是GPT4。我之所以给你展示这些,是为了让你了解发生了什么。在这个网站上,有时公司会秘密发布模型,以了解它们在排行榜上的表现如何。每次我们对AI系统进行评分,排行榜就会更新,model分数也会相应变动。目前,GPT4的排名相当高。但几天前,Reddit上有人评论说,在Lmsys的聊天机器人竞技场上,他们使用了GPT2聊天机器人,得到了非常好的响应,而另一个模型是GPT4 0125,GPT2的表现至少和GPT4一样好。这引发了对GPT2可能是什么的第一个猜测,也是我们第一次在野外看到GPT2的身影。Reddit上的许多评论都表示,这个模型真的很棒,有时甚至更好。重要的是要注意,这并不是2019年2月发布的GPT2模型。那个模型是Generative Pretrain Transformer系列的第二个系列,是GPT3的前身,而GPT3又是3.5和现在的GPT4的前身。所以,这并不是一个旧模型。我会进一步解释为什么这不是这种情况。现在,有些人说GPT 4.5可能已经发布了,它带有8个提示限制,玩起来真的很棒。在这个网站上,一个名为GPT2的模型一直在超越其他AI系统,包括主要的GPT4,以及其他像Claude Opus这样的最先进模型,无论是在推理任务还是编程任务上。正如我之前所说,许多人现在都在猜测这个模型到底是什么。有人说它可能是GPT 4.5,有人说它可能是GPT4的轻量版。因为当你问这个语言模型它是什么时,它说它是基于GPT4架构的,这是OpenAI开发的一种语言模型,这是一个相当标准的回答。现在我们知道这实际上是来自OpenAI的,因为已经有一些推文确认了这种猜测。但最有趣的事情当然是这个模型的能力。我将带你了解这个模型的一些能力,考虑到这个模型的隐秘发布,这些能力实际上是相当令人印象深刻的。有人在Reddit上发布了这个,你可以看到这是由Kala Dekka发布的,你可以看到这是他向许多数据艺术模型提出的一个问题。我们可以看到,这是一个问题:“这条信息有多少个字符?”答案是40,已经在这里突出显示了。然后我们可以看到,LLaMA 30,也就是LLaMA 3,搞错了,它说有34个字符。大型模型也搞错了,它说有59个字符。我们还可以看到,Claude 3 Opus也搞错了,说是38个字符,而最新的GPT4也搞错了,说是43个字符。唯一显然搞对的模型当然是GP2聊天机器人,它实际上使用了不同的推理层次,然后当然得出了40个字符。我认为这最有趣的事情是,这个模型在推理步骤上有所不同。你可以看到,LLaMA 3只是最初就立即回答了这个问题。这个模型回答了,那个模型回答了,然后这个模型实际上是一步一步地,就像思维链提示一样,然后得出了它的答案,这实际上超越了所有其他测试。还有这里,你可以看到还有其他一些测试,有些人一直在进行。我现在不想说我自己进行了这个测试,但有一些其他的能力我们确实想要谈谈。这是苹果测试。这个测试有很多不同的变体,基本上这是一个简单的推理测试,它问:“Tommy今天有两只苹果,昨天他吃了一个苹果,Tommy现在有多少只苹果?”这个对于大型语言模型和AI系统来说有点棘手,因为他们会混淆,他有两只苹果,是的,他吃了一个苹果,然后你知道2 - 1是1,这当然是错误的,因为诀窍在于他今天有两只苹果,昨天他吃了一个苹果,所以他仍然有两只苹果,因为昨天吃的东西不会改变你现在拥有的数量,如果你第一次约会的话。所以这是许多人都弄错的事情。所以你可以看到“Tommy今天有教堂”,这是正确的。我猜这可能是另一个模型,可能是GPT4之类的东西,那弄错了。现在我自己确实测试了这个,我想说的是,有很多不同的测试你可以做到,但我看到的一个非常有趣的事情是Demetrius的这个说法,他说GP2聊天机器人解决了这个问题,但是使用了完全错误的推理。还有人问Turbo是否解决了这个问题,他说无论是Claw 3 Opus还是GPT 4 Turbo 20240409,两者都有零温度,都不能解决这个问题。所以看起来这个模型可能有一些增加的能力。有很多很多的猜测。还有一个例子,我发现更有趣,那就是有人要求GPT for Turbo和GPT chatbought用Javascript在单个HTML文档中制作一个游戏。第一个是GPT for Turbo,你可以看到有一个游戏,游戏基本上不工作。它确实有一个分数,它确实有一个计时器,但不幸的是游戏中什么也没发生。然后你可以看到这里,这是一个有点像太空侵略者风格的游戏,你必须收集积分,这就是gpt2聊天机器人显然从头开始编码的,这意味着潜在地显示了GPT2聊天机器人的复杂性,这意味着它超越了GPT for Turbo 1。现在事情是这样的,很多人在猜测这个模型是否真实。人们可以说很多不同的事情,但我们确实看到的一件事实际上确实定下了基调,那就是Sam Altman的这条推文。当然,你知道他是Open ai的CEO,最有可能知道什么时候有变化,他实际上发推文说我确实对GPT2有特别的喜好,这相当重要。现在为什么这比我们想象的更重要,因为如果我们看看这里发生了什么,我们看到的一个关键事情是这条推文,我们实际上看到的,这确实让这件事变得更有趣,他首先发的这条推文,他首先发的是“我对GPT2有特别的喜好”,这实际上是一个很大的区别,因为中间有破折号的GPT2实际上指的是这里的这个GPT2。所以你可以看到我们的模型叫做GPT2,那当然是一个非常不同的模型,与目前正在发布的模型不同,这就是去掉破折号到GPT2实际上有很大的不同,这意味着他不是在谈论一个旧模型。他实际上指的是目前在聊天机器人竞技场上发布的模型,正如你所知,被称为GPT 2。现在你还可以看到,如果你决定去聊天机器人竞技场,你可以看到如果你滚动到GPT2聊天机器人,它目前正处于GPT4 Turbo和GPT 3.5 Turbo之间。关键是这个,我自己实际上测试过这个,我会向你们展示我为此使用的测试,因为我想看看这个有多好。所以我确实想测试的一件事是这个模型的推理能力。这是我在Twitter上看到的一个问题,它确实正确地回答了这个问题。但我当然想测试的一件事是,看看它能否编码一些可以立即工作的东西。现在我刚刚要求它编码一些东西,我可以在Trading View中使用,基于RSI进行交易,然后获利并卖出。实际上我与Gemini和Claude Opus进行了分割测试,我得说实话,我目前做的测试对gpt2没有效果,我可以向你们展示,但我确实想声明,这并不意味着这个聊天板一点都不好,因为一个简单的测试并不能给你足够的数据点来验证一个模型是否好。所以基本上,如果你来到Trading View,然后来到任何图表的Pine编辑器,你可以简单地输入一些代码,看看它是否有效,然后点击保存,基本上当你只是差不多你添加到图表上时,通常会有错误或者没有错误。所以你可以看到,当我发布来自gpt2的代码,然后点击保存,你可以看到当我点击图表上的更新时,你会看到这里有一个错误。但是当我使用claw 3,我简单地拿这个,然后我来到这里,我简单地替换它,然后我点击图表上的更新,你可以看到代码实际上基于Trading View是有效的。我现在只是想看看代码是否真的有效,目前在这个1对1的测试中,与GPT2聊天机器人相比,它没有成功。许多人实际上一直在谈论的另一件事是相当迷人的,当然是ASCII艺术。现在ASCII艺术并不是你可以用来测试AI系统是否好的基准,但它确实可以作为AI系统在这方面表现如何的有趣指标,通常更先进的系统表现得更好。现在我们实际上可以从这个看到,我们实际上可以看到GPT2聊天机器人在某些ASCII艺术上做得更好。然而,我想表达的观点是,目前看来,与GPT for Turbo相比,它似乎确实在能力上有所提高。还有这里也有一个演示,有人表示GPT2聊天机器人在ASCII艺术方面非常出色,远胜于任何其他模型。但实际上有一个小问题,所以当然你可以看到最初用户要求两者都创建一个ASCII艺术独角兽,你可以看到LLaMA 3的一个相当糟糕,然后gpt2s的一个相当令人难以置信。
本文链接:https://houze.cc/gpt5/73.html
chatgpt5.0怎么使用chatgpt5.0与4.0对比chatgpt5.0正式接入chatgpt5美元open ai chatgpt5.0智能聊天机器人chatgpt5.0chatgpt5.0和盘古哪个好chatgpt5.0数据chatgpt5.0怎么研发chatgpt5.0参数
网友评论