GPT-5的全面训练已经开始

nidongde2024-03-08 10:06:48148

在类似的时间框架内,我们还将获得Gemini 2 Ultra、LLaMA-3、Claude-3、Mistral-2以及许多其他开创性的模型。

(谷歌的Gemini似乎已经给GPT-4 Turbo带来了激烈的竞争)

几乎可以肯定GPT-5将会逐步发布,这些将是模型训练过程中的中间检查点。

实际训练可能需要3个月,额外需要6个月进行安全测试。

为了更好地理解GPT-5

让我们首先看一下GPT-4的规格:

GPT4模型估计

规模: GPT-4跨越120层,拥有约1.8万亿参数,比GPT-3大了10倍以上。

专家混合MoE):OpenAI在其模型中利用了16位专家,每位专家的MLP参数约为1110亿。

数据集: GPT-4在约13万亿令牌上进行训练,包括基于文本和基于代码的数据,还有一些来自ScaleAI和内部的微调数据。

数据集混合: 训练数据包括CommonCrawl和RefinedWeb,总共有13万亿令牌。有猜测表明还有其他来源,如Twitter、Reddit、YouTube以及大量的教科书。

训练成本: GPT-4的训练成本约为6300万美元,考虑到所需的计算能力和训练时间。

推理成本: 由于需要更大的集群和较低的利用率,GPT-4的成本是1750亿参数的Davinci的3倍。

推理架构: 推理在一个由128个GPU组成的集群上运行,使用8路张量并行和16路管道并行。

视觉多模态: GPT-4包括一个视觉编码器,用于自主代理阅读网页并转录图像和视频。这增加了更多参数,并且通过另外约2万亿令牌进行了微调。

现在,GPT-5可能会比GPT-4的参数多10倍,这是巨大的!这意味着更大的嵌入维度、更多的层次和双倍的专家数量。

更大的嵌入维度意味着更多的细节,加倍的层数使模型能够发展更深层次的模式识别。

GPT-5在推理方面将更加出色,它将在解决挑战之前阐明其推理步骤,并且会对这些推理步骤进行内部或外部检查。

验证推理步骤并进行多达1万次的抽样将在代码生成和数学方面带来显著更好的结果。

通过评估基于结果监督和过程监督奖励模型的比较,根据它们搜索许多测试解决方案的能力。

对模型进行数千次抽样,并选择具有最高评级推理步骤的答案,使数学性能翻倍,而且这不仅适用于数学,在STEM领域也取得了显著的成果。

GPT-5还将在数据方面接受更多的训练,包括在数量、质量和多样性方面。

这包括大量的文本、图像、音频和视频数据。还有多语言数据和推理数据。

这意味着多模态今年将会得到很大的改善,而LLM推理将起飞。

这将使GPT-5更具代理性,就像使用LLM作为操作系统一样。

LLM操作系统

尽管2024年发布的LLM不会发生真正疯狂/颠覆现实的事情,比如LLM发明新科学或治愈疾病,制造戴森球或生物武器。

2024年将是现有模型更清晰、更具商业适用性的版本,人们将惊讶地看到这些模型变得多么出色。

没有人真正知道新模型会是什么样的。

人工智能历史上最大的主题是充满了惊喜。

每当你认为自己知道一些东西时,你将其扩大10倍,结果发现你什么也不知道。我们作为人类物种真的在一起探索这个。

尽管如此,LLM和人工智能的所有集体进步都是迈向通用人工智能的一步🚀

本文链接:https://houze.cc/gpt5/42.html

chatgpt5.0规划chatgpt5.0训练数据量chatgpt5.0下载chatgpt5如何使用chatgpt5.0什么级别chatgpt5.0怎么研发chatgpt5.0商业化chatgpt5.0预计什么时候上线chatgpt5.0和4.0gpt5是哪个国家的

相关文章

网友评论