GPT-5模型预测

nidongde2024-02-21 22:56:59211

在接近的时间周期内，还将看到Gemini 2 Ultra、LLaMA-3、Claude-3、Mistral-2和许多其他划时代的模型。(谷歌的Gemini似乎已经在与GPT-4 turbo展开激烈竞争）

几乎可以肯定，GPT-5将逐步发布，这些将是模型训练过程中的中间检查点。

实际训练可能需要3个月，另外6个月用于安全测试。

为了正确看待GPT-5，首先来看看GPT-4的技术规格：

规模：GPT-4有大约1.8万亿个参数，共120层，是GPT-3的10倍多。

混合专家系统(MoE)：OpenAI在其模型中使用了16个专家，每个专家都有111B个MLP参数。

数据集：GPT-4在13T tokens为基础的数据集上进行训练，包括基于文本和代码的数据，以及来自ScaleAI和内部的一些微调数据。

数据集混合：训练数据包括CommonCrawl和RefinedWeb，共计 13T tokens。推测还包括Twitter、Reddit、YouTube和大量教科书数据。

训练成本：考虑到所需的计算能力和训练时间，GPT-4的训练费用约为6,300万美元。

推理成本：由于需要更大的集群以及更低的利用率，GPT-4的推理成本是175B参数的Davinci的3倍。

推理架构：推理在128个GPU集群上运行，使用8路张量并行和16路流水线并行。

视觉多模态：GPT-4包括一个视觉编码器，用于阅读网页以及编码图像和视频。这将在此基础上增加更多参数，并通过另外约2万亿个tokens进行微调。

GPT-5的参数可能是GPT-4的10倍，这是一个巨大的数字！这意味着更大的嵌入尺寸、更多的层数和双倍的专家数量。

嵌入维度越大，粒度就越大，层数增加一倍，模型就能进行更深入的模式识别。

GPT-5在推理方面会更胜一筹，它会在解决挑战之前列出推理步骤，并对每个推理步骤进行内部或外部检查。

验证推理步骤和多达10,000次采样的方法将大大提高代码生成和数学运算的效果。

上图比较了结果监督奖励模型和过程监督奖励模型，根据它们在许多测试方案中的搜索能力进行评估。

对模型进行数千次采样，并选取推理步骤得分最高的答案，数学成绩提高了一倍。

GPT-5还将使用更多数据进行训练，包括数量、质量和多样性方面的数据。其中包括大量文本、图像、音频和视频数据。还有多语言数据和推理数据。这意味着多模态性将在今年得到更好的发展，而 LLM 的推理能力也将起飞。这将使 GPT-5 更具代理性，就像将 LLM 用作操作系统一样。

扩展阅读

LangGPT 社区：https://www.langgpt.ai/
数据摸鱼wx订阅号
GPT-5: Everything You Need to Know So Far：https://youtu.be/Zc03IYnnuIA
GPT-4 architecture, datasets, costs and more leaked：https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
LLM OS：https://twitter.com/karpathy/status/1723140519554105733?s=20
Let’s Verify Step by Step Paper：https://arxiv.org/pdf/2305.20050.pdf