在接近的时间周期内,还将看到Gemini 2 Ultra、LLaMA-3、Claude-3、Mistral-2和许多其他划时代的模型。(谷歌的Gemini似乎已经在与GPT-4 turbo展开激烈竞争)
几乎可以肯定,GPT-5将逐步发布,这些将是模型训练过程中的中间检查点。
实际训练可能需要3个月,另外6个月用于安全测试。
为了正确看待GPT-5,首先来看看GPT-4的技术规格:
GPT-4模型估计
规模:GPT-4有大约1.8万亿个参数,共120层,是GPT-3的10倍多。
混合专家系统(MoE):OpenAI在其模型中使用了16个专家,每个专家都有111B个MLP参数。
数据集:GPT-4在13T tokens为基础的数据集上进行训练,包括基于文本和代码的数据,以及来自ScaleAI和内部的一些微调数据。
数据集混合:训练数据包括CommonCrawl和RefinedWeb,共计 13T tokens。推测还包括Twitter、Reddit、YouTube和大量教科书数据。
训练成本:考虑到所需的计算能力和训练时间,GPT-4的训练费用约为6,300万美元。
推理成本:由于需要更大的集群以及更低的利用率,GPT-4的推理成本是175B参数的Davinci的3倍。
推理架构:推理在128个GPU集群上运行,使用8路张量并行和16路流水线并行。
视觉多模态:GPT-4包括一个视觉编码器,用于阅读网页以及编码图像和视频。这将在此基础上增加更多参数,并通过另外约2万亿个tokens进行微调。
GPT-5的参数可能是GPT-4的10倍,这是一个巨大的数字!这意味着更大的嵌入尺寸、更多的层数和双倍的专家数量。
嵌入维度越大,粒度就越大,层数增加一倍,模型就能进行更深入的模式识别。
GPT-5在推理方面会更胜一筹,它会在解决挑战之前列出推理步骤,并对每个推理步骤进行内部或外部检查。
验证推理步骤和多达10,000次采样的方法将大大提高代码生成和数学运算的效果。
上图比较了结果监督奖励模型和过程监督奖励模型,根据它们在许多测试方案中的搜索能力进行评估。
对模型进行数千次采样,并选取推理步骤得分最高的答案,数学成绩提高了一倍。
GPT-5还将使用更多数据进行训练,包括数量、质量和多样性方面的数据。其中包括大量文本、图像、音频和视频数据。还有多语言数据和推理数据。这意味着多模态性将在今年得到更好的发展,而 LLM 的推理能力也将起飞。这将使 GPT-5 更具代理性,就像将 LLM 用作操作系统一样。
扩展阅读
LangGPT 社区:https://www.langgpt.ai/ 数据摸鱼wx订阅号 GPT-5: Everything You Need to Know So Far:https://youtu.be/Zc03IYnnuIA GPT-4 architecture, datasets, costs and more leaked:https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ LLM OS:https://twitter.com/karpathy/status/1723140519554105733?s=20 Let’s Verify Step by Step Paper:https://arxiv.org/pdf/2305.20050.pdf
本文链接:https://houze.cc/gpt5/27.html
马斯克chatgpt5.0chatgpt5美元可以用多久chatgpt5.0电脑如何安装chatgpt5.0安装chatgpt5.0概念股chatgpt5.0商业化chatgpt5.0什么时候说要出来点chatgpt5.0需要多少钱gpt4和gpt5的区别gpt4及gpt5是什么意思
网友评论