据传言,OpenAI 即将发布下一代模型 GPT-5。当前,社交媒体上的热议源自于对这一即将宣布的消息的猜测,这种猜测被Meta旗下的Llama 3模型的到来(预计于7月推出一个更大的版本)以及AI实验室发布的一系列包含数字22的神秘图片所激发。
此外,之前考虑到4月22日是OpenAI CEO Sam Altman的39岁生日,外界普遍猜测该公司可能会在这一天推出重大产品,例如Sora或备受期待的GPT-5。虽然这一天我们没有如期等来这些发布,但是我们现在已经确信的是,如果真的推出GPT-5,这将标志着人工智能领域的一个重大里程碑。Altman此前曾表示,新模型将在多个方面显著优于前代,并将带来令人惊喜的进步。
虽然存在许多猜测,一些观点认为可能会推出类似于GPT-4.5的中间版本,或者是对OpenAI的图像生成模型DALL-E的更新,但以下内容是目前关于GPT-5的已知信息汇总。
关于GPT-5,你知道多少了?
关于OpenAI即将发布的GPT-5,目前的具体信息仍然不多。据了解,OpenAI对其下一代模型的细节保持高度机密,尽管公司CEO Sam Altman曾在多次采访中表示,这一新模型将在多个方面相比前代有显著的改进。
历代的OpenAI大型语言模型均在推理、编程、知识获取和对话能力上有所提升,预计GPT-5将继续这一趋势。据悉,该模型自去年年底以来已在开发中,可能拥有高达1.5万亿的参数数量,超过了GPT-4,或者在参数数量相似的情况下,通过更强大的基础架构实现性能的大幅提升,而不增加模型的整体大小。
在行业内,其他公司如Meta已经推出了类似的先进模型,例如Llama 3 70B模型,尽管其规模比GPT-3.5小,但在性能基准测试中显示出相似的能力。
预计GPT-5将是一个多模态模型,这意味着它能处理的输入类型不限于文本。类似于谷歌的Gemini 1.5模型,它可能能理解文本、图像、视频、语音、代码、空间信息甚至音乐,尽管具体能力的范围目前还不明确。
猜猜GPT-5能做什么?
预计GPT-5将引领人工智能从传统的聊天机器人向更高级的Agent功能转变,这是与前几代模型相比的显著变化之一。这种新功能将使AI模型能够分配任务给子模型或与不同服务连接,从而独立执行现实世界的操作。
整个AI行业正在探索这一新领域,类似于Rabbit r1 AI设备所采用的技术。这种技术不仅允许用户向AI提出问题,还可以使AI执行更复杂的任务,如处理电话、预订航班或使用从其他来源收集的数据创建电子表格。
一个具体的应用场景是在日常生活管理中使用Agent。例如,配备GPT-5的ChatGPT可以接入用户的饮食要求、智能冰箱的摄像头和杂货店账户,自动完成补货购买,而无需用户直接参与。
尽管今年内实现这些功能可能性不大,但将AI用作Agent无疑是行业发展的一个方向,特别是随着越来越多智能设备和系统的互联。
GPT-5会带来哪些变化?
预计GPT-5将带来显著的变化,特别是在与现有技术的对比中,比如谷歌的Gemini模型。OpenAI可能会在其ChatGPT服务中提供默认的互联网访问权限,解决到目前为止由于数据截止限制而只能获取到训练结束日期的知识的问题。
此外,扩展的多模态功能可能意味着与GPT-5的互动将默认包括声音、视频和语音,而不仅仅是作为额外选项。这种改进将有助于OpenAI更轻松地将ChatGPT转变为类似于Siri或谷歌的Gemini这样的智能助手。
关于上下文窗口的容量,GPT-5可能将其大幅扩展,当前的容量约为128,000个标记,这是模型在开始新对话前能在内存中存储的对话量。一些先进的模型,如Gemini Pro 1.5,已经展示了拥有超过一百万的上下文窗口的能力,这对于处理数据点更多的视频分析至关重要。
机器人的时代真来了吗?
在过去一年中,将生成式人工智能用作人形机器人的“大脑”成为了主流趋势之一,这使得机器人能够自主完成任务,无需开发者预先编程每个动作和命令。
OpenAI已经对机器人初创公司Figure进行了重大投资,并使用其GPT-4模型为Figure 01机器人提供动力。预计GPT-5将进一步整合空间感知数据,从而增强其可靠性和能力——更好地理解人类与世界的交互方式。
此外,Nvidia也在开展类似的AI模型工作,预计这些模型将被广泛应用。AI初创公司AI21的创始人,Amnon Shashua教授已经启动了Mentee Robotics,该公司旨在开发由生成式AI驱动的机器人,这些机器人最早可能在明年被引入家庭和工作场所。
谷歌也在开发基于生成式AI的机器人,这些机器人可能将使用Gemini模型的未来版本,特别是那些拥有较大上下文窗口的版本。同时,Meta正在训练其Llama模型以理解空间信息,以支持其基于AI的增强现实设备,如智能眼镜,的增强功能。
这对我们来说到底意味着什么?
正如Meta的首席AI科学家Yann LeCun所预测的,我们正达到一个阶段,通过AI过滤我们的整个数字生活。GPT-5中的代理和多模态功能意味着这些AI模型不仅能代表我们执行任务,而且还能将AI应用于现实世界的机器人技术中。
在这一背景下,OpenAI面临来自开源模型提供商如Mistral和Meta,以及直接竞争对手如Anthropic的Claude和谷歌的Gemini的激烈竞争。此外,尽管微软正在减少对OpenAI的依赖,预计OpenAI仍将在2024年5月的Build会议上展示新成果。
在推出GPT-5之前,预计OpenAI可能会先发布一个中间版本,如GPT-4.5,这将包括更加最新的训练数据、更大的上下文窗口和性能改进。GPT-3.5已经是从基础的GPT-3模型到ChatGPT的重大进步。
OpenAI CEO Sam Altman表示,今年公司计划发布一些令人兴奋的模型和产品,包括Sora,可能还有AI语音产品Voice Engine和某种形式的下一代AI语言模型。