传闻中的 “Strawberry” 模型终于来了,OpenAI 声称它能够处理更复杂的查询 —— 但价格不菲。
OpenAI 发布了一款名为 o1 的新模型,这是计划推出的一系列 “推理” 模型中的第一款。这些模型被训练来回答更复杂的问题,并且比人类反应更快。同时发布的还有一个较小、价格较低的版本 o1-mini。是的,如果你对 AI 传闻有所耳闻,这的确就是备受期待的 “Strawberry” 模型。
对 OpenAI 来说,o1 代表了朝着实现类人人工智能这一宏大目标迈出的一步。从实际应用上看,它在编写代码和解决多步骤问题上比之前的模型表现更好。不过,它比 GPT-4o 更贵,使用起来也更慢。OpenAI 称这次发布的 o1 是一个 “预览版” ,以强调其仍处于初期阶段。
从今天起,ChatGPT Plus 和 Team 用户可以使用 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户将在下周初获得访问权限。OpenAI 表示计划将 o1-mini 开放给 ChatGPT 的所有免费用户,但尚未确定发布时间。对于开发者来说,使用 o1 的 API 非常昂贵:o1-preview 每百万输入标记的费用为 15 美元,每百万输出标记的费用为 60 美元。相比之下,GPT-4o 每百万输入标记的费用为 5 美元,输出标记为 15 美元。
OpenAI 的研究主管 Jerry Tworek 表示,o1 的训练方式与之前的模型根本不同,尽管公司并未透露具体细节。他说 o1 “采用了一种全新的优化算法,并使用了专门为其量身定制的训练数据集进行训练。”
之前的 GPT 模型是通过模仿训练数据中的模式来学习的,而 o1 则通过一种名为强化学习(Reinforcement Learning) 的技术自主解决问题,这种技术通过奖励和惩罚来教导系统。然后,模型使用类似于人类逐步处理问题的 “思维链” 来处理查询。
得益于这种新的训练方法,OpenAI 表示该模型应该更加准确。“我们注意到这个模型的幻觉现象减少了,” Tworek 说。但问题仍然存在。“我们不能说我们已经解决了幻觉问题。”
与 GPT-4o 相比,o1 最大的不同在于它能够更好地处理复杂问题,例如编码和数学,并且能够解释其推理过程,OpenAI 称。“这个模型在解决 AP 数学测试方面肯定比我更擅长,而我在大学时是数学辅修专业的,” OpenAI 的首席研究官 Bob McGrew 表示。他说 OpenAI 还让 o1 参加了国际数学奥林匹克资格考试,而 GPT-4o 只解决了 13% 的问题,o1 则正确解决了 83% 。
在在线编程竞赛 Codeforces 中,这款新模型达到了参与者的第 89 百分位,OpenAI 声称下一次更新后,这个模型将在物理、化学和生物等高难度基准任务上表现得 “类似于博士生”。
同时,o1 在很多领域并不如 GPT-4o 那样强大。它在世界事实知识方面表现不佳,也无法浏览网页或处理文件和图像。尽管如此,OpenAI 仍然认为这代表了一种全新的能力类别。该模型被命名为 o1 ,意在表示 “将计数器重置为 1” 。
“说实话,我们的命名传统上很糟糕,” McGrew 说。“所以我希望这是迈向更理性命名方式的第一步,更好地向世界传达我们的工作。”
我自己无法演示 o1 ,但 McGrew 和 Tworek 本周通过视频通话向我展示了它的能力。他们要求它解决这个难题: “公主的年龄与王子将来的年龄相同,而当公主的年龄是王子过去年龄的两倍时,公主的年龄等于他们现在年龄之和的一半。问王子和公主的年龄是多少?请提供该问题的所有解答。”
模型缓冲了 30 秒后,给出了正确答案。OpenAI 设计的界面会显示模型在思考时的推理步骤。令我印象深刻的不是它展示了解题过程 —— GPT-4o 如果提示的话也可以做到 —— 而是 o1 看似有意模仿人类思维的方式。类似于 “我很好奇”,“我正在思考”,“好的,让我看看” 等短语营造出了一种逐步思考的假象。
不过这个模型并没有真正思考,它当然也不是人类。那么,为什么要设计成这样的样子呢?
Tworek 表示,OpenAI 并不认为 AI 模型的思考与人类思考相同。但这个界面旨在展示模型花费更多时间来处理和深入解决问题的过程。“有些方面它感觉比之前的模型更像人类。”
“我认为你会发现有很多方面它看起来有些外星,但也有一些方面让你觉得它出乎意料地像人类,” McGrew 说。模型被给予了有限的时间来处理查询,因此它可能会说类似于 “哦,我快没时间了,让我快速给出答案” 这样的话。在早期的思维链过程中,它可能看起来像是在头脑风暴,并说类似于 “我可以这样做,也可以那样做,我该怎么选?” 之类的内容。
迈向智能代理
大型语言模型目前并不算非常聪明。它们本质上只是在预测词序,基于从大量数据中学习到的模式给出答案。以 ChatGPT 为例,它往往会错误地声称 “strawberry” 这个单词只有两个 R ,因为它没有正确地拆解单词。值得一提的是,新模型 o1 在这个问题上给出了正确答案。
据报道,随着 OpenAI 寻求以 1500 亿美元的估值筹集更多资金,其未来发展依赖于更多的研究突破。该公司正在为大型语言模型引入推理能力,因为它看到了一个具备自主决策和执行能力的未来系统 —— 即所谓的智能代理。
对于 AI 研究人员来说,破解推理能力是迈向类人智能的重要一步。人们认为,如果模型能超越模式识别能力,它可能会在医学和工程等领域带来突破。然而,目前 o1 的推理能力相对较慢,不像代理人那样智能,且开发者使用它的成本较高。
“我们花了好几个月研究推理问题,因为我们认为这是一个真正的关键突破,” McGrew 说。“从根本上讲,这是模型解决那些必须面对的难题,以实现类人智能水平所需的新模式。”
GitHub 已经开始在 GitHub Copilot 中测试 OpenAI 的 o1-preview。OpenAI 的新模型旨在更好地编写代码,GitHub 表示 “我们的初步测试在代码分析和优化方面显示了令人鼓舞的结果。”