OpenAI,ChatGPT的背后开发者,可能正将目光投向了接下来的人工智能大战——挑战声音助手市场,推出名为“语音引擎”的新工具。
尽管ChatGPT在移动端已具备友好的语音交互界面,并且最近引入了桌面版的语音回应功能,但OpenAI最近针对“语音引擎”这一词汇的商标申请,明确指向了构建数字语音助手的方向。
随着Android系统允许用户更换默认的语音助手,苹果似乎也在与多家AI公司就iPhone上的人工智能未来进行商谈。因此,OpenAI推出专门的“语音引擎”工具,似乎是基于预见新市场的前瞻性举措。
传言称苹果即将在下一次iOS重大更新中推出专门的AI应用商店,这将为AI驱动的助手创造新的市场。
OpenAI的CEO Sam Altman表示,今年将会有“许多不同的事物”发布。预计这将包括Sora这样的AI视频工具,也可能包括一套新的AI语音系统。
关于“语音引擎”的具体信息目前仍然鲜为人知。OpenAI尚未公开评论,所以我们只能依据传言和商标申请文件来推测。
“语音引擎”可能是为语音应用专门构建的新模型,也有可能是OpenAI针对企业市场的一部分。它可能正在打造一个高质量的语音系统,使公司能够构建更高效的呼叫中心机器人。
商标申请文件涵盖了开发数字语音助手、从文本提示生成音频、处理语音命令和提供语音服务的软件创造等方面。
整个申请涵盖了使用AI进行文本到语音和文本到音频的转换、自然语言和语音处理、根据提示(文本、语音、视觉、图像)生成音频和语音、处理语音命令、语音识别以及构建数字语音助手等方面的开发。
OpenAI在一年前发布了GPT-4,这是一款开创性的生成式AI模型,为ChatGPT和Microsoft Copilot提供支持。公司也在去年晚些时候开始训练GPT-5,引发了关于其发布日期的猜测。Altman在接受播客主持人Lex Fridman采访时表示,“我们将在今年发布一款惊人的新模型”,但未确认这是否为GPT-5或某种前置版本。
据OpenAI的首席技术官Mira Murati表示,今年的发布将包括AI视频平台Sora。
有社交媒体上的猜测认为,Sora和这个新的“语音引擎”可能是GPT-5的不同模态接口。
GPT-5很可能将是一个真正的多模态模型,能够理解视频、图像、语音、文本和代码,并生成所有这些内容类型。
鉴于商标的描述,“语音引擎”也可能是一个新的语音助手,将Siri、Alexa或Google Assistant的广泛功能与ChatGPT的推理和自然语言能力结合起来。
Google已经开始升级Gemini以这种方式工作,苹果据说正在开发具有大型语言模型功能的新版Siri,亚马逊也正在测试具有类似底层技能的Alexa Plus。
OpenAI可能会提供“语音引擎”来为这些系统提供动力,或作为与ChatGPT相连的另一种界面,可运行在智能扬声器、手机甚至耳机上。
或者,这可能只是OpenAI在商标方面的谨慎行动。此前,它保护GPT的尝试被拒绝,因此现在已为GPT-5、6甚至GPT-7提交了商标申请。后者包括音乐生成、将文本和数据转换为代码以及从头编写代码的功能。