苹果新AI眼观六路,能“看”并理解屏幕上下文的AI让聊天助手更懂你|TodayAI

人工智能新闻4个月前更新 TodayAI
1,660 0 0
PonderAI-智能助手

苹果新AI眼观六路,能“看”并理解屏幕上下文的AI让聊天助手更懂你|TodayAI

根据上周五发布的一篇论文,苹果的研究人员已经开发了一种新的人工智能系统,这个系统能够理解屏幕上实体的模糊引用以及会话和背景上下文,使得与语音助手的交互更加自然。

这个系统被称为ReALM(引用解析作为语言建模),它利用大型语言模型将引用解析的复杂任务——包括理解屏幕上视觉元素的引用——转化为纯粹的语言建模问题。这使得ReALM在性能上相比现有方法有了显著的提升。

苹果研究团队写道:“能够理解上下文,包括引用,对于对话助理来说是至关重要的。使用户能够对他们在屏幕上看到的内容提出查询,是确保语音助手真正实现免提体验的关键步骤。”

为了解决基于屏幕的引用问题,ReALM的一个关键创新是使用解析出的屏幕实体及其位置来重建屏幕,生成一个捕捉视觉布局的文本表述。研究人员展示了这种方法与专门为引用解析微调的语言模型结合起来,能够在任务上超越GPT-4。

这项工作凸显了专注于语言模型处理诸如引用解析等任务的潜力,这在由于延迟或计算限制而无法使用大型端到端模型的生产系统中尤为重要。通过发布这项研究,苹果正在表明其对使Siri及其他产品更具对话性和上下文感知能力的持续投资。

然而,研究人员警告说,依赖屏幕的自动解析存在局限性。处理更复杂的视觉引用,如区分多个图像,可能需要结合计算机视觉和多模态技术。

苹果正在默默地在人工智能研究方面取得重大进展,即使它在主导快速变化的AI领域的竞争中落后于科技对手。

从融合视觉和语言的多模态模型,到AI驱动的动画工具,再到以低成本构建高性能专业AI的技术,公司研究实验室的一系列突破表明其AI雄心正在迅速升温。

但这个以保密著称的科技巨头面临着来自谷歌、微软、亚马逊和OpenAI等公司的激烈竞争,这些公司已经在搜索、办公软件、云服务等方面积极地将生成式AI产品化。

长期以来,苹果更多地是一个快速追随者而非先行者,现在却面临着一个被人工智能以惊人速度转变的市场。在其备受关注的全球开发者大会上,该公司预计将推出新的大型语言模型框架、“苹果GPT”聊天机器人以及其生态系统中其他AI驱动的功能。

苹果首席执行官蒂姆·库克最近在一次财报电话会议上暗示说:“我们很高兴在今年晚些时候分享我们在AI方面的持续工作。” 尽管苹果一贯的保密性,很明显苹果的AI努力范围广泛。

然而,随着AI霸权之战的加剧,这家iPhone制造商迟到的姿态让它处于一个不同寻常的弱势位置。深厚的资金储备、品牌忠诚度、精英工程能力和紧密集成的产品组合赋予了它一线生机——但在这场高风险的竞争中没有任何保证。

一个普遍存在、真正智能计算的新时代即将到来。到了六月,我们将看到苹果是否做足了准备,确保它在塑造这个时代中发挥了作用。

苹果新AI眼观六路,能“看”并理解屏幕上下文的AI让聊天助手更懂你|TodayAI
© 版权声明

相关文章