苹果的语音助手本来应该是一个超越当前形态的存在。现在,13年后,它可能真的准备好了。
2011年,苹果与 iPhone 4S 一同推出了 Siri。公司发布了一系列广告,展示了如何使用这个新奇的语音助手。这些广告展示了 Siri 可以完成提醒、天气预报、闹钟等多种任务。广告的重点是 Siri 是一个有用且随时可用的伴侣,能够处理用户的各种需求。无需打开应用程序或点击,只需发出语音指令即可。
Siri 对苹果来说意义重大。在 4S 的发布会上,苹果的高管表示 Siri 是新设备的最佳功能。他指出,几十年来,技术专家一直梦想着用户可以与技术对话,而技术会为用户执行任务,但这一梦想一直未能实现。他自信地宣称,苹果已经解决了这个问题。
然而,事实并非如此。在最初发布的13年里,Siri 对于大多数人来说,要么是用来设置计时器的,要么是一个无用的功能。Siri 长期以来表现不佳,以至于许多人认为苹果要么忘记了它,要么选择假装它不存在。
但据传闻和报道,苹果可能在即将举行的全球开发者大会(WWDC 2024)上推出一次重大改进,让我们第一次见到真正的 Siri。根据多家媒体报道,苹果计划对 Siri 进行大规模的技术升级,使其更加可靠,这得益于大型语言模型的应用,但功能上不会有太大变化。即使如此,这也将是一项重要的进步。此外,苹果似乎还在研发一个新的 Siri 版本,该版本将真正集成到应用程序中,意味着助手可以在设备上代表用户执行操作。理论上,用户在手机上能做的任何事情,Siri 很快都能完成。
显然,这一直是 Siri 的愿景。早期广告中展示的使用场景也表明了这一点:用户向 Siri 寻求帮助,但 Siri 几乎从未真正完成工作。它提供了餐馆列表,但没有提供点餐服务或展示菜单。它告知交通堵塞情况,但没有重新规划路线。Siri 提供了建议,但没有实际帮助。到目前为止,使用 Siri 就像拥有一个只能为用户在网上搜索信息的虚拟助手。
Siri 的无能令人沮丧,因为它需要的一切都在用户的手机上。例如,当用户想要订购披萨时,为什么 Siri 不能检查上次订餐的邮件收据,打开订餐应用程序,输入相同的订单,并使用 Apple Wallet 支付呢?如果用户有一个繁忙的日程,Siri 似乎具备快速调整日程安排的所有条件。如果 Siri 能像远程访问工具一样接管用户的手机,它将是无敌的。
Siri 从未实现其潜力有两个主要原因。首先,底层技术不够好。如果用户用过 Siri,就会知道它经常听错名字、误解命令,并在用户只想播放播客时退回到“这是我在网上找到的一些内容”。这是大型语言模型令人兴奋的地方,因为它们显著改善了语音识别和语言理解能力。其次,苹果和第三方开发者从未弄清楚 Siri 应该如何工作。用户不知道 Siri 能做什么或如何询问,开发者也不知道如何集成 Siri。如果用户想要执行一个多步操作,目前的选择是使用 Shortcuts 工具,但这对大多数人来说太复杂了。
AI 可能给苹果提供了一个机会来解决这些问题。今年早些时候,苹果的研究人员发表了一篇论文,介绍了一个名为 Ferret-UI 的系统,该系统使用 AI 模型理解屏幕图像的小细节。该系统可以识别应用程序并找到具体的按钮。
尽管如此,我们应对苹果的任何新声明持谨慎态度。十多年前,苹果宣称已经打造出一个更好的语音助手,但事实并非如此。如今,AI 的炒作继续以远快于实际技术的速度前进,许多公司都在研究类似的想法,但没有人证明它已经准备好。
如果苹果这次真的突破了技术难关,这可能是我们第一次看到真正的 Siri——那个多年前被承诺的 Siri。也许未来的某一天,用户的需求将不再只是愿景,而是现实。