微软公司最近宣布推出了其最新开发的最新AI语言模型,名为Phi-3。这款小型语言模型(SLMs)在市场上以其卓越的性能和成本效率获得关注,尤其在语言处理、推理、编程及数学基准测试方面表现出色,超越了同等规模甚至更大规模的模型。
Phi-3模型系列的最新成员,包括拥有3.8亿参数的Phi-3-mini,从今天起将通过微软Azure AI Studio、Hugging Face和Ollama平台提供。Phi-3-mini具备两种上下文长度选项——4K和128K令牌,是同类中首个支持高达128K令牌上下文窗口的模型,且几乎不影响性能质量。此模型经过了指令优化,可以根据各种真实沟通场景中的指令进行操作,确保即购即用。
此外,Phi-3-mini已针对ONNX运行时进行优化,并支持Windows DirectML,提供包括GPU、CPU及移动硬件在内的跨平台支持。它还可作为NVIDIA NIM微服务提供,配备标准API接口,能够在任何设备上部署,并已针对NVIDIA GPU进行了特别优化。
微软计划在接下来的几周内进一步扩展Phi-3模型家族,推出Phi-3-small(7B)和Phi-3-medium(14B)等模型,这将为客户提供在性能和成本之间更灵活的选择。这些模型即将在Azure AI模型目录及其他平台上推出。
微软的追求
大型语言模型(LLMs)创造了使用AI提高生产力和创造力的新机会。但它们的体积意味着运行它们需要大量计算资源。虽然这些模型仍将是解决许多复杂任务的黄金标准,微软一直在开发一系列小型语言模型(SLMs),这些模型具有在LLMs中发现的许多相同功能,但体积更小,训练数据量也更少。该公司今天宣布推出Phi-3系列开放模型,这是目前市场上最有能力和最具成本效益的小型语言模型。Phi-3模型在评估语言、编码和数学能力的各种基准测试中表现优于同等大小和更大尺寸的模型,这得益于微软研究员开发的训练创新。
Phi-3系列的新模型的推出标志着微软公司在提供性能和成本效益上的最优解方面的持续承诺。
在最新的基准测试中,Phi-3系列显示出了突破性的性能,超越了许多相同尺寸甚至体量更大的现有语言模型。特别是,Phi-3-mini模型的性能优于其体量两倍的其他模型,而Phi-3-small和Phi-3-medium模型则优于更大规模的模型,如广为人知的GPT-3.5T。
这些性能数据是通过标准化的测试流程获得的,以确保结果的可比性。虽然由于评估方法的微小差别,这些测试结果可能与其他发布的数据有所不同,详细信息已在公司的技术论文中公布。
值得注意的是,在专注于事实知识的基准测试(如TriviaQA)中,Phi-3系列的表现不如某些更小型的模型,这主要是因为较小模型尺寸可能限制了其保留事实的能力。
Phi-3模型是在微软负责任的AI原则指导下开发的,这些原则包括问责制、透明度、公平性、可靠性与安全性、隐私保护以及包容性。每个模型在上市前都经过了严格的安全评估,包括红队测试和敏感用途审查,确保它们在符合公司标准的同时,也能安全可靠地部署和使用。
基于微软既有的Phi模型系列,Phi-3模型通过使用高质量数据进行训练,并结合了人类反馈的强化学习、自动化测试、以及手动的红队测试等多种方式,进一步提升了其安全性能。公司还在其技术论文中详细介绍了这些安全培训和评估方法,并在模型卡中提供了推荐的使用方式和限制。
为什么要有小型语言模型
在当前的技术发展趋势中,小型语言模型正成为解决简单任务的理想选择。这类模型不仅易于使用,还因其能够被资源有限的组织快速部署和定制以满足特定需求而受到青睐。微软的相关负责人在最近的一个技术研讨会上指出:“我们将见证的,不再是模型从大到小的简单缩减,而是从单一模型向模型组合的转变。在这种变革中,客户能够根据自己的实际情况选择最适合自己的模型。”同样,其也强调了模型选择的多样性:“有些客户可能只需要小型模型,而一些则需要大型模型,许多人将希望将两者结合使用。”选择合适的语言模型依赖于组织的具体需求、任务的复杂度以及可利用的资源。特别是对于那些需要在设备上本地运行的应用程序,小型模型以其快速响应和不依赖于广泛推理的特性,显得尤为适合。
大型语言模型(LLMs)以其处理高级推理、数据分析和上下文理解的能力,在执行复杂任务方面显示出显著优势。与此同时,小型语言模型(SLMs)为那些受监管的行业提供了新的可能性,特别是在这些行业中,有高质量结果需求且希望数据保留在本地的情况下。微软的研究人员特别看好在移动设备上部署功能更强大的SLMs的前景,这些设备能在无需连接云端的情况下,在“边缘”环境中运行,如汽车计算机、无Wi-Fi个人电脑、交通系统、工厂地板上的智能传感器、遥控摄像机或监控环境合规性的设备。
微软的研究人员指出,这种方式可以“最小化延迟并最大化隐私”。他解释说,延迟是指LLMs与云通信检索数据以响应用户提示时可能发生的时间延迟。在某些情况下,用户可能愿意等待高质量的回答,而在其他情况下,快速响应是用户满意度的关键。他还提到,由于SLMs能够离线工作,更多人将能以前所未有的方式使用人工智能。例如,在缺乏蜂窝服务的农村地区,SLMs能提供即时的智能支持。他补充道:“即使在网络条件不佳的地区,你也可以在你的设备上享受AI体验。”
尽管在AI标准上SLMs相对较小,例如Phi-3-mini模型仅有38亿参数,但它们的潜力不容小觑。相比之下,最大的LLMs的规模远超此数,这些模型的巨大进步通常被认为是其庞大规模所带来的。然而,微软的团队成功开发出在小型封装中提供卓越结果的SLMs,这一成就得益于对训练数据的精选策略。
传统上,大型语言模型的训练依赖于海量的互联网数据,这被视为满足这些模型对复杂内容处理需求的唯一方式。然而,微软的生成性AI研究副总裁Sebastien Bubeck提出了另一种思路:“我们为何不寻找极高质量的数据呢?”受到微软同事每晚与女儿的阅读仪式的启发,微软研究团队决定创建一个名为“TinyStories”的数据集,该数据集从3000个精选词汇开始,包括相似数量的名词、动词和形容词。这些词汇被用于指导一个大型模型生成数百万个小型儿童故事,这个过程持续了几天。这些故事后来被用来训练一个约有1000万参数的小型模型。出乎意料的是,当这个通过TinyStories训练的模型被用来生成故事时,它展示了流畅的叙述和完美的语法,证明了在精确数据驱动下小型模型的巨大潜力。
小型语言模型如何应用
微软通过Azure AI平台推出的Phi-3模型,特别适合用于资源受限、延迟敏感和成本受限的环境。例如,Phi-3-mini因其小尺寸和优化的ONNX运行时,能够在多种平台上进行部署,非常适合需要在设备上或离线进行推理的场景。Phi-3模型的较小尺寸也使得微调或定制变得更容易和更经济。此外,它们较低的计算需求使其成为一个成本更低、延迟更好的选项。更长的上下文窗口使其能够接收并推理大量文本内容——文档、网页、代码等。Phi-3-mini展示了强大的推理和逻辑能力,使其成为分析任务的良好候选者。
根据微软官网的介绍,Phi-3系列已被广泛应用于多个行业,包括农业。例如,在微软与印度ITC企业集团合作的Krishi Mitra项目中,Phi-3模型已被用来支持超过一百万农民,帮助他们在网络连接不稳定的环境中获得实时的农业建议和支持。
此外,从最初的Phi-1模型,专注于Python编程,到后续的Phi-1.5和Phi-2模型,每一代产品都显示了如何通过战略数据策划和创新的规模扩展来实现性能的显著提升,Phi系列模型已经在业界树立了高标准的典范。