苹果公司(Apple)发布了一款新的7B参数开源人工智能模型,向Meta发起挑战。这一举动标志着苹果在开源人工智能运动中崛起为重要领导者,并有望对整个AI生态系统产生深远影响。
这款由苹果研究部门开发的新模型,尽管不太可能直接成为苹果产品的一部分,但它所传递的理念和经验无疑将对苹果未来的AI发展产生深远影响。这也是苹果致力于建设更广泛AI生态系统的一部分,包括通过开放数据计划。最新发布的DCLM模型家族成员在基准测试中表现优异,超越了Mistral-7B,接近Meta和谷歌的类似规模模型。
苹果机器学习团队的Vaishaal Shanker在X上表示,他们开发的模型是“目前可用的表现最好的真正开源模型”。所谓“真正开源”,即所有的权重、训练代码和数据集都与模型一起公开发布。
这一发布恰逢Meta计划推出其庞大的GPT-4竞争对手Llama 3 400B之际。目前尚不清楚苹果是否计划在未来发布更大的DCLM模型。
苹果的DCML(数据语言模型)项目汇集了来自苹果公司、华盛顿大学、特拉维夫大学和丰田研究所的研究人员。该项目旨在设计高质量的数据集以训练模型。鉴于最近关于某些模型训练数据的合法性及其内容是否获得适当许可的担忧,这一举措显得尤为重要。
研究团队在相同的模型架构、训练代码、评估和框架上进行多次实验,旨在找到最适合创建高效、高性能模型的数据策略。最终,这些努力促成了DCML-Baseline的诞生,并用于训练新发布的7亿和1.4亿参数版本的模型。
这一新模型既高效又完全开源。尽管它的规模较小,仅有2000个标记的上下文窗口,不适用于大文本摘要,但在标准评估基准上的5-shot准确率达到63.7%。尽管如此,由于所有权重、训练数据和过程都已开源,这款模型成为今年最重要的AI发布之一。
这一开源模型的发布将使研究人员和公司更容易创建自己的小型AI,这些AI可以嵌入研究项目或应用中,并且无需按标记成本使用。OpenAI的CEO Sam Altman在上周发布小型GPT-4o mini时表示,其目标是创造“智能到无需计量的”。苹果的项目显然也是这一理想的一部分。
苹果推出这一新开源AI模型,继续展示其在AI领域的技术优势,以及其推动开源和数据透明化的决心。