马斯克的xAI发布全新多模态AI模型Grok-1.5V,全力构建人工通用智能|TodayAI

PonderAI-智能助手

马斯克的xAI发布全新多模态AI模型Grok-1.5V,全力构建人工通用智能|TodayAI

马斯克旗下的xAI公司近日推出了其首个多模态模型Grok-1.5 Vision(简称Grok-1.5V),这款新型人工智能不仅能理解文本,还能处理文档、图表、截图和照片中的视觉信息。Grok-1.5V将很快向早期测试者和现有的Grok用户开放。

公司在一篇博客文章中表示:“Grok-1.5V在多个领域与现有的前沿多模态模型具有竞争力,这些领域包括多学科推理、理解文档、科学图表、图表、截图和照片。”

此次发布是继xAI更新其聊天机器人模型Grok-1.5几周后的又一重大动作。公司特别展示了Grok-1.5V的七个应用示例,包括将白板上的流程图草图转换为Python代码、仅根据儿童画作生成睡前故事、解释网络迷因、将表格转换为CSV文件格式以及判断你的木板是否腐烂需要更换等。

在与GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5等同行的测试中,xAI声称其多模态模型表现突出。公司特别自豪的是,Grok-1.5V在其新创建的RealWorldQA基准测试中超越了竞争对手,这是一个评估真实世界空间理解能力的新指标。

RealWorldQA的训练使用了700多张图片及每张图片对应的问答,这些图片从车辆拍摄的匿名图片到其他真实世界样本不等。xAI将RealWorldQA在创作共用许可下向公众发布。

自从2023年11月聊天机器人首次亮相以来,马斯克的AI公司一直在努力赶超OpenAI及其他市场领导者。Grok-1.5V的发布距离xAI将Grok AI开源不到一个月。但是,该公司的努力并非没有争议。本月早些时候,研究人员透露,Grok聊天机器人可能会指导用户进行犯罪活动。

尽管如此,xAI仍在继续前进,致力于构建能够理解宇宙的“有益的人工通用智能”。公司透露,将在未来几个月对Grok AI的多模态理解和生成能力进行“重大”更新。

马斯克的xAI发布全新多模态AI模型Grok-1.5V,全力构建人工通用智能|TodayAI
© 版权声明

相关文章