AI模型Claude 3挑战ChatGPT，性能和性价比受好评｜TodayAI

人工智能新闻2年前 (2024)更新 TodayAI

2,620 0 0

AI技术公司Anthropic最近推出了一款名为Claude 3的先进AI模型，该模型因其卓越的性能和性价比而受到高度评价。据报道，AWS已经宣布将在Amazon Bedrock平台上提供Claude 3服务。

美国YouTuber Matt Wolfe专门评测AI和科技产品，他最近发布了一段视频，比较了Claude 3和ChatGPT。在视频中，Matt使用创意、逻辑、编码、文档摘要、视觉描述、特定议题的观点和定价七个方面作为测试标准。他分别向Claude 3的两个版本Opus和Sonnet以及GPT-4提出问题，并比较了它们的答案。结果显示，Claude 3的两个版本在七个测试中的四个方面表现更佳，部分测试的表现甚至超过了GPT-4。

在创意方面，Matt让三个AI系统根据狼、魔法锤、基因突变体这些线索来创作一个英雄冒险故事。他认为三者都达到了基本要求，但在速度上Sonnet最快，而在故事细节和完整度上Opus的故事最好。他提到GPT-4也能满足要求，但性能不如Claude 3。

在编码方面，Matt要求三个AI系统提供一段代码，让用户可以用该代码设计一个“收集金币的棍子”游戏。结果Opus表现最佳，一次就达到了要求，Sonnet次之，只需一次修正即可完成编码。相反，GPT-4的表现不尽人意，即使经过两次修正也未能成功提供符合要求的代码。

在文档摘要方面，Matt将一篇长达155页的AI相关研究论文发送给三个系统，要求它们撰写论文的要点。结果三者都能完成任务，但Sonnet和Opus的表现更佳，能够更深入地描述重点。Matt还强调了Opus在”大海捞针”测试中的表现，即在大量文本中准确找出与问题相关的”针”，这一表现远胜于GPT-4。

至于在图像描述和对特定议题的观点方面，Matt认为三者表现相似。例如，它们都能准确描述所提供的图像，并描绘背景、服装、颜色和用词等信息。在讨论特定争议话题时，三个系统都提供了平衡的观点，没有明显偏向某一立场。

在逻辑方面，Matt设置了两个问题来测试三个系统的推理能力。其中一个是经典的”天堂与地狱守门人”逻辑问题，三个系统都能提供正确答案，但答案非常相似，难以判断是否都接受过类似问题的训练。另一个问题考察了AI系统通过不完整信息推断答案的能力。Matt认为GPT-4的表现更好，但视频评论区有不少人为Claude 3辩护，认为Matt的逻辑问题描述可能存在歧义，影响了Sonnet和Opus的表现。

最后，Matt认为Claude 3下的Sonnet在定价方面极具竞争力。尽管Sonnet是免费提供给公众使用的系统，但在创意、编程和文档摘要方面的表现竟然比收费的GPT-4更好。他指出，如果用户经常需要AI协助编码或整理文档内容，即使不考虑Sonnet每天的使用次数限制，其表现也是无可挑剔的。

Anthropic设计的Claude 3模型因其卓越性能和性价比在学术界受到高度评价，这一趋势表明AI技术正在逐渐渗透到各个领域，改变着我们的工作和生活方式。