AI模型Claude 3挑战ChatGPT,性能和性价比受好评|TodayAI

人工智能新闻6个月前更新 TodayAI
2,446 0 0
PonderAI-智能助手

AI技术公司Anthropic最近推出了一款名为Claude 3的先进AI模型,该模型因其卓越的性能和性价比而受到高度评价。据报道,AWS已经宣布将在Amazon Bedrock平台上提供Claude 3服务。

AI模型Claude 3挑战ChatGPT,性能和性价比受好评|TodayAI

美国YouTuber Matt Wolfe专门评测AI和科技产品,他最近发布了一段视频,比较了Claude 3和ChatGPT。在视频中,Matt使用创意、逻辑、编码、文档摘要、视觉描述、特定议题的观点和定价七个方面作为测试标准。他分别向Claude 3的两个版本OpusSonnet以及GPT-4提出问题,并比较了它们的答案。结果显示,Claude 3的两个版本在七个测试中的四个方面表现更佳,部分测试的表现甚至超过了GPT-4。

AI模型Claude 3挑战ChatGPT,性能和性价比受好评|TodayAI

在创意方面,Matt让三个AI系统根据狼、魔法锤、基因突变体这些线索来创作一个英雄冒险故事。他认为三者都达到了基本要求,但在速度上Sonnet最快,而在故事细节和完整度上Opus的故事最好。他提到GPT-4也能满足要求,但性能不如Claude 3。

在编码方面,Matt要求三个AI系统提供一段代码,让用户可以用该代码设计一个“收集金币的棍子”游戏。结果Opus表现最佳,一次就达到了要求,Sonnet次之,只需一次修正即可完成编码。相反,GPT-4的表现不尽人意,即使经过两次修正也未能成功提供符合要求的代码。

在文档摘要方面,Matt将一篇长达155页的AI相关研究论文发送给三个系统,要求它们撰写论文的要点。结果三者都能完成任务,但Sonnet和Opus的表现更佳,能够更深入地描述重点。Matt还强调了Opus在”大海捞针”测试中的表现,即在大量文本中准确找出与问题相关的”针”,这一表现远胜于GPT-4。

至于在图像描述和对特定议题的观点方面,Matt认为三者表现相似。例如,它们都能准确描述所提供的图像,并描绘背景、服装、颜色和用词等信息。在讨论特定争议话题时,三个系统都提供了平衡的观点,没有明显偏向某一立场。

在逻辑方面,Matt设置了两个问题来测试三个系统的推理能力。其中一个是经典的”天堂与地狱守门人”逻辑问题,三个系统都能提供正确答案,但答案非常相似,难以判断是否都接受过类似问题的训练。另一个问题考察了AI系统通过不完整信息推断答案的能力。Matt认为GPT-4的表现更好,但视频评论区有不少人为Claude 3辩护,认为Matt的逻辑问题描述可能存在歧义,影响了Sonnet和Opus的表现。

最后,Matt认为Claude 3下的Sonnet在定价方面极具竞争力。尽管Sonnet是免费提供给公众使用的系统,但在创意、编程和文档摘要方面的表现竟然比收费的GPT-4更好。他指出,如果用户经常需要AI协助编码或整理文档内容,即使不考虑Sonnet每天的使用次数限制,其表现也是无可挑剔的。

Anthropic设计的Claude 3模型因其卓越性能和性价比在学术界受到高度评价,这一趋势表明AI技术正在逐渐渗透到各个领域,改变着我们的工作和生活方式。

© 版权声明

相关文章