Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

标签：AI模型评测

链接直达手机查看

PonderAI-智能助手

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

Open LLM Leaderboard 的评估基准

AI2 推理挑战（25-shot）：一组小学科学问题
HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。
MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。
TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。

相关导航

全方位的多模态大模型能力评测体系

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

智源研究院推出的FlagEval（天秤）大模型评测平台

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

中文通用大模型综合性测评基准

热门AI书籍

理解和改变世界

随着人工智能的飞速发展，我们生活和工作的方式将不可避免地发生巨变。只有更好地理解我们认知的特点和优势，我们才能在面对人工智能时不被取代或误导，并培养出面向未来的核心竞争力。《理解和改变世界》为我们提供了关键的思考框架，帮助我们应对这一变化时代的挑战。

5000天后的世界

硅谷精神之父、世界互联网教父，《失控》作者凯文·凯利全新作品

《组织制胜》强调在不确定的时代中，组织需要学会面对和拥抱不确定性，提升组织效能为最终目标。

深度学习革命

这是一本讲述人工智能，尤其是深度学习的历史与未来的书。

对齐问题研究的成败，将对人类的未来产生决定性影响。

超越想象的GPT医疗

重新定义未来医疗——以GPT-4为代表的大语言模型将如何颠覆医疗行业，甚至重塑我们的工作、学习和生活方式

TodayAI致力于成为您信赖的AI领域知识伙伴，与您一起探索人工智能技术的无限可能，共同迎接智能时代的到来。

友链申请免责声明广告合作关于我们

Copyright © 2024 TodayAI 北京哆啦网科技有限公司京ICP备2024048432号-3