FlagEval

FlagEval

智源研究院推出的FlagEval（天秤）大模型评测平台

标签：AI模型评测

链接直达手机查看

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。该平台已提供了 30 多种能力、5 种任务和 4 大类指标，共 600 多个维度的全面评测，任务维度包括 22 个主客观评测数据集和 84433 道题目。

相关导航

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

一个全面的中文基础模型评估套件

由复旦大学NLP实验室推出的大模型评测基准

HELM

斯坦福大学推出的大模型评测体系

全方位的多模态大模型能力评测体系

热门AI书籍

理解和改变世界

随着人工智能的飞速发展，我们生活和工作的方式将不可避免地发生巨变。只有更好地理解我们认知的特点和优势，我们才能在面对人工智能时不被取代或误导，并培养出面向未来的核心竞争力。《理解和改变世界》为我们提供了关键的思考框架，帮助我们应对这一变化时代的挑战。

5000天后的世界

硅谷精神之父、世界互联网教父，《失控》作者凯文·凯利全新作品

《组织制胜》强调在不确定的时代中，组织需要学会面对和拥抱不确定性，提升组织效能为最终目标。

深度学习革命

这是一本讲述人工智能，尤其是深度学习的历史与未来的书。

对齐问题研究的成败，将对人类的未来产生决定性影响。

超越想象的GPT医疗

重新定义未来医疗——以GPT-4为代表的大语言模型将如何颠覆医疗行业，甚至重塑我们的工作、学习和生活方式