AI模型评测

HELM

斯坦福大学推出的大模型评测体系

标签:
PonderAI-智能助手

HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。

数据评估

HELM浏览人数已经达到2,256,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:HELM的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找HELM的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于HELM特别声明

本站TodayAI官方网站提供的HELM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由TodayAI官方网站实际控制,在2024年3月29日 上午4:40收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,TodayAI官方网站不承担任何责任。

相关导航