标签名称：AI模型评测

AI搜索引擎视频生成框架 AI商品图生成 AI论文写作工具 AI金融工具 AI编程工具 AI音频工具 AI设计工具 AI图片优化修复 AI训练模型

AI模型评测

SuperCLUE

中文通用大模型综合性测评基准

H2O EvalGPT

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

PubMedQA

生物医学研究问答数据集和模型得分排行榜

FlagEval

智源研究院推出的FlagEval（天秤）大模型评测平台

LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

CMMLU

一个综合性的大模型中文评估基准

OpenCompass

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

HELM

斯坦福大学推出的大模型评测体系

MMBench

全方位的多模态大模型能力评测体系

Chatbot Arena

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

用AI上智库，更懂 AI，更懂你！ AI 智库 —— 不止是导航，更是懂你的智能 AI 资源中枢。

AI智库广告合作关于我们免责声明友情链接

关注我们

Copyright © AI智库域名备案：辽ICP备18007040号-2

辽公网安备21021102001760号