OpenCompass (司南)

国内最专业的评测框架。如果你需要评估模型在中文语义理解、超长文本（Long Context）以及逻辑推理方面的客观上限，这个站的学术价值最高。

评论

评论

不花钱的评测榜单，试了下OpenCompass（司南），朋友推荐时说是国内最专业的框架。我一开始没太当回事，毕竟网上各种模型排名看多了，总觉得有水分。

但这个站给我的第一印象是，它确实只做一件事——给大模型和多模态模型打分排名，还有分得很细。我主要看中文语义理解和逻辑推理这两块，页面里每个模型都有单独的维度得分，不是笼统地排个序就完事。

比如我想对比几个模型在超长文本处理上的上限，点进去能看到具体分数，不用自己再去翻论文或者瞎猜。

不过要登录才能用，这有点麻烦，但访问倒是很顺畅，没遇到打不开的情况。

我没仔细验证它数据到底多准，毕竟质量没法判断，但至少维度划分得够清楚，对我这种想挑模型又没时间全测一遍的人来说，算是个靠谱的参考。用了几天，确实有点用。

相关内容

Chatgpt

跟朋友聊天、写文案、改代码都能搭把手，可以，偶尔排个队

Grok

偶尔会看到广告，但能写代码、做图、实时追热点和X动态，聊天也直接不绕弯子

Gemini

跟Google聊就行，文字图片视频都能丢进去，不过得先登录

skillhub

这站是给国内用户挑AI工具的榜单，筛选过质量还行，打开挺快，但得登录才能看

openclaw

像跟朋友随口说：一个能跨平台使唤的AI助手，能干点实事，不过有时候得等它反应

Claude

深度写作和代码分析挺专业，不过偶尔会卡住

OpenCompass (司南)

别看它界面简单，想给中文大模型找客观排名和长文本评测，这里的数据最有说服力

Artificial Analysis

实时对比上百个AI模型的性能、价格和速度，但打开页面有点卡

LMSYS Chatbot Arena

AI盲测排名，靠谱但要耐心等加载

评论 (0)

正在加载评论...