跳转到主内容
OpenCompass (司南)

OpenCompass (司南)

国内最专业的评测框架。如果你需要评估模型在 中文语义理解、超长文本(Long Context) 以及逻辑推理方面的客观上限,这个站的学术价值最高。

评论

不花钱的评测榜单,试了下OpenCompass(司南),朋友推荐时说是国内最专业的框架。我一开始没太当回事,毕竟网上各种模型排名看多了,总觉得有水分。

但这个站给我的第一印象是,它确实只做一件事——给大模型和多模态模型打分排名,还有分得很细。我主要看中文语义理解和逻辑推理这两块,页面里每个模型都有单独的维度得分,不是笼统地排个序就完事。

比如我想对比几个模型在超长文本处理上的上限,点进去能看到具体分数,不用自己再去翻论文或者瞎猜。

不过要登录才能用,这有点麻烦,但访问倒是很顺畅,没遇到打不开的情况。

我没仔细验证它数据到底多准,毕竟质量没法判断,但至少维度划分得够清楚,对我这种想挑模型又没时间全测一遍的人来说,算是个靠谱的参考。用了几天,确实有点用。

相关内容

评论 (0)

正在加载评论...