不花钱的评测榜单,试了下OpenCompass(司南),朋友推荐时说是国内最专业的框架。我一开始没太当回事,毕竟网上各种模型排名看多了,总觉得有水分。
但这个站给我的第一印象是,它确实只做一件事——给大模型和多模态模型打分排名,还有分得很细。我主要看中文语义理解和逻辑推理这两块,页面里每个模型都有单独的维度得分,不是笼统地排个序就完事。
比如我想对比几个模型在超长文本处理上的上限,点进去能看到具体分数,不用自己再去翻论文或者瞎猜。
不过要登录才能用,这有点麻烦,但访问倒是很顺畅,没遇到打不开的情况。
我没仔细验证它数据到底多准,毕竟质量没法判断,但至少维度划分得够清楚,对我这种想挑模型又没时间全测一遍的人来说,算是个靠谱的参考。用了几天,确实有点用。