LMSYS Chatbot Arena
全球最权威的盲测榜单。目前 DeepSeek V4 在此榜单表现极为激进。它不仅有综合排名,还可以切换到 Coding 或 Hard Prompts 子榜单查看极端性能表现。
嚯,LMSYSChatbotArena居然能直接用!刚试了一下,感觉这个盲测榜单确实有点东西。
它那个排名页面标题就叫“LLMLeaderboard-BestText&ChatAIModelsCompared”,看着挺正经的,什么数学、编程、创意写作这些领域的模型表现都有涉及。我主要看了下综合排名,听说DeepSeekV4最近在这个榜上表现蛮激进,不过我没仔细对比其他模型,就随便点了几轮。说实话,速度是真慢。
每次选两个模型盲测,等它出结果要等好一会儿,急性子可能受不了。
但质量确实不错,生成的回答内容挺丰富,不是那种敷衍的短句。
比如我试了个创意写作的题目,它给的回复细节挺到位,逻辑也顺。还得登录才能用,这点稍微有点麻烦,不过反正现在哪个AI网站不让你注册呢。
我看别人说这是全球最权威的盲测榜单,还能切到Coding或HardPrompts子榜单看极端表现,我自己还没试过那些子榜单,光看综合排名就已经够眼花缭乱了。
感觉就是,如果你不赶时间、想认真对够用的去处。