LMSYS Chatbot Arena

全球最权威的盲测榜单。目前 DeepSeek V4 在此榜单表现极为激进。它不仅有综合排名，还可以切换到 Coding 或 Hard Prompts 子榜单查看极端性能表现。

嚯，LMSYSChatbotArena居然能直接用！刚试了一下，感觉这个盲测榜单确实有点东西。

它那个排名页面标题就叫“LLMLeaderboard-BestText&ChatAIModelsCompared”，看着挺正经的，什么数学、编程、创意写作这些领域的模型表现都有涉及。我主要看了下综合排名，听说DeepSeekV4最近在这个榜上表现蛮激进，不过我没仔细对比其他模型，就随便点了几轮。说实话，速度是真慢。

每次选两个模型盲测，等它出结果要等好一会儿，急性子可能受不了。

但质量确实不错，生成的回答内容挺丰富，不是那种敷衍的短句。

比如我试了个创意写作的题目，它给的回复细节挺到位，逻辑也顺。还得登录才能用，这点稍微有点麻烦，不过反正现在哪个AI网站不让你注册呢。

我看别人说这是全球最权威的盲测榜单，还能切到Coding或HardPrompts子榜单看极端表现，我自己还没试过那些子榜单，光看综合排名就已经够眼花缭乱了。

感觉就是，如果你不赶时间、想认真对够用的去处。