PCDVD數位科技討論區 - 瀏覽單個文章 - 韓媒：中國AI機器人已經步入神之領域

引用:

作者Hermit Crab

https://www.ithome.com/0/869/171.htm

評測成績再好
但不能提升你的生產力就沒有意義
這些什麼 MMLU, Livecodebench 都是公開的
你可以針對這些評測下去學習訓練
就好比塗鴉式教學一樣
培養出考試機器

而且你貼的那個 lmarena
比的根本不是編碼能力
是文字生成相關的綜合能力
裡面跟編碼有些相關的就是 webdev
https://lmarena.ai/leaderboard/webdev
不過裡面沒有 k2 成績

很多人都不知道，如果只比測試成績
那去年最強的開源模型是 Nvidia 出的
但現實世界我根本沒有看過有人日常生活靠它吃飯

當初 Deepseek R1 推出的時候有一個測試很有名
就是用 python 寫一個物理引擎
旋轉六邊形容器然後裡面放小球
來看模擬效果
這題目沒有出現在任何評測項目中
也沒有類似的題目
當初只有 R1 做得出來
後來 Qwen3 針對這題去學習
現在同樣的題目 14B 就做得出來
但是你問他沒學習過的
很快就打回原形

模型規模就在那邊 1000B VS 235B
1M VS 256k 上下文
思考 VS 純推理
Qwen 自己都不放 235B 思考模式 VS 235B-2507 的對比了
這個 235B-2507 給我感覺只是 qwen 回應 K2 的方式
意思是要吹大家一起來吹