引用:
作者Hermit Crab
https://www.ithome.com/0/869/171.htm
|
評測成績再好
但不能提升你的生產力就沒有意義
這些什麼 MMLU, Livecodebench 都是公開的
你可以針對這些評測下去學習訓練
就好比塗鴉式教學一樣
培養出考試機器
而且你貼的那個 lmarena
比的根本不是編碼能力
是文字生成相關的綜合能力
裡面跟編碼有些相關的就是 webdev
https://lmarena.ai/leaderboard/webdev
不過裡面沒有 k2 成績
很多人都不知道,如果只比測試成績
那去年最強的開源模型是 Nvidia 出的
但現實世界我根本沒有看過有人日常生活靠它吃飯
當初 Deepseek R1 推出的時候有一個測試很有名
就是用 python 寫一個物理引擎
旋轉六邊形容器然後裡面放小球
來看模擬效果
這題目沒有出現在任何評測項目中
也沒有類似的題目
當初只有 R1 做得出來
後來 Qwen3 針對這題去學習
現在同樣的題目 14B 就做得出來
但是你問他沒學習過的
很快就打回原形
模型規模就在那邊 1000B VS 235B
1M VS 256k 上下文
思考 VS 純推理
Qwen 自己都不放 235B 思考模式 VS 235B-2507 的對比了
這個 235B-2507 給我感覺只是 qwen 回應 K2 的方式
意思是要吹大家一起來吹