PCDVD數位科技討論區 - Ollama for Gemma 4

引用:

作者野口隆史

這篇文章應該也是 AI 寫的可能性很高
因為全篇都在亂寫

我在 2070 8G VRAM 下 Qwen 3.6 35BA3B 初始生成性能在 131K上下文 + kv q4_0 約 26 tk/s
他 1060 6G VRAM 性能約 17 tk/s
這基本上沒比純 CPU 推理快多少
這性跟一個 10W 左右帶 AI 推理的樹莓派5 差不多
我剛剛用我的 16 核 3950x 純 cpu 就 14 tk/s 了，他比我多一張顯卡才 17 tk/s?!

然後 llama.cpp 根本沒有 q3_0 這個參數
這完全是瞎編
https://github.com/ggml-org/llama.c...erver/README.md

Turbo Quant 在主線 llama.cpp 還只是幾個 PR，根本還沒合併
而且它的參數項：

turbo2、turbo3、turbo4

哪來的 q3_0

他的設定我的話只需要加一個 -fitt 128
其它 llama.cpp 都自動處理了
寫那堆分明就是騙流量來的

喔，沒想到會是假的。
不過大博主（ㄟ這稱號怪怪的）也不一定專業。
文章應該是透過 AI 翻中文吧。
還是原文是 AI 產的。

上班時間沒看得很深入，只 bookmark。
看起來不用試了。

PS:
哀，最近很慘。
以前一張需求單就解決的，資訊部門太弱，全外包。
整套採購流程超繁瑣的~~~