Gemma 4 MLX 量化實測 — E4B 8bit 最佳平衡

2026-04-03

flow 實測 Gemma 4 全尺寸 MLX 量化版本（E2B / E4B / 26B-A4B / 31B，各有 bf16 / 8bit / 4bit），關鍵結論：

E4B 8bit 實用性最平衡，推薦日常使用
E4B Q8 需要 9.2GB（含 audio + 更長上下文），Qwen 3.5 4B 只要 5.2GB，將近兩倍大
視覺層與嵌入層不可量化，實際壓縮幅度有限
Q4 版本不夠穩定，易崩
31B 量化效果不好，模型太精實
MLX community 上有人火速轉的版本根本不能用，要用 flow 自己轉的

4B 級別的視覺描述各家差不多，但 Gemma 4 多了 audio 功能。本機拿來分析、做雜事都很強。

[Links]

MLX 量化模型（全尺寸） ↗