Gemma 4 MLX 量化實測 — E4B 8bit 最佳平衡

2026-04-03 | flow

flow 實測 Gemma 4 全尺寸 MLX 量化版本(E2B / E4B / 26B-A4B / 31B,各有 bf16 / 8bit / 4bit),關鍵結論:

  • E4B 8bit 實用性最平衡,推薦日常使用
  • E4B Q8 需要 9.2GB(含 audio + 更長上下文),Qwen 3.5 4B 只要 5.2GB,將近兩倍大
  • 視覺層與嵌入層不可量化,實際壓縮幅度有限
  • Q4 版本不夠穩定,易崩
  • 31B 量化效果不好,模型太精實
  • MLX community 上有人火速轉的版本根本不能用,要用 flow 自己轉的

4B 級別的視覺描述各家差不多,但 Gemma 4 多了 audio 功能。本機拿來分析、做雜事都很強。