Gemma 4 MLX 量化實測 — E4B 8bit 最佳平衡
flow 實測 Gemma 4 全尺寸 MLX 量化版本(E2B / E4B / 26B-A4B / 31B,各有 bf16 / 8bit / 4bit),關鍵結論:
- E4B 8bit 實用性最平衡,推薦日常使用
- E4B Q8 需要 9.2GB(含 audio + 更長上下文),Qwen 3.5 4B 只要 5.2GB,將近兩倍大
- 視覺層與嵌入層不可量化,實際壓縮幅度有限
- Q4 版本不夠穩定,易崩
- 31B 量化效果不好,模型太精實
- MLX community 上有人火速轉的版本根本不能用,要用 flow 自己轉的
4B 級別的視覺描述各家差不多,但 Gemma 4 多了 audio 功能。本機拿來分析、做雜事都很強。
[Links]