mlx-gemma4 — Gemma 4 每層獨立量化，再縮 30%

2026-04-28

有人做了一個壯舉：對 Gemma 4 MLX 版本的每一層分別測試能不能量化，每層用不同的量化等級，結果比原版再縮小了 30%，讓它在 Apple Silicon 上跑得更順。

JSON 輸出正確率大約九成是模型本身的特性，不是量化造成的失智——原版 bf16 測出來也差不多這個數字。要穩定輸出 JSON 的話，可以搭配 regex 抓 ```json 區塊的方式做 fallback。

[Links]