mlx-gemma4 — Gemma 4 每層獨立量化,再縮 30%

2026-04-28

有人做了一個壯舉:對 Gemma 4 MLX 版本的每一層分別測試能不能量化,每層用不同的量化等級,結果比原版再縮小了 30%,讓它在 Apple Silicon 上跑得更順。

JSON 輸出正確率大約九成是模型本身的特性,不是量化造成的失智——原版 bf16 測出來也差不多這個數字。要穩定輸出 JSON 的話,可以搭配 regex 抓 ```json 區塊的方式做 fallback。