Gemma 4:Google 開源多模態模型,Vision/Audio/Embedding 全合一

2026-04-03 | Pan

Google 發布 Gemma 4 開源多模態模型,4B 參數量支援 Vision/LLM/Audio/Embedding。

硬體需求: E4B Q8 需 9.2GB RAM(比 Qwen 3.5 4B 的 5.2GB 大近一倍,因多了 audio 和更長上下文)。M1 Pro 16G 可順跑 4B 版,Q4 版本不夠穩定易崩。

實測評價: 視覺描述能力優秀,可直接 OCR 圖片文字與環境線索。與 Qwen 3.5 比較速度略快,視覺層品質相當(2026 世代 4B 都極好)。寫程式能力不足(需 26B 以上)。

定位: 適合當應用軟體用——OCR、視覺理解、簡單對答。搭配 CoPaw 或接入 N8N 做自動化任務。