量化模型選擇指南:參數大小 vs 精度的取捨
本地跑模型時,量化後的大參數模型通常優於小參數的全精度模型:
- Q4:速度快,適合純聊天,但精度不足以做精確描述或寫作
- Q8:平衡選擇,模型標示多少 B 大約就佔多少 GB RAM,再加 1/2 作為運行空間
- FP16/32:學術/研究用,容量更大
經驗法則:140B FP8 模型通常比 70B BF16 模型效果好,但記憶體使用相同。MoE 架構(如 Qwen 3.5 35B A3B)實際啟動參數少,RAM 需求更低。
本地跑模型時,量化後的大參數模型通常優於小參數的全精度模型:
經驗法則:140B FP8 模型通常比 70B BF16 模型效果好,但記憶體使用相同。MoE 架構(如 Qwen 3.5 35B A3B)實際啟動參數少,RAM 需求更低。