本文解释了MLX量化模型在Qwen3.5等混合架构上表现不佳的原因,即均匀量化无法有效处理不同张量的敏感度差异。文章提出了基于Unsloth imatrix数据的混合精度量化方案,为不同张量分配最佳比特位宽,从而显著提升模型性能。