LM Studio MLX 引擎更新:缓存加速代理工作流 LM Studio 发布了 mlx-engine v1.8.5,通过磁盘缓存 KV Cache 显著提升重复长上下文场景下的推理性能,支持连续批处理,并针对 Gemma 4 和 Qwen 3.5 等模型的不可回退 KV 缓存问题设计了解决方案。基准测试显示,并行聊天吞吐量提升 2.2 倍,长提示内存占用降低 82%,重复图像请求速度提升 3.5 倍。该更新已开源,适用于 Apple Silicon 上的代理工作流。 KV缓存 MLX引擎 连续批处理 磁盘缓存 Gemma Qwen ostensiblyneil 发布于 2026-06-06 110 0 0