这是一份面向32GB内存本地设备的LLM选型清单,重点推荐了适合离线运行的旗舰模型、快速旗舰模型和伴侣模型,并给出单模型与双模型搭配建议。文章核心在于根据不同任务场景(通用对话、写作、推理、代码、工具调用、长上下文RAG)选择合适的量化版本与模型规模,帮助用户在性能、速度和显存/内存占用之间做平衡。