3090 本地跑 Qwen 3.6 27B：踩完所有坑后的完整部署方案

张

张建站

2026/7/27 5:10:25

10分钟阅读

本文从实测踩坑视角出发记录 RTX 3090 24GB 跑 Qwen 3.6 27B 的完整过程——哪些方案失败了、唯一跑通的路是什么。1、3090 24GB 能跑 Qwen 3.6 27B把 X 上推荐的 Qwen 3.6 27B 本地部署方案全试了一遍——3090 24GB 上没一个跑得通。跑通的人用的全是 VRAM 80GB 起步的机器但大多数帖子里这个前提条件直接省掉了。3090 24GB 不是跑不了 27B是跑不了 16bit 精度的 27B。Qwen 3.6 27B 全精度推理需要大约 54GB VRAM超出两倍多。要装进 24GB只能走 4bit 量化而当前主流的几个加速框架对 27B 4bit 的支持恰好都还没到位这才是问题所在。[外链图片转存中…(img-NsMoEeiy-1778233422700)]重点3090 24GB 能跑 Qwen 3.6 27B但目前只有一条路Q4_K_M 量化 llama.cpp。X 上的推荐方案失败不是因为卡不行而是因为那些方案根本不支持 27B 的 4bit 量化。2、DFlash 和 vLLM两条看起来合理、但现在用不了的路DFlash 是速度潜力最大的方向失败原因很具体z-lab 发布的Qwen3.6-27B-DFlash是用 16bit 精度训练的没有现成的 4bit 量化版本。要用它必须手动把模型转换成 GGUF 格式再量化——工具链支持不完善转换本身就是一个坑暂时放弃是对的。等官方或社区出了 Q4_K_M 版本的 DFlash3090 上的速度还能再上一个台阶。vLLM 的问题不同。vLLM 对 DFlash 的支持合并进了 nightly 分支稳定版没有。nightly 本身就不适合拿来做日常部署稳定版又没这个功能两边都不合适。这两条路不是永久死路是现在2026年4月的时间窗口问题。几周或几个月后情况可能变化但在那之前如果你有 3090 想现在就跑起来这两条先跳过。重点DFlash 值得等vLLM 的 DFlash 支持值得跟进。但等的时候别在 3090 24GB 上折腾 16bit 方案——VRAM 不够方案本身就跑不起来。3、llama.cpp Q4_K_M能跑通的完整操作唯一目前稳定可用的方案llama.cppCUDA 编译 unsloth 的 Qwen3.6-27B Q4_K_M GGUF。整个流程三步编译 → 下模型 → 起服务。编译 llama.cpp指定 sm_86对应 RTX 3090cmake -B build -DGGML_CUDAON -DCMAKE_CUDA_ARCHITECTURES86 cmake --build build --config Release -j$(nproc)下载模型Q4_K_M 单文件约 17GBhf-transfer加速十几分钟pip install hf-transfer HF_HUB_ENABLE_HF_TRANSFER1 huggingface-cli download unsloth/Qwen3.6-27B-GGUF / Qwen3.6-27B-Q4_K_M.gguf --local-dir ./models起服务暴露 OpenAI 兼容协议./build/bin/llama-server / -m ./models/Qwen3.6-27B-Q4_K_M.gguf / --host 0.0.0.0 --port 8080 / -ngl 99 --ctx-size 8192实测数据RTX 3090 24GB单用户Decode 37 tok/s 稳定Prompt eval 342–430 tok/sVRAM 占 17.8GBGPU 利用率 96%功耗 385W。37 tok/s 单用户日常够用不是特别快但也不是吹牛的数字。多用户并发或对延迟敏感的场景这个方案不合适老老实实等 DFlash 适配或者换更大的卡。重点三步就能跑起来没有复杂依赖。服务起来之后暴露的是 OpenAI 兼容 API局域网内任何机器用标准openaiSDK 直连base_url指向本机 IP 和端口代码零改造。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

Claude Code插件提升Home Assistant配置效率：实时验证与AI辅助生成

1. 项目概述：Claude Code 插件如何重塑 Home Assistant 配置体验如果你和我一样，是个深度折腾智能家居的玩家，那你肯定对 Home Assistant 的 YAML 配置又爱又恨。爱的是它无与伦比的灵活性和掌控感，恨的是那无处不在的缩进错误、神…...

2026/7/27 5:01:54 阅读更多 →

SIGIR 2026 mKG-RAG：把“多模态知识图谱”装进 RAG，让视觉问答不再只靠模型记忆

01｜为什么这篇论文值得关注？ 近年来，多模态大语言模型已经能够同时理解图像和文本，并在许多视觉问答任务中表现出很强的能力。比如用户给模型一张图片，再问一句“这是什么建筑？”“图中的动物生活在哪里&a…...

2026/6/30 22:55:59 阅读更多 →

基于MCP协议与SeeDream模型，实现AI工作流中的无缝图像生成

1. 项目概述：在AI工作流中无缝生成图片如果你和我一样，日常重度依赖 Cursor 或 Claude Desktop 这类AI编程/写作工具，那你肯定遇到过这样的场景：写一篇技术博客，需要配图来直观展示某个概念；或者设计一个产…...

2026/6/7 11:34:30 阅读更多 →

深度学习YOLO模型如何训练 PUBG 绝地求生目标检测数据集

pubg数据集精选原图1.42万数据 1.49万标签无任何重复、算法增强或冗余图像！ pubg绝地求生目标检测数据集 1分类：e_body，14905个标签，txt格式共计14244张图，99%为640*640尺寸图像适合yolo目标检测、AI训练关键词&am…...

2026/7/26 0:00:14 阅读更多 →

OpenCore黑苹果安装指南：5步打造完美的macOS系统

OpenCore黑苹果安装指南：5步打造完美的macOS系统【免费下载链接】OpenCore-Install-Guide Repo for the OpenCore Install Guide 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Install-Guide OpenCore是目前最专业、最稳定的黑苹果引导工具&#…...

2026/7/26 0:01:44 阅读更多 →