自存一些笔记
1.vllm部署方式windows对vllm的支持不太好可以选用wsl2dockerlinux系统三者之一这里选用linux2.WSL是什么Windows Subsystem for Linux———一个轻量级 Linux 子系统你需要 Linux 环境但电脑是 Windows。而 WSL2 就是目前 Windows 上跑 Linux 的最佳方案。3.Ubuntu是什么Ubuntu是一种基于Linux的免费、开源的操作系统我们可以在计算机或虚拟专用服务器上使用Ubuntu。Ubuntu具有图形用户界面GUI使其类似于其他流行的操作系统如Windows。操作系统将应用程序表示为图标或菜单选项我们可以直接对其进行操作。4.为什么安装WSL要安装Ubuntu必须安装一个 Linux 发行版WSL 才能使用而 Ubuntu 是比较好的选择5.为什么要用VLLM部署模型vLLM 是一个高效、易用的大语言模型LLM推理和服务框架优化推理速度和吞吐量尤其适合高并发的生产环境5.1 VLLM缓存优化1传统的KV Cache管理方式大模型计算复杂度最高的就是自注意力QKV的计算如果每输出一个字符都要从头计算的话成本太高所以可以把中间阶段的K和V值存入缓存这就是KV Cache。传统KV Cache是直接分配一段物理显存这段物理显存随着prompt变长和输出序列变长会不断增长更糟糕的是由于输出序列长度无法预测无法为KV Cache量身分配大小导致大量显存浪费。2vllm的改进-PageAttention在显存上分配一块固定大小的连续空间vllm中默认为16类似于内存页多个进程运行时可以每个进程分配自己的虚拟内存虚拟内存通过块表block table关联到内存页只有进程内存不足时才会请求增加每次增加一个内存页最坏的结果就是最后一个内存页没写满.这种方式显存的利用率能达到96%