077、前后处理加速:用 CUDA kernel 或 torchvision.ops 加速 NMS 和图像预处理一、从一次线上事故说起去年双十一大促,我负责的YOLOv6检测服务在压测阶段突然炸了。QPS从800掉到200,CPU直接打满,内存飙到90%。排查了半天,发现罪魁祸首居然是NMS——那个我们一直没当回事的后处理函数。当时用的还是纯Python实现的NMS,循环套循环,每张图要处理几百个框。压测时并发一上来,GIL锁直接卡死。更离谱的是,图像预处理阶段用了PIL的resize,每张图都要做一次内存拷贝,CPU缓存命中率惨不忍睹。这个教训让我意识到:模型推理再快,前后处理拖后腿,整个pipeline就是白搭。今天这篇笔记,就聊聊怎么用CUDA kernel和torchvision.ops把这两个瓶颈彻底干掉。二、NMS加速:别再用Python写循环了2.1 传统NMS为什么慢先看一段“教科书级”的慢代码:defnms_python(bo