一、深夜的推理速度瓶颈上周三凌晨两点,我盯着屏幕上RT-DETR的推理延迟数据——87ms。这个数字在测试集上还行,但放到实际摄像头流里就露馅了:30帧的视频流,处理一帧要87ms,这还玩什么实时检测。PyTorch模型转ONNX再转TensorRT,流程都走通了,但性能就是上不去。同事在旁边嘀咕:“是不是TensorRT没优化到位?”问题就出在这里。很多人以为模型转换成功就万事大吉,其实真正的战斗才刚刚开始。二、TensorRT构建的深水区先看一个典型的转换脚本,很多人第一步就写错了:# 错误示范:直接拿训练好的模型转importtorchfrommodels.rtdetrimportRTDETR model=RTDETR(backbone='resnet50'