043、NPU的性能评估指标:TOPS、MACs、FPS、延迟
043、NPU的性能评估指标:TOPS、MACs、FPS、延迟上周调试一块AI摄像头模组,客户反馈“标称4TOPS的NPU跑MobileNetV2居然只有15帧,你们是不是虚标了?”我盯着示波器上的DDR带宽曲线,心里清楚问题出在哪——TOPS这个数字太容易让人产生幻觉了。今天就把这几个指标掰开揉碎,讲清楚它们到底在衡量什么,以及为什么你看到的“4TOPS”和实际跑出来的性能可能差一个数量级。TOPS:最容易被误解的“峰值马力”TOPS(Tera Operations Per Second,万亿次操作每秒)是NPU最常被宣传的指标,但这里有个坑:它通常指的是INT8精度下的乘加操作次数。注意是“操作”不是“计算”——一次乘加(MAC)算两次操作(一次乘法+一次加法),所以有些厂商会把MACs翻倍报成TOPS。我见过最离谱的案例:某芯片标称“12TOPS”,实际是FP16下的数据,换算成INT8只有6TOPS。更隐蔽的是,这个峰值是在特定条件下测出来的——比如所有数据都在SRAM里、计算单元100%满载、没有数据搬运开销。真实场景下,你的模型可能只有30%-60%的利用率。怎么避坑?看TOPS时一定要确认三个参数:精度(INT8/FP16/FP32)、频率(是否锁频)、测试条件(是否包含数据搬运)。如果厂商只给一个数字,直接按50%折算做预算。MACs:模型本身的“工作量清单”MACs(Multiply-Accumulate