上周在实验室调试一个细胞检测模型,半夜盯着屏幕上一堆重叠的边界框发愁。明明在公开数据集上mAP能达到0.89,一到自己的病理切片上,模型就开始“乱框”——同一个细胞被重复检测三四次,小病灶区域直接消失不见。咖啡喝到第三杯时突然意识到:医疗影像这潭水,比想象中深得多。医疗影像的特殊性不是说说而已普通COCO数据集和医疗影像的根本区别,就像客厅照片和显微镜下的世界。细胞检测任务中,目标密度可能极高,一张2048×2048的病理切片里挤着上万个细胞。更麻烦的是,很多细胞呈现“成簇”分布,边界模糊不清,标注时连专家都可能产生分歧。病灶区域定位则是另一番景象。早期病变区域对比度极低,边缘渐变,和周围正常组织像是用了渐变工具过渡。YOLO默认的矩形框在这种场景下显得特别“粗暴”,把大量健康组织也框了进去。数据层面的硬仗医疗数据标注成本高得吓人。我们合作的三甲医院,病理科主任医师标注一张切片要40分钟。拿到手的标注数据还经常不一致——同一个病例不同医师标注范围能差15%。# 处理标注不一致的笨办法但有效defmerge_annotations(annotations_list,/