垃圾分类识别数据集 | YOLO格式
垃圾分类识别数据集介绍1. 数据集概述本项目使用的数据集位于 datasets/GarbageSorting 目录下主要用于垃圾分类目标检测任务。数据集采用 YOLO 标准目录结构组织包含图像文件、对应标注文件以及数据集配置文件 data.yaml可直接用于 YOLOv8 系列模型训练、验证和测试。该数据集面向垃圾分类识别场景检测目标共分为 4 类类别ID英文类别名中文含义0recyclable waste可回收垃圾1hazardous waste有害垃圾2kitchen waste厨余垃圾3other waste其他垃圾数据集整体包含 2743 张图片和 2743 个标注文件标注目标框总数为 3925 个。所有图片均为 .jpg 格式图片与标签文件一一对应未发现缺失标签文件。2. 数据集目录结构datasets/GarbageSorting ├── data.yaml ├── images │ ├── train │ ├── val │ └── test └── labels ├── train ├── val └── test各目录说明如下路径说明data.yamlYOLO 数据集配置文件定义数据路径、类别数量和类别名称images/train训练集图片images/val验证集图片images/test测试集图片labels/train训练集 YOLO 标注文件labels/val验证集 YOLO 标注文件labels/test测试集 YOLO 标注文件3. data.yaml 配置说明当前 data.yaml 内容如下path: datasets/GarbageSorting train: images/train val: images/val test: images/test nc: 4 names: [recyclable waste, hazardous waste, kitchen waste, other waste]其中字段含义path数据集根目录当前使用相对路径便于项目移动train训练集图片相对路径val验证集图片相对路径test测试集图片相对路径nc类别数量共 4 类names类别名称列表类别顺序必须与标注文件中的类别ID一致4. 数据集划分统计数据划分图片数量标注文件数量目标框数量图片占比目标框占比训练集 train19201920275070.00%70.06%验证集 val54854875719.98%19.29%测试集 test27527541810.03%10.65%合计274327433925100.00%100.00%从划分比例看数据集约按照 7:2:1 的比例划分为训练集、验证集和测试集整体划分较适合常规目标检测训练流程。5. 类别分布统计5.1 全量类别分布类别ID类别名称中文含义目标框数量占比0recyclable waste可回收垃圾160940.99%1hazardous waste有害垃圾80020.38%2kitchen waste厨余垃圾83421.25%3other waste其他垃圾68217.38%合计--3925100.00%从类别数量看recyclable waste 样本最多占比约 40.99%other waste 样本最少占比约 17.38%。数据集存在一定类别不均衡问题训练时可适当关注少样本类别的召回效果。5.2 各数据划分类别分布数据划分类别ID类别名称目标框数量划分内占比train0recyclable waste111540.55%train1hazardous waste59421.60%train2kitchen waste58821.38%train3other waste45316.47%val0recyclable waste31441.48%val1hazardous waste15220.08%val2kitchen waste14619.29%val3other waste14519.15%test0recyclable waste18043.06%test1hazardous waste5412.92%test2kitchen waste10023.92%test3other waste8420.10%训练集、验证集和测试集中均包含 4 个类别。测试集中 hazardous waste 占比相对较低评估时该类别的单类指标可能更容易受样本数量影响。6. 标注格式说明数据集采用 YOLO 目标检测标注格式。每张图片对应一个同名 .txt 标注文件例如images/train/fimg_1.jpg labels/train/fimg_1.txt标注文件中每一行表示一个目标框格式如下class_id x_center y_center width height字段说明字段说明class_id类别ID取值范围为 0 到 3x_center目标框中心点 x 坐标已按图片宽度归一化y_center目标框中心点 y 坐标已按图片高度归一化width目标框宽度已按图片宽度归一化height目标框高度已按图片高度归一化坐标数值均为 0 到 1 之间的归一化浮点数。一个标注文件可以包含多行表示同一张图片中存在多个垃圾目标。7. 单图目标数量统计数据划分图片数量目标框数量平均每图目标数最少目标数最多目标数train192027501.43113val5487571.38110test2754181.52121整体来看数据集中多数图片包含 1 个目标部分图片包含多个垃圾目标。多目标图片数量如下数据划分多目标图片数量train431val122test568. 图片规格统计数据划分图片数量宽度范围平均宽度高度范围平均高度平均文件大小train192053-1600473.583-1200394.927.7 KBval548111-1200472.490-1200395.129.1 KBtest275134-1024463.9130-1024384.227.6 KB数据集中图片分辨率不完全统一训练时 YOLO 会根据输入尺寸进行缩放和填充。由于原始图片尺寸差异较大模型训练阶段应保留合理的数据增强策略以提升模型对不同尺寸图片的适应能力。9. 目标框尺度分布按目标框归一化面积 width * height 统计目标尺度分布如下目标尺度判定标准目标框数量小目标面积 1%1中等目标1% 面积 9%505大目标面积 9%3419目标框归一化面积统计指标数值最小面积0.006579最大面积0.977423平均面积0.319718从统计结果看数据集中大尺寸目标占比较高中等目标次之小目标数量较少。但在实际检测场景中垃圾目标可能会因拍摄距离、遮挡、背景复杂度等因素变小因此训练和部署时仍需关注小目标、边缘目标和遮挡目标的识别效果。10. 数据质量检查结果对当前数据集进行基础检查后结果如下检查项结果图片格式全部为 .jpg图片总数2743标注文件总数2743图片与标注是否一一对应是缺失标注文件数量0空标注文件数量0标注字段数量异常未发现类别ID越界未发现坐标超出 0-1 范围未发现整体来看数据集目录结构清晰标注格式规范可直接用于 YOLOv8 目标检测模型训练。11. 训练结果介绍当前项目已将模型训练结果保存到 datasets/train_result 目录中该目录记录了本次 YOLOv8 垃圾分类检测模型训练过程中生成的权重文件、指标日志、训练曲线、混淆矩阵以及预测可视化结果可用于模型效果分析、论文说明、项目验收和后续模型部署。11.1 训练结果目录结构datasets/train_result├── weights│ ├── best.pt│ └── last.pt├── results.csv├── results.png├── labels.jpg├── confusion_matrix.png├── confusion_matrix_normalized.png├── BoxF1_curve.png├── BoxP_curve.png├── BoxR_curve.png├── BoxPR_curve.png├── train_batch0.jpg├── train_batch1.jpg├── train_batch2.jpg├── train_batch134400.jpg├── train_batch134401.jpg├── train_batch134402.jpg├── val_batch0_labels.jpg├── val_batch0_pred.jpg├── val_batch1_labels.jpg├── val_batch1_pred.jpg├── val_batch2_labels.jpg└── val_batch2_pred.jpg各文件说明如下文件或目录说明weights/best.pt训练过程中综合验证指标最优的模型权重通常用于最终部署和推理weights/last.pt最后一轮训练结束后的模型权重可用于继续训练或对比分析results.csv每轮训练的损失值、Precision、Recall、mAP 和学习率等详细日志results.png训练过程指标曲线汇总图labels.jpg数据集标签分布与目标框分布可视化图confusion_matrix.png混淆矩阵用于观察不同类别之间的误判情况confusion_matrix_normalized.png归一化混淆矩阵更便于比较各类别识别比例BoxF1_curve.pngF1 分数随置信度变化曲线BoxP_curve.pngPrecision 随置信度变化曲线BoxR_curve.pngRecall 随置信度变化曲线BoxPR_curve.pngPrecision-Recall 曲线train_batch*.jpg训练批次样本可视化结果用于检查训练数据和标注效果val_batch*_labels.jpg验证集真实标签可视化val_batch*_pred.jpg验证集模型预测结果可视化11.2 训练日志概况本次训练日志记录于 datasets/train_result/results.csv共包含 300 轮训练结果。根据日志统计训练总耗时约 6047.49 秒约 100.79 分钟。指标数值训练轮数300最终 Precision0.89368最终 Recall0.76075最终 mAP500.87324最终 mAP50-950.58176最终训练 box_loss0.57260最终训练 cls_loss0.48940最终训练 dfl_loss1.19121最终验证 box_loss1.20444最终验证 cls_loss1.01379最终验证 dfl_loss1.80593从训练过程看模型的 mAP50 从第 1 轮的 0.23325 提升到最终的 0.87324mAP50-95 从 0.13927 提升到最终的 0.58176说明模型在训练后已具备较好的垃圾目标定位和分类能力。11.3 最佳验证指标根据 results.csv 中的验证指标统计本次训练的最佳指标如下指标最佳轮次最佳值Precision2790.90107Recall1100.81519mAP502510.87455mAP50-952520.58577其中mAP50 表示 IoU 阈值为 0.5 时的平均精度适合观察模型是否能较好地检测出目标mAP50-95 是多个 IoU 阈值下的综合平均精度对目标框定位质量要求更高。当前最佳 mAP50 达到 0.87455说明模型在该垃圾分类数据集上具有较好的整体检测效果。11.4 权重文件说明训练后的模型权重位于 datasets/train_result/weights 目录权重文件文件大小推荐用途best.pt约 4.17 MB推荐用于系统部署、图片检测、视频检测和摄像头检测last.pt约 4.17 MB适合继续训练或复现实验最后一轮状态项目部署和实际检测时通常优先选择 best.pt。如果后续需要在当前训练基础上继续训练可以使用 last.pt 作为恢复训练权重。11.5 可视化结果说明训练结果目录中的可视化图片可以辅助判断模型训练质量可视化文件主要作用results.png查看训练损失、验证损失、Precision、Recall、mAP 等指标随训练轮数变化趋势confusion_matrix.png查看模型容易混淆的垃圾类别confusion_matrix_normalized.png查看各类别归一化识别比例适合分析类别不均衡影响BoxPR_curve.png观察不同类别的 Precision-Recall 表现BoxF1_curve.png选择较合适的置信度阈值val_batch*_pred.jpg直观看模型在验证集上的检测框位置、类别和漏检误检情况结合训练指标和可视化结果可知该模型整体检测效果较好但由于数据集中类别数量不完全均衡实际评估时仍建议重点查看 hazardous waste、other waste 等样本相对较少类别的召回率和混淆情况。12. 使用建议训练时建议直接使用 datasets/GarbageSorting/data.yaml 作为数据配置文件。当前 data.yaml 使用相对路径项目移动到其他位置后只要保持目录结构不变一般不需要修改数据路径。类别顺序必须保持一致不能随意调整 names 中的顺序否则会导致模型预测类别与中文类别解释不匹配。数据存在一定类别不均衡尤其是 other waste 和测试集中的 hazardous waste 样本相对较少评估时应关注各类别单独的 Precision、Recall 和 mAP。图片尺寸差异较大训练时建议使用 YOLO 默认的自适应缩放、Mosaic、HSV 增强等策略以提升模型泛化能力。如果后续新增数据应保持 images 与 labels 的同名对应关系并确保标注坐标仍为 YOLO 归一化格式。模型部署时建议优先使用 datasets/train_result/weights/best.pt 权重文件。如果需要继续训练或复现实验最后状态可使用 datasets/train_result/weights/last.pt。13. 适用任务该数据集适合用于以下任务任务类型说明垃圾目标检测检测图像中的垃圾位置并输出类别垃圾分类识别根据检测框类别判断垃圾所属分类YOLOv8 模型训练可直接作为 YOLOv8 数据集输入桌面端检测系统可用于本项目垃圾分类检测系统的模型训练与效果验证部署效果测试可使用测试集评估模型在未参与训练图片上的检测效果14. 总结GarbageSorting 是一个面向垃圾分类识别的 YOLO 格式目标检测数据集共包含 4 类垃圾目标、2743 张图片和 3925 个目标框。数据集已完成训练集、验证集和测试集划分图片与标注文件匹配完整标注格式规范适合用于 YOLOv8 垃圾分类检测模型训练和评估。需要注意的是数据集中可回收垃圾样本占比最高其他垃圾样本占比最低整体存在一定类别不均衡。模型训练和结果分析时应重点关注少样本类别的识别效果并结合混淆矩阵、单类 mAP、召回率等指标判断模型是否存在类别偏向。当前训练结果已保存到 datasets/train_result其中 best.pt 可作为后续系统部署和检测推理的主要模型权重。