大家好!我们是 EVA 团队,很荣幸能够参加第四届“启智杯”机器智能大赛决赛,并在视觉算法创新赛道展示我们在工业印刷缺陷检测方向的探索成果。
在工业质检场景中,印刷标签缺陷检测是保障产品质量的重要环节。与通用目标检测不同,本赛题面对的是小样本、强版面结构、多形态缺陷和严格推理时延并存的真实工业问题:缺陷可能非常细小,也可能呈现划伤、漏印、污渍、错位等复杂形态;不同标签版面之间结构差异明显,条码、二维码、文字边缘等正常区域又容易造成误检。如何在有限标注数据下同时保证检测精度、运行效率和提交结果稳定性,是我们重点解决的问题。
围绕这一目标,我们构建了一套面向小样本工业印刷缺陷的完整检测与提交系统。方案以 YOLO11l-OBB 旋转框检测模型为核心,结合真实缺陷 mask 驱动的数据增强、版面泛化验证和标准化结果校验流程,将模型训练、缺陷定位、mask 生成和提交打包完整打通。
我们的方案核心亮点如下:
高效的旋转框缺陷检测架构:我们采用 YOLO11l-OBB 作为主干检测模型,直接建模缺陷的旋转位置与形状信息,输出中心点、宽高和角度等旋转框参数。相比普通水平框检测,旋转框更适合印刷标签中倾斜、细长和不规则边缘缺陷的定位,也能减少背景区域被误覆盖的情况。最终推理结果会进一步转换为赛事要求的二值 mask,保证检测结果可以直接用于官方评测和提交。
面向小样本的可控数据增强:针对缺陷样本稀缺的问题,我们设计了 mask-aware copy-paste 增强策略,利用真实缺陷 mask 提取缺陷实例,再按版面策略贴合到 OK 背景中,生成新的训练样本。为了避免简单合成带来的上下文错配,我们对 same-layout、cross-layout 和 mixed-layout 等 donor 策略进行了对比,并通过 layout-holdout 验证分析其对未见版面泛化的影响。该策略让模型在有限样本下看到更多缺陷形态,同时保留真实缺陷的几何边界。
稳健的泛化验证体系:我们没有只依赖单一验证集分数,而是建立了 public-style 验证和 layout-holdout 验证两套协议。前者用于模拟线上评测分布,后者用于检验模型面对新标签版面时的泛化能力。通过这种方式,我们可以区分“对已见版面拟合更好”和“对新场景真正更稳”两类效果,减少小样本竞赛中常见的过拟合风险。
工程化的提交与校验流程:本项目不仅训练模型,也将结果提交链路工程化。系统会自动生成 res/.../*_rst.bmp 格式的二值 mask,并对提交包进行文件数量、目录结构、图像尺寸、mask 值域和缺失文件检查。最终候选包包含 2110 个结果文件,校验结果为 0 missing、0 shape mismatch,mask values 为 [0, 1],避免因包装格式问题影响成绩。
优秀的性能与效率表现:在最终方案中,我们使用 YOLO11l-OBB、输入尺寸 1024、confidence 0.20,并基于全量带标签数据进行训练。当前最佳确认提交包公开分数达到 98.10,同时满足单图推理耗时小于 1 秒的赛事约束。方案在精度、速度和工程稳定性之间取得了较好的平衡。
可快速适配决赛新场景:面向决赛现场可能出现的新标签版面,我们保留了清晰的快速适配路径:以当前最佳权重为初始化,在新数据集上进行短轮次微调,并结合阈值调整、备用权重和选择性集成策略生成候选结果。整个流程尽量保持简单可靠,避免引入难以现场部署的复杂模型,同时为新版面、小样本和变量区域提供足够的调整空间。
通过本次比赛,我们更加深刻地认识到,工业缺陷检测不是单纯追求一个更大的模型,而是要同时解决数据、泛化、速度、后处理和提交可靠性问题。我们的作品将 YOLO11l-OBB 检测能力、真实 mask 驱动的数据增强、版面泛化验证和可校验提交系统结合起来,形成了一套兼顾高精度、高效率和可复现性的工业印刷缺陷检测方案。
本项目核心检测架构基于 Ultralytics YOLO OBB 系列能力进行开发,并结合赛事数据特点完成了训练、增强、推理和提交链路的适配。