针对工业缺陷检测中全局感知与局部精细定位难以兼顾的问题,我们引入了跨尺度表征模型 Zig-RiR[2]。它将 RWKV[3] 型递归混合机制与"之"字形空间遍历路径相结合,在保持线性计算复杂度的同时实现多方向上下文建模,有效缓解了细长连续缺陷与微小孤立缺陷的漏检问题。在解码阶段,我们借鉴 U-Net[4] 的跳跃连接思路,将编码端各层特征逐级融合还原,使高分辨率缺陷掩膜图片得以精细重建。另外,我们还在输入层引入了 Sobel 梯度与 Canny 边缘先验,配合 CLAHE 与锐化增强,让模型在面对弱对比缺陷时也能获得更稳定的响应。
我们构建了一个面向工业小样本图像缺陷检测的端到端系统。本系统由五个功能模块构成,涵盖从原始图像输入到模型训练与推理输出的完整流程:
1.在 RGB 图像基础上引入 Sobel 梯度与 Canny 边缘先验,合并成五通道,并结合对比度增强与锐化处理,以强化微弱缺陷的结构特征。
2.主干采用 Zig-RiR 编码器与 U 型解码结构,通过 Zigzag - RWKV 建模长程空间依赖,并结合类条件 FiLM 调制,使模型在共享参数下适配不同图像类别。
3.联合 Focal、Tversky[6]与 Edge 损失,从类别分布、区域重叠与边界结构多个层面约束模型学习。
4.采用 Warmup + 多项式衰减学习率调度,并结合 AdamW优化器,以提升小样本条件下的训练稳定性与泛化能力。训练过程中实时监控 F1-score、IoU 与 Recall 等指标并保存最优模型。
5.推理阶段首先通过 ResNet18 前置分类器识别工件类别(1–10),并将类别编号作为 FiLM 调制条件。该分类器与分割主干解耦,权重固定且可独立更新。随后分割网络生成与原图对齐的缺陷掩膜,用于工业检测与结果分析。
具体内容可以参考附件