本课题中我们选用blendmask实例分割网络作为我们的第一阶段任务网络,实现对抓取场景的目标检测与实例分割。其网络结构如图1所示:
图1.BlendMask网络模型结构框图
Blendmask结合了自顶向下的方法(通过局部信息生成全局预测)和自顶向上的方法(使用全局信息生成局部预测),通过简单的网络结构,在不牺牲性能的前提下减少网络的复杂性和计算成本,其主要组件和结构包括:
BackBone:用于从输入图像种提取特征的标准网络,他的主要任务是捕获图像的全局上下文信息,本课题选用Resnet作为网络的backbone。
FPN:即Feature Pyramid Network,通过自顶向下的上采样和横向链接,特征图与相应的浅层特征图相结合,融合不同层级的语义信息,其不同尺度的特征图都可以有对应的预测头,用于对不同尺寸的目标进行分割和边界框回归,本课题为了提高推理速度,仅使用八倍下采样后的P3层作为预测头的输入特征。
FCOS:即Fully Convolutional One-Stage Object Detection,是一种无锚框的目标检测方法,相比于Fast-RCNN等基于锚框的目标检测方法,可以简化目标检测流程,减少计算量。其核心思想是在特征图上的每个位置直接预测与该位置对应的目标属性,如分类分数、边界框偏移、中心度等,本课题中我们用其预测实例的图像坐标、置信度得分、边界盒尺寸和注意力特征图。
Blender module:将通过Bottom module优化后的全局特征图和每个实例的局部的基础注意力掩膜进行结合,生成最终的实例分割结果。
本课题我们选择了三种不同类型的工件抓取场景用于开展后续的课题研究工作。
1.连杆场景:连杆工件杂乱摆放在料框之中,位姿情况较为复杂(图2)。
图2 连杆场景示例图
2.薄片场景:薄片工件杂乱摆放在料框之中,位姿情况较为单一,均为单面朝上(图3)。
图3 薄片场景示例图
3.转子场景:工件有序摆放在料框之中,场景中工件数目较多(图4).
图4 转子场景示例图
由于场景搭建和图像采集过程较为繁琐,我们直接使用了同样由海康机器人官方研发生产的MV-DLS1400P立体相机采集的图像进行课题研究。MV-DB500S-A在该使用场景下同样适用。