基于卷积神经网络的目标识别及姿态检测

上传人:小** 文档编号:34083974 上传时间:2018-02-20 格式:DOC 页数:8 大小:103.50KB
返回 下载 相关 举报
基于卷积神经网络的目标识别及姿态检测_第1页
第1页 / 共8页
基于卷积神经网络的目标识别及姿态检测_第2页
第2页 / 共8页
基于卷积神经网络的目标识别及姿态检测_第3页
第3页 / 共8页
基于卷积神经网络的目标识别及姿态检测_第4页
第4页 / 共8页
基于卷积神经网络的目标识别及姿态检测_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《基于卷积神经网络的目标识别及姿态检测》由会员分享,可在线阅读,更多相关《基于卷积神经网络的目标识别及姿态检测(8页珍藏版)》请在金锄头文库上搜索。

1、基于卷积神经网络的目标识别及姿态检测 黄心汉 苏豪 彭刚 熊超 华中科技大学自动化学院 摘 要: 基于深度学习方法, 运用 Faster R-CNN 目标检测架构和 ZFNet 卷积神经网络, 针对微装配系统目标的特点对网络进行训练, 在此基础上设计了一个网络对识别目标进行姿态检测.实验结果表明:采用深度学习方法可以有效地对部分遮挡的目标进行识别并检测其姿态, 相比于传统方法, 该方法对环境适应性更强且速度更快, 具有实际应用价值.关键词: 微装配系统; 卷积神经网络; 显微视觉; 目标识别; 姿态检测; 作者简介:黄心汉 (1946-) , 男, 教授, E-mail:.收稿日期:2017-

2、01-17基金:国家自然科学基金资助项目 (60275013) Object identification and pose detection based on convolutional neural networkHuang Xinhan Su Hao Peng Gang Xiong Chao School of Automation, Huazhong University of Science and Technology; Abstract: Aiming at the characteristics of micro-assembly system target, a netwo

3、rk was trained based on deep learning method and the faster region-based convolutional neural network (faster R-CNN) object detection architecture and Zeiler and Ferguss network (ZFNet) convolutional neural network were used.A pose detection network was designed for recognizing targets.The experimen

4、tal results show that the proposed deep learning method can effectively identify and detect the partially occluded objects, and compared with the traditional method, this method has strong adaptability to environment and speediness with practical application value.Keyword: micro-assembly system; con

5、volutional neural network; micro-vision; object identifica tion; pose detection; Received: 2017-01-17微装配机器人系统能在微小的空间中进行精密装配操作, 其技术特点是在厘米甚至毫米尺度的工作空间中实现精度可达微米甚至纳米级的精密操作.在本研究的微装配系统中, 用一台机械手末端的真空吸附式微夹持器操作亚毫米级的靶球, 并将其安装在另两台机械手末端的压电陶瓷双晶片微夹持器夹持的柱腔内, 完成惯性约束聚变 (inertia confinement fusion, ICF) 靶装配任务1.为了实现靶装配

6、任务的自动化, 视觉处理系统须获取靶球、柱腔、真空微夹和机械手末端的位置信息, 除此之外, 柱腔、真空微夹和机械手末端还须获取其姿态信息.与一般的目标检测与定位任务不同, 显微视觉对检测目标有很多先验知识, 如背景、尺寸、长宽比、颜色等.利用这些先验知识, 可以采用很多目标识别与定位的方法, 一般可用统计识别方法、模板匹配法和基于人工神经网络的方法等.在微装配视觉系统中, 最常用的目标识别算法是统计识别方法中的支持向量机 (SVM) 算法2.传统方法依赖于目标分割的效果, 若分割效果不好, 很难检测出受到部分遮挡的目标, 而且这些方法容易受到环境噪声或光照条件的影响.当前, 采用深度学习方法对

7、目标进行识别与检测, 达到了很好的效果.在深度学习中有多个常用的模型, 其中基于卷积神经网络 (convolution neural network, CNN) 的深度学习模型是最常用的模型, 并且也是研究热点之一.文献3训练卷积神经网络对 LSVRC-2010 和 LSVRC-2012 的 1.210 张图像进行 1 000 种以上的分类, 获得当时最高的分类准确率.由 R-CNN4, SPPnet5和Fast R-CNN6发展而来的 Faster R-CNN7, 是目前广泛采用的目标检测架构之一.微装配系统中须识别的目标其尺寸差异较大, 在显微镜下, 一张分辨率为 1 280960 像素的

8、原始图片中, 机械手末端微夹持器的典型尺寸为 3 000m (区域占约 300300 像素) , 而柱腔的典型直径为 1 000m (区域占约 9090 像素) , 靶球的典型直径为 400m (区域占约 3535 像素) .为了能有效地检测出尺寸差异大的目标, Faster R-CNN 的 RPN (区域预选网络) 采用了锚点的概念.不同的锚点对应不同的尺寸, 进而提取出不同尺寸的预选区域, 效果很好.本研究采用 Faster R-CNN 的网络结构作为目标识别和姿态检测的架构, 针对微操作系统目标的特点对网络进行训练, 并在此基础上设计了一个网络对识别出来的目标进行姿态检测.1 目标识别卷

9、积神经网络是一种前馈人工神经网络, 它的权值共享网络结构使之更类似于生物神经网络, 降低了网络模型的复杂度, 减少了权值的数量.模型的容量可以通过改变网络的深度和广度进行调整, 与每层具有相当大小的全连接网络相比, 卷积神经网络可以大幅降低网络模型的学习复杂度, 具有更少的网络连接数和权值参数, 从而更容易训练.Faster R-CNN 的工作原理如图 1 所示, 在基础卷积神经网络输出的特征图层之后增加了一个 RPN 网络, 该网络被训练用来做预选区域提取.从 RPN 得到预选区域后, ROI (感兴趣区域) 池化层把特征图层上对应预选区域的特征整合为固定长度的特征向量, 再经过两层全连接层

10、分别连接到 softmax 分类层和边界框回归层, 最后采用 Fast R-CNN 方法训练损失函数为 softmax 分类层和边界框回归层.基础卷积神经网络可以选用不同的结构, 如 ZFNet8, GoogleNet9等, 它们具有不同的性能和运行时间.试验表明采用小规模的 ZFNet 即可取得较好的实验结果, 且程序运行时间也满足实际要求.本研究对 ZFNet 网络进行了改进, 应用于微装配系统中的目标识别和姿态检测, ZFNet 的网络结构如图 2 所示.图 1 Fast R-CNN 工作原理图 下载原图图 2 ZFNet 网络结构 下载原图即使卷积神经网络中采取了权值共享和池化的手段,

11、 一个 ZFNet 的网络仅卷积层仍具有数百万个可调参数, 如果用于网络训练的样本过少, 那么极容易使网络过拟合.然而在微装配系统中, 可获取的目标样本数目很少, 为了增强卷积神经网络对微操作目标检测的泛化能力, 须进行样本扩充操作.本研究采用以下方法对微操作目标进行样本扩充.a.在典型的光照条件和无遮挡的情况下获取目标图片, 对目标图片进行裁剪, 去除背景像素, 仅保留目标前景像素.b.生成一张随机颜色的纯色背景图片, 在此基础上随机选择一个裁剪后的目标样本图片, 对其进行以下变换:颜色变换, 即在 HSV (色调、饱和度和明度) 颜色空间中, H, S 和 V 分量随机变换为原值的 0.8

12、1.2;伸缩变换, 即随机伸缩为原值的 0.81.2;旋转变换, 即随机旋转一个角度.变换后的样本放到背景图片的随机位置, 并检查该样本与其他已放置样本的重合率, 如果重合率超出某个值, 则放弃本次样本添加操作.重复上述步骤以在图片中添加目标样本, 直到图片中添加了一定数目的目标样本.c.重复步骤 b, 直至生成设定数目的图片.本研究共生成了 4 000 张图片, 平均每张图片具有 17.89 个样本, 总计 7.155 410 个样本, 提供给网络进行训练, 图 3 为其中一张用于网络训练的生成图片.训练深度卷积神经网络有两种方法:一种是初始化网络的参数为随机值, 从头开始训练网络;另一种方

13、法是采用在其他数据库上训练好的网络, 用新的数据库去微调训练好的网络, 即迁移学习.从头开始训练一个卷积神经网络须准备一个巨大的数据库 (千万级数量的图片) , 并且须花费大量的时间, 如 ZFNet 在训练中花费了 12d 的时间, 因此在实践中并不采用这种方法.图 3 随机生成的训练图片 下载原图文献8指出:在大型数据库上训练好的卷积神经神网络, 更高的卷积层意味着更抽象的特征, 如卷积层 1 表示不同角度的边缘特征, 而卷积层 2 表示角、点特征, 卷积层 3 等更高层则表示更复杂的组合特征.微装配系统中须识别的目标也是由这些基础的特征组合而成, 直接采用预先训练好的卷积神经网络并不会带

14、来适应性问题, 须重新训练的仅是网络中的全连接层和分类器以及目标位置预测器, 训练步骤如下.a.用前述的样本扩充方法生成样本的训练集和测试集.b.用已经在 ImageNet 预训练的 ZFNet 网络初始化 RPN 网络参数, 用标准差为0.01 的高斯分布数值初始化其余层的参数, 微调 RPN 网络.c.用已经在 ImageNet 预训练的 ZFNet 网络初始化 Fast R-CNN 目标检测网络参数, 用标准差为 0.01 的高斯分布数值初始化其余层的参数, 并用 RPN 网络提取预选区域训练目标检测网络.d.用训练后的 Fast R-CNN 目标检测网络参数重新初始化 RPN 网络,

15、固定网络的卷积层, 对 RPN 网络进行微调.e.固定 Fast R-CNN 目标检测网络的卷积层, 用微调后的 RPN 网络提取的预选区域对目标检测网络进行微调.2 姿态检测在微装配系统中, 须获取机械手末端、真空吸附式微夹持器和柱腔 (凹槽) 的方向角.对于柱腔而言, 实验要求柱腔的凹槽一面正对显微镜, 然而由于实验开始时柱腔是随机放置在平台上的, 柱腔的凹槽并不一定正对着显微镜, 因此在姿态检测中还须区分姿态正确的柱腔.由于目标的方向角 为 0到 360循环 (设水平向右的方向为 0) , 在360到 0时角度数值有一个跳变, 因此不能直接用方向角的原始值进行训练.本研究采用 的正弦值

16、sin 和余弦值 cos 作为网络训练的输入, 可以解决这个问题, 而且由于正弦值和余弦值的平方和恒为 1, 因此利用网络输出的这两个值的平方和与 1 的误差, 可以代表所检测角度的可信度.图 4 是带凹槽的柱腔, 其中左边的凹槽可见, 右边的凹槽不可见.为了在姿态检测中区分这样的柱腔, 当生成柱腔样本时, 可见凹槽的柱腔的输入 sin 和cos 按照实际角度计算, 不可见凹槽的柱腔的输入 sin 和 cos 设置为 0, 在网络训练完成后, 根据网络输出这两个值的平方和, 可以区分可见凹槽的柱腔和不可见凹槽的柱腔.图 4 带凹槽的柱腔 下载原图在卷积神经网络的各卷积层中, 更高层的卷积层意味着更抽象的特征.更抽象的特征对于分类而言具有更好的效果, 但姿态检测须综合利用低层特征来判断目标的方向角.考虑到这一特性, 综合从卷积层 3 到卷积层 5 的特征, 可以得到最好的姿态检测结果,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号