通过可穿戴式传感器对人类行为识别的机器人语义映射.doc

资源描述

《通过可穿戴式传感器对人类行为识别的机器人语义映射.doc》由会员分享，可在线阅读，更多相关《通过可穿戴式传感器对人类行为识别的机器人语义映射.doc（13页珍藏版）》请在金锄头文库上搜索。

1、通过可穿戴式传感器对人类行为识别的机器人语义映射李刚朱春杜金浩程琦盛伟华陈和平摘要：语义信息可以帮助人类和机器人更好的了解他们所处的环境。在人类与机器人共存的室内环境中，为了有效地获取语义信息并将其链接到一个度量图中，我们提出人类行为识别的语义映射算法。当人类行为可以通过安装在人类身上的可穿戴式移动传感器提取的移动数据来识别时，智能移动机器人平台可以创建一个二维度量地图。将预先学习的活动家具类型以及机器人姿势预估相联合，机器人可以在二维度量地图中确定家具类型的分布。无论是模拟实验还是真实实验，他们都表明该方法能够创建一个有精确语义信息的可靠的度量地图。关键词：语义映射，人类行为识别，

2、可穿戴式传感器，即时定位与地图构建（SLAM）1. 引言A.目标随着机器人研究工作的进步，有人预测，在未来的二十年内，机器人将能够适用复杂的、陌生的环境，而且能够与人类互动并帮助人类完成日常生活中各种任务，包括家居清洁、安全、护理、生命支持以及娱乐等等1。在相同的并存环境中，可以通过诸如人类与环境的相互作用向机器人提供有价值的信息。这些将使得机器人更好地了解环境，进而更好的服务人类。环境知识通常以地图的形式被编码。在过去十年中，关于如何表示、建立并维护地图的问题一直是最热门的机器人研究领域之一。对于像导航这一类的基础任务，现有的格式都是很有效的，例如度量地图2和拓扑地图3。然而，这些格式不包含

3、任何关于环境的高层次语义描述，而在与人类共存的环境中，这些信息是机器人能否完成高难度任务的关键。例如，度量地图可能展示房子的几何外形，但是它不能传达那些几何形状的意义，像椅子、床、桌子等等。同时，也不包含房子的类型信息，如厨房或者卧室。然而，这些语义信息在一些任务中至关重要，例如人类在睡觉，需要调暗卧室的灯光这种情形。通过在度量地图上做一些特殊的标记，语义地图便可以手动创建。但是，人类迫切地希望机器人能够自动地进行语义映射。本文中，我们主要讨论机器人对于住宅环境的语义映射。机器人需要绘制一幅二维地图，并且将其中的家具贴上标签，例如桌子、椅子、床、柜子等等。为了提取这些地标，基于视觉的识别技术在

4、文献中已被采用4。这些算法的缺点在于其高计算的复杂性。在模式识别中，从视觉信息中提取特征信息对于内存和数据处理能力有很苛刻的要求。此外，基于视觉的方法会受到周围环境光线条件的严重影响，在低光度环境下，甚至无法完成识别。为了克服基于视觉的语义映射的缺点，本文提出了一种新的方法进行机器人语义映射。我们假设从人类与周围环境的物体交互可以推断出语义信息。我们使用可穿戴式传感器来识别人类行为。这种方法能够避免许多通过继承基于视觉的物体识别技术进行语义映射的困难。图1展示了通过可穿戴式传感器对人类行为进行识别的自动语义映射。机器人通过实现即时定位与地图构建（SLAM）算法5绘制一个陌生的室内环境的二维度量

5、地图。在此期间，机器人通过板载视觉定位人类身体，通过附着在人类身体上的移动传感器识别人类行为。预先学习的家具类型模型活动最终决定家具类型。因此，基于语义地图的家具识别的高层次解释是可以实现的，例如“这间房子是办公室”。鉴于学习家具类型，家具类型的模型活动的先验知识可以进一步提高，反过来，又可以提高行为识别的准确性。图1 人类行为识别的语义映射本文以下部分，安排如下：第一部分接下来将讨论这方面的相关工作。第二部分将介绍在我们的研究中，机器人的设置。第三部分将介绍基于可穿戴式传感器的人类行为识别。第四部分将说明所提出方法的语义映射。第五部分将介绍虚拟和真实世界的实验。第六部分将给出实验结论。B.相

6、关工作机器人地图中语义信息的重要性已经被承认很久6,7。近些年来，研究人员一直在开发机器人系统，这种系统可以获取并使用语义信息8。其中一些经过与受测人的语言互动获取语义信息9。其中一些受限于表面元素的分类，如天花板、地板等10。在文献11和12中，室内一些详细的地址，通过识别他们中的关键部位来贴上标签，这是通过能够从图片中提取必要信息的计算机技术实现的。Jebari等人利用全景相机通过对象识别来提取高层次的信息13。其他研究人员专注于如何创建一个多层次的语义映射14,15,16。如果环境中有多个房间，他们的想法是有意义的。在其他工作中，研究人员从三维模型的识别中获取语义信息。Nuchter等人

7、开发了一种从三维模型中获取语义信息的方法，这种三维模型是通过放置在机器人身上的激光扫描仪建立的17。Nielsen等人使用快照技术将二维物体混合到三维物体上18。所有的这些基于视觉的方法都受到计算成本高、背景噪声和难于分割的限制。通过人类与周围环境的互动，本文提出一种获取语义信息的更高效的方法。2.机器人设置我们所使用的机器人被称为ASCCbot，这个机器人是在具有先进的传感技术的俄克拉何马州立大学的计算和控制实验室（ASCC Lab）制造的。它是一个严谨的、智能的移动开放平台，这个平台是开源的、可扩展的、可复制的，而且配备了各种功能包括物体检测、SLAM以及物体跟踪。如图2所示，机器人AS

8、CCbot是建立在iRobot Create平台上，配有基于Atom处理器的FitPC219、一个Hokuyo激光测距仪（LRF）20和一个Q24全景摄像头21。iRobot Create是一个为机器人发展而制造的平台，它拥有串行端口，通过该端口，传感器数据可以被读取，而且电机命令可以通过使用iRobot开放的接口协议执行。FitPC2是一个轻小型的计算机。Hokuyo激光测距仪URG-04LX是一个支持USB的设备，它通过一束激光来确定距离物体的距离。测距范围是20mm到4094mm，扫描范围是240，扫描速率是100ms/scan，距离精确度为3，角度分辨率为0.36。鱼眼镜头（Q24）能

9、够提供不同的视角，包括全景图，因此它能够覆盖整个移动平台的周围区域。该相机提供了高达300万像素的分辨率，以及范围在160*120到2048*1536的图像颜色扩展性。该相机本身就是一个web服务器，因此实时图像流可以通过建立一个套接字链接来获取。相机的特征（包括分辨率、帧速率等）可以通过发送一个网页请求来调节。此外，变焦和平移可以通过相机镜头的虚拟PTZ功能来实现。FitPC2和Q24是通过外部电源来供电，而冷却FitPC2则是使用USB供电的迷你风扇。图2 ASCCbot机器人ASCCbot的软件系统建立在机器人操作系统（ROS）上22，该操作系统是一个开源的、融合机器人的操作系统。它提供

10、的服务类似于实际的操作系统，包括硬件抽象、低级别的设备控制、常用功能的实现、进程间的通信以及包管理。它的分布式计算功能也方便多机器人的应用。在新的方法中，有几个功能对于机器人是必要的。首先，运行在后台的SLAM算法创建一个二维度量地图并且提供机器人位姿估计。通信模块通过Zigbee协议接收行为识别结果。语义映射模块更新二维度量地图上的语义信息。所有的这些模块都是运行在机器人操作系统网络上的独立的ROS节点。此外，有两个基础节点控制机器人自发地跟踪人类主体：人类探测器和人类跟踪器。人类探测器的主要任务是找到人类相对于ASCCbot的角度并大致估计他们之间的距离。为了简化问题，在我们的平台上，我们

11、设计了颜色跟踪算法，该算法能够跟踪人类主体穿戴的橙色t恤，并且能能够向ASCCbot发送移动控制命令。颜色分割是用来寻找连续的区域，在这些区域中，单个像素共享共同的特征。在应用高斯滤波器和形态方法（扩张和侵蚀）去减少噪声之后，橙色t恤区域被检测到，如图3所示。在Q24的全景图中，被检测区域的角度和大小将从人类跟踪器的节点输出。图3 通过颜色分离进行人类探测人类跟踪器娴熟地控制机器人跟踪人类主体并在非常接近人类的时候让它停止。根据主体的角度和从检测器节点得到的相对大小，人类跟踪器节点尝试着将主体置于机器人位相对角中间。当人类在一些家具附近有活动时，该地点的相关的语义信息就会通过贝叶斯框架在二维度

12、量地图上更新，关于贝叶斯地图将在第四部分介绍。图4显示了如何通过对人类行为识别搭建语义信息系统。图4 通过人类行为识别进行语义映射的机器人全部设置3.基于可穿戴式传感器的人类行为识别图5显示了对人类行为识别的硬件系统。我们实验室开发的两个可穿戴式无线移动传感器用来接收移动数据并将数据传输到服务器PC上23。移动传感器是紧凑型的，具有运动感知的，并且能够提供人类运动的快速样，包括加速度、角速度和磁场。PC通过处理这些数据来辨识人类活动并将结果传递给机器人。图5 识别日常行为活动的硬件平台移动传感器节点在一个称为VN-100的商业方向传感器上所开发的24。传感器节点通过Zigbee协议将数据（三维

13、加速度、三维角速度、方向和磁场数据）发送给PC上的一个接收器进行处理。每一个移动传感器节点都具有一个用来区别于其他传感器的ID。因此，在此系统中，多人活动也是可以跟踪的。因为放置传感器的位置对于行为识别非常重要，所以我们从人类主体上不同地方放置的传感器采集数据，发现大腿和腰部是进行身体活动识别的最佳位置25。可穿戴式传感器以20赫兹的速率对三维加速度和角速度进行采样。我们在实验中仅仅采集三维加速度作为原始数据，这些数据对于行为识别是足够的。像均值和方差这些特征值也被提取，并进一步分成离散观察符号。在PC上的实时程序用来收集数据、提取特征值以及识别人类行为。在识别算法中，我们结合了神经网络和隐马

14、尔代夫模型（HMMS）。图6显示了算法框图。该识别算法有两个步骤：（1）粗颗粒度分类，（2）细颗粒度分类。粗颗粒分类步骤通过神经网络的两个输出结果生成一个基本的分类结果。细颗粒分类步骤通过隐马尔代夫模型（HMMS）方法生成详细的活动类型。图6 人类行为识别算法的概述在粗颗粒分类模块中，通过处理从两个移动传感器得到的原始数据（三维加速度）来获取特征值（均值和方差），这些特征值被分别送入到大腿和腰部的传感器所相应的神经网络NNw和NNt。合成模块融合了腰部和大腿的人类活动类型并且按照一定的规则对人类活动进行分类。关于两个神经网络的合成细节，请参照我们以前的研究26。在细颗粒分类模块中，人类日常生活

15、的连续的约束条件通过隐马尔代夫模型被模拟，为了生成详细的活动类型，实时行为识别采取了修正后的短期维特比算法27。使用隐马尔代夫模型的更多细节请参照文献28。在训练阶段，携带PDA的人类主体按压一个按钮来标记数据。然后该标签被发送至PC端作为神经网络的训练目标。神经网络通过反向传播方法训练。第二步骤隐马尔代夫模型模拟活动的连续性约束条件。隐马尔代夫模型的参数可以通过观察人类在一段时间内的活动结果来训练。在测试阶段，人类主体进行日常活动，PC运行建议的行为识别算法。为了达到精确的对比结果，人类活动通过Vicon动作捕捉系统来记录并作为基本的事实，之后与识别结果进行对比。图7显示了10分钟实验的累积

16、结果。在人类主体的腰部和大腿放置的两个动作传感器，识别了日常生活的五个行为。我们提出的方法的有效性以及精确性在所得到的结果中被验证。图7 行为识别结果标签含义：4：坐下 5：由坐到站 6：由站到坐 7：站立 8：走路4.语义映射本部分将介绍语义映射的贝叶斯框架。开始时，机器人进入一个未知的但是感兴趣的环境。首先，机器人使用SLAM算法生成一幅二维度量地图。为了建立语义地图，它使用另一种信息源，例如当人类与周围环境交互时的活动。一般地，在一定的家具周围会有一定的活动。例如坐在凳子上、躺在床上。一旦识别到人类的行为，人类所处环境的家具类型便可以知道。语义信息可以通过迭代的方式得知，这种迭代的方式随着时间会越来越准确。图8显示了语义映射过程的框架。

展开阅读全文