一种基于时序关系网络的逻辑推理方法

资源描述

《一种基于时序关系网络的逻辑推理方法》由会员分享，可在线阅读，更多相关《一种基于时序关系网络的逻辑推理方法（10页珍藏版）》请在金锄头文库上搜索。

1、一种基于时序关系网络的逻辑推理方法简要：摘要逻辑推理是人类智能的核心，是人工智能领域一个富有挑战性的研究课题。人类的IQ测试问题是衡量人类智商水平上下和逻辑推理能力的常用手段之一，如何让计算机学习拥有类似摘要逻辑推理是人类智能的核心，是人工智能领域一个富有挑战性的研究课题。人类的IQ测试问题是衡量人类智商水平上下和逻辑推理能力的常用手段之一，如何让计算机学习拥有类似人类的逻辑推理能力是一个非常重要的研究内容，其目的是使计算机从给定的图像中直接学习逻辑推理模式，而无需事先为计算机设计先验推理模式。基于此目的，提出了一种新的数据集Fashion-IQ，该数据集中的每个样本包含7张输入图片和1个标签

2、，这7张图片分别为3张包含一种或多种逻辑的问题输入图片和4张选项输入图片，目的是利用机器学习3张问题输入图片中包含的逻辑来预测下一张图片，从而选择正确的选项。为了解决这个问题，提出了一种时序关系模型。针对每个选项，该模型首先使用卷积神经网络提取前3张输入图片和选项图片的空间特征;接着采用关系网络将这4个空间特征两两组合;然后采用LSTM提取前3张问题输入图片和该选项的时序特征，将时序特征与组合好的空间特征相结合得到时序-空间融合特征;最后对前3张输入图片与每个选项得到的时序-空间融合特征进行进一步推理，采用softmax函数进行打分，得分最高的选项就是正确答案。实验结果证明，该模型在此数据集上

3、实现了比拟高的推理准确度。本文源自张姝楠; 曹峰; 郭倩; 钱宇华，计算机科学发表时间：2022-05-14?计算机科学?由国家科技部主管，国家科技部西南信息中心主办，系“中文科技核心期刊、“中国科技论文统计与分析用期刊、“中国科学引文数据库来源期刊、“中国期刊方阵双效期刊、“中国计算机学会会刊、“重庆市优秀期刊。关键词：逻辑推理;IQ测试;推理模式;时序关系网络;时序-空间融合特征逻辑推理是人类智能的核心1，也是人工智能领域的一个重要而富有挑战性的研究课题2。近年来，研究人员在图像分类3、检测和分割4等标准识别任务方面取得了显著进展，但当前的识别系统缺乏推理能力，人工智能的目标之一是开

4、发具有类似人类逻辑推理能力的机器，因此有必要来深入理解机器中的学习和推理。智商(IQ)测试是定义和测试人类计算和逻辑理解能力的最常用方法之一5，也是评估人类智力的公认方法。我们想要从视觉智商测试的角度出发来研究机器的推理问题。深度学习方法最近在一些重要任务上实现了超人水平的性能，如人脸识别6和大词汇量连续语音识别(LVCSR)7，尽管以上任务可能与人类智能有关，但它们没有直接测试智力。文献8使用深度神经网络的方法来解决旨在测试人类智力的视觉智商(IQ)测试问题，其取得了较好的表现。但是，该工作创立的数据集比拟简单，样本是一些简单的线条或者几何形状，如图1所示，在实际的IQ测试的运用中存在局限性

5、，我们需要探索更多具有挑战性的模式，因此本文基于Fashion-MINIST数据集中的复杂样式的图案(该数据集中的样本是在现实生活中收集的衣服裤子等实物照片经处理而成的灰度图，在颜色、形状等方面具有较高的复杂性)，设计了一个更为复杂的IQ测试数据集，让机器来学习推理图像间的逻辑模式。文献8采用传统深度学习卷积神经网络来学习图像间的逻辑模式，虽然结果表现较好，但深度学习架构往往是功能强大的可视化处理器，它们可能不是推理对象间关系的最正确选择。文献9提出了用关系网络RN来做视觉问答推理问题，将RN作为一个模块插入到深度学习架构中，以计算对象间的关系，进而提高神经网络在解决关系推理任务时的性能，最后

6、提高了神经网络在VQA问题上的准确度。IQ测试任务往往具有时序性，但是RN模型在处理与时序有关的图像逻辑推理任务时表现不佳。本文提出了一种基于时序关系网络的逻辑推理模型，来推理与时序有关的图像逻辑模式，该网络主要把LSTM提取的时序特征和卷积神经网络提取的空间特征两两组合嵌入到模型中进行进一步的推理。智商测试测量不同的技能，包括言语智力、数学能力、空间推理、分类能力、逻辑推理等8。本文的研究将重点放在发现图像描述的IQ测试问题中的逻辑模式上，设计的问题包括给定一系列实物图片，并在它们之间进行相关变换，如图像间的旋转问题、尺寸问题、翻转问题、数量变化问题以及这些问题的相关组合问题等，类似大局部的

7、IQ测试题，该问题存在多个候选答案，其中只有一个候选答案是正确答案，本文提出时序关系网络来解决这样的图像描述的IQ测试问题，并与其他模型方法进行比照。每个问题的例如包括3张问题图片和4张候选图片，其中这3张问题图片是依次按照某种变换产生的，模型通过推理问题图片之间存在的逻辑模式而选出最有可能的候选答案。本文在以下变换的一系列图像中训练了网络。(1)旋转：相比先前的图案，每个图案都以恒定的角度进行旋转。(2)尺寸：相比先前的图案，每个图案都以固定的缩放因子进行扩大或缩小。(3)翻转：每个图案依次旋转并翻转到水平方向或垂直方向上。(4)数量：每张图片比上一张图片包含更多的图案，如图片包含两个小图案

8、，那么第二张和第三张图片将分别包含3个小图案和4个小图案。(5)组合：将以上的变换加以组合，如每个图案在依次旋转的同时也依次放缩，图案之间的变换可能是2种、3种或4种根本变换的组合，共有11种组合方式。本文进行了大量的实验，测试了几种不同的模型在此类图像描述的IQ测试问题中的性能，在包含以上所有变换的数据集上训练了网络。这项研究使我们更进一步地将机器学习智能与人类智能进行比拟，帮助我们理解机器的推理能力。1相关工作1.1相关视觉推理任务Raven提出渐进矩阵RavensProgressiveMatrices(RPM)(见图2)10，为考生提供非语言选择题来进行智力测验。给定8个形状，受试对象必

9、须识别出丧失的局部，RPM背后的前提很简单：必须推理感知上明显的视觉特征(如形状位置或线条颜色)之间的关系，以选择完成矩阵的图像。RPM对抽象的言语、空间和数学推理能力具有很强的诊断力，甚至可以区分受过高等教育的人群11。文献12提出通过计算解决Raven的渐进矩阵问题。这项工作的重点是使用简单的分类器找到用于解决Raven渐进矩阵的特征表示。尽管他们的研究是第一个将这些问题作为计算问题解决的研究，但他们并未发布足够的实验结果来验证其方法。本文方法是不同的，使用神经网络与分类器一起自动学习表示，而不是手工制作特征表示并且本文方法更通用。文献13提出自动解决智商测试的口头推理局部这一任务，使用手

10、工功能的机器学习方法能够自动解决以同义词和反义词以及单词类比为特征的口头推理问题。这条工作线与本文的研究有关，因为它解决了“类比问题，即受试者需要掌握单词之间的转换规那么并对其进行概括。它是处理语言转换，而不是视觉转换，本文研究的是序列图像间的视觉推理任务。文献14分析了DNN学习算术运算的能力。在这项工作中，网络学习了基于端到端视觉学习的数字加法的概念，这说明了在没有先验根本概念(例如“数字或“加法)的情况下学习算术转换的可能性。这为本文研究让机器在不接受先验推理模式的前提下从图像中直接学习逻辑模式提供了参考。文献15提出了一种用于视觉推理的模型，该模型包括一个程序生成器和一个执行引擎，该程

11、序生成器构造要执行的推理过程的显式表示，该执行引擎执行生成的程序以产生答案。但是，这样的推理需要为模型提前提供一些推理模式或推理过程的显式表示，这与人类的实际推理是不相符的。本文研究旨在让模型直接从图像中学习逻辑推理模式，而无需事先设计先验推理模式，这将更符合人类的推理过程。1.2关系网络RN关系网络RN9是一种神经网络模块，是一种用于计算对象间关系的专用模块，可以被嵌入到广泛的深度学习架构，以显著提高神经网络在解决需要丰富关系推理任务时的性能。其明确关注于关系推理，其计算关系的能力被融入RN架构而无需学习，可以整合图像中提取出的所有对象之间的关系并进行处理，以找到图像间的逻辑模式。RN为灵活

12、的关系推理提供了更强大的机制。关系网络适用于推理对象间的关系，但是在处理与时序有关的图像逻辑推理任务时表现不佳，本文提出了一种基于时序关系网络TemporalRelationNetwork(TRN)的逻辑推理模型，来学习推理与时序有关的图像逻辑模式。2创立数据集本文评估了多项选择题模式的IQ测试场景：模型接收7个输入图像，3个上下文面板和4个候选答案选项。在训练时，它会收到与正确答案相对应的索引。模型选择最可能的选项作为模型的答案。用以下方式形成问题：对于每个样本问题，共设置旋转、尺寸、反射、数量、组合5种变换。然后，从Fashion-MINST16数据集中随机选择一张图片。我们将选择的变换应

13、用于选择的图片中，依次产生前3张上下文面板。接着使用该变换产生正确的候选答案选项，以及使用不正确的变换产生另外3张错误的候选答案选项。本文的数据集中每张图片的大小都是6464的灰度图，而Fashion-MINST16数据集中每张图片的大小是2828的灰度图，因此从该数据集中随机选择一张图片后，需要对该图片进行预处理，再进行相关的操作。(1)旋转Ro：随机选择一个角度0.2，并将图案旋转。错误的答案是通过不同角度进行旋转或不同操作而产生的。旋转变换Ro的例如如图3(a)所示。(2)尺寸Re：随机选择比例参数0.5.1.5，并将图案进行缩放。错误的答案是通过不同的缩放比例或不同的操作而产生的。尺寸

14、变换Re的例如如图3(b)所示。(3)翻转Fi：将随机选择的图案翻转到水平或垂直方向上，错误的答案是通过不同方向进行翻转或不同操作而产生的。翻转变换Fi的例如如图3(c)所示。(4)数量Ad：随机选择一个图案使它的数目依次递增，错误答案将显示错误的数目。数量变换Ad的例如如图3(d)所示。(5)组合：将以上4种变换进行组合，如将旋转和尺寸变换同时应用到图案中来生成每个选项，有Ro_Re，Ro_Fi，Ro_Ad，Re_Fi，Re_Ad，Fi_Ad，Ro_Re_Fi，Ro_Re_Ad，Ro_Fi_Ad，Re_Fi_Ad，Ro_Re_Fi_Ad这11种变换的组合。旋转和尺寸变换组合Ro_Re的例如如

15、图3(e)所示，旋转和数量变换组合Ro_Ad的例如如图3(f)所示，旋转和翻转变换组合Ro_Fi的例如如图3(g)所示，尺寸和翻转变换组合Re_Fi的例如如图3(h)所示，尺寸和数量变换组合Re_Ad的例如如图3(i)所示，翻转和数量变换组合Fi_Ad的例如如图3(j)所示，旋转、尺寸和数量变换组合Ro_Re_Ad的例如如图3(k)所示，旋转、尺寸和翻转变换组合Ro_Re_Fi的例如如图3(l)所示，旋转、翻转和数量变换组合Ro_Fi_Ad的例如如图3(m)所示，尺寸、翻转和数量变换组合Re_Fi_Ad的例如如图3(n)所示，旋转、尺寸、翻转和数量4种变换组合Ro_Re_Fi_Ad的例如如图3(o)所示。根据上述规那么，在每种变换上自动生成5万张用于训练的图像和1万张用于测试的图像。3实验与结果本文将在Fashion_IQ数据集上比拟时序关系网络TRN和WReN模型、ResNet模型、LSTM模型的推理准确度。

展开阅读全文