11论文工作总结与展望

上传人:宝路 文档编号:2058168 上传时间:2017-07-19 格式:DOC 页数:11 大小:77.50KB
返回 下载 相关 举报
11论文工作总结与展望_第1页
第1页 / 共11页
11论文工作总结与展望_第2页
第2页 / 共11页
11论文工作总结与展望_第3页
第3页 / 共11页
11论文工作总结与展望_第4页
第4页 / 共11页
11论文工作总结与展望_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《11论文工作总结与展望》由会员分享,可在线阅读,更多相关《11论文工作总结与展望(11页珍藏版)》请在金锄头文库上搜索。

1、第八章 论文工作总结与展望128第八章 论文工作总结与展望在本文绪论中曾提到,视觉心理学在计算机视觉中的应用还存在着一些理论问题急需解决,故本章先对这些问题进行讨论。这是作者本人对博士期间研究工作所作的一次总结与反思。虽然这些想法还很不成熟,有些结论还存在争议,但还是毫无保留地把所思所想写了下来,目的在于给他人以启迪、以借鉴,并希望其它学者在对我的想法进行摒弃的同时,更快更好地前行。接着,本章对整篇论文进行全面总结,提出进一步的研究构想,并对论文的应用前景进行展望。8.1 对理论问题的讨论前面各章主要阐述如何运用视觉心理学的有关理论来解决具体的计算机视觉问题,关注重点主要是细节性、局部性的问题

2、,而对整体性的理论问题研究不足。把视觉心理学应用到计算机视觉中,急需解决的理论问题有:对接的层次问题、计算机视觉问题的适用性、心理学结论的适用性、心理学结论的取舍问题、定量化描述定性问题与跨学科的交流问题。下面分别对这些问题谈谈个人一些粗浅的看法。(1) 对接的层次问题各门科学都需要不同层次水平的解释。客观世界太复杂,为了控制复杂性,不得不对客观世界进行抽象,故形成了不同的层次。计算机视觉的奠基人 Marr 把视觉问题看作信息处理过程,提出应从三个不同层次( 计算理论层、表象与算法层、硬件实现层)进行分析与理解。Marr 以商场现金收款机为例来描述这一理论。他认为计算理论要解决的问题是明确我们

3、要对什么东西进行计算,以及为什么要对它们进行计算,关键还在于后者。每个人都知道,现金收款机执行的是加法运算,它执行的为什么是加法运算,而不是别的运算( 如乘法) 呢?这是因为对商品单价的组合规则(付款规则)正好符合数学上的加法理论。把商品分成几组,每组一起付款,与每件商品单独付款,所付的总额是一样的,故结合律成立。第八章 论文工作总结与展望129不买东西,不用付钱,故存在零元。买了东西,然后退货,则总的付款为零,故存在负元。对商品付款的顺序不影响付款的总额,故交换律成立。上述四条规则正好定义了一个加法群,故现金收款机应执行加法运算,而不是别的运算。第二层次所说明的是怎样做,主要解决问题的表象与

4、算法。对于加法运算,可以选用阿拉伯数字(十进制)作为表象,而算法则可以沿用通常的加法规则,即先从低位加起,和大于 9 就进位。人与收款机一般使用这种表象。当然也可以使用二进制表象,从高位加起。早期的计算机使用的就是这种表象。故计算理论可以用不同的表象与算法来实现。第三个层次是解决如何运用物理手段来实现上述表象与算法。这时也有多种选择。如对于加法运算,儿童可用扳手指的方法,小学生可用笔算,而大学生则用电子计算机来算。硬件不同,但功能是基本相同的。在计算机视觉问题的三个层次中,计算理论是最重要的,通过理解正待解决问题的本质,算法可能比较容易理解,而考察用以解决问题的机制(硬件),对理解算法则往往没

5、有很大的帮助。例如,为了理解鸟为什么会飞,必须懂得空气动力学。然后对羽毛的结构和各种不同的鸟翼形状的理解才有意义。计算理论层的基本任务是发现并分离出假定(又称约束),它既足以定义一个处理过程,又具有很强的物理合理性。心理学家也在三个不同的层次(分析的心理层次、分析的认知层次、分析的神经层次) 上进行研究Best 2000,不同层次的解释是对同一事物不同级别的抽象。当被问及在童年时代所住房子窗户的数目时,大多数人会产生类似于心理照片的心理意象,并会对它进行描述,以数出窗户的数目。这种意象及其性质位于分析的心理层次。在这种层次上可以审慎地从事一些心理内容的操作,如扫描窗户数目、窗户的颜色、房子距离

6、街道的远近等等。心理的分析层次是伴随着意识体验的心理现象。但是头脑中并没有照片。有意识的心理意象都是神经活动的独特类型,或独特模式、独特位置的体验。只是在正常的情况下,我们无法有意识的体验到神经活动。神经层次是具体的或物质的层次。分析的认知层次是介于分析的心理层次与分析的神经层次之间的层次,它视觉心理学在计算机视觉中的应用研究130是对发生在神经层次上的事件的抽象说明,是以判定、参与、贮存、提取等与神经活动没有联系的术语来研究心理过程。例如,构造前面房子的心理表象包括两个过程:首先,必须找到这间房子所有的贮存表象,然后决定将要被描绘的意象的特征(如房子旁边的树上有叶子吗?地上有雪吗?);其次构

7、建一个人们能意识到的意象。也就是说,当我们谈到人的某个部位“搜索”意象、 “判定”意象有何特征并构建意象时,我们在描述这些活动时,使用的既非神经方面的术语也非心理方面的术语(因为没有意识到任何事情),而是使用另一种抽象的语言,它与任何类型的神经操作及对这些神经过程的描述均无联系,这就是分析的认知层次语言。虽然理论上我们最终也许可以发现心理层次或认知层次事件的神经机制,但是若无高于神经机制的抽象解释,对许多心理现象的事实我们仍然无法解释Rock 1984, pp1-12。例如,对各种知觉恒常性现象就很难用神经机制来解释,因为映像的变化并不导致知觉的变化(详见本文第四章)。又如,各种二义图像,同一

8、刺激却一会儿产生这样的知觉,一会儿又产生那样的知觉,这也很难用神经机制来解释。再如图 7-2 那样的图形,若阴影在上部,就觉得该区域是凹陷的,若阴影在底部,就觉得该区域是凸起的。这是因为在客观世界中,光几乎总是从上面射下来的,因此,洞穴的顶部往往有阴影。如果我们最终发现了负责图 7-2 效应的神经机制,对它的解释依然需要阴影原理, 仅用神经放电语言很难把这种效应表述清楚。因此向比较基本的分析层次水平还原是可喜的,但较高的分析层次水平依然有用,而且往往首先需要的是后者,因为后者更有利于揭示问题域的本质。无论对于计算机视觉问题,还是对心理问题的研究,抽象程度越高,结论适用的范围越广。故将视觉心理学

9、应用到计算机视觉中,主要是应用到计算理论层,弄清问题域的本质,发现解决视觉问题的新约束。例如,在第三章中综合应用心理学知识提出了图像语义模型;在第四章中把大小恒常性理论用于图像物体的感知;在第五章、第六章中重视实际地面对深度估计的作用。这些都是借鉴或应用了心理知识,对这些计算机视觉问题域的本质有了更加深入的理解之后,提出了新的计算理论。又如,绪论中介绍的大部分应用(视觉推理机制、特征检测理论、基元理论、格式塔组织原理、拓扑认知理论、恒常性理论)都是作用于视觉处理的计算理论层。故可以说,两者的结合是高层对高层的对接,低层心理学成果一般要经高层抽象才能有效作用于计算机视觉问题的理论层,第八章 论文

10、工作总结与展望131进而提出新的问题或解决问题的新方法。(2) 计算机视觉问题适用性哪些计算机视觉问题需要心理学的指导呢?我们认为主要有两类问题。一类是与人的主观偏好有关的计算机视觉问题,如图像语义问题,图像质量评价问题。另一类是计算机视觉系统难以解决,而人类却能轻易解决的问题,如图像分割、边缘检测、恒常性变换,运动感知、物体遮挡等。如果对人类视觉系统完成这些任务的过程有更深入的理解,我们也许能解决这些难题。从本质上讲,这两类问题是相同的,在处理这两类问题时,应自觉地、有意识地应用相关的视觉心理学知识。(3) 心理学结论的适用性计算机视觉的主要目标是用计算机来模拟生物外显。最好的,最通用的生物

11、外显就是人类视觉系统。故模拟人类视觉系统就成了计算机视觉的主要目标。视觉心理学主要研究人类视觉系统的特点与感知规律,因此它的任何进展都有益于我们进一步认识人类视觉系统,从而有利于我们用计算机对它进行模拟。从这个意义上讲,所有的视觉心理学结论对计算机视觉的研究都是有益的。然而,视觉心理学的实验手段主要是统计与观察内省。近年来,虽然各种脑成像技术(如 PET,fMRI, ERP)已成功地应用到认知神经心理学,但它们的方法论基础依然是统计学。统计学善于发现变量间相关性,而对因果关系的揭示能力不足,对结论的前提与条件也不能精确的阐述。如在第六章 6.5 节讨论的那样,心理学家虽然揭示了大小恒常性的计算

12、公式,但是对相机成像高度,成像物距等前提条件的研究仍有不足之处。对心理统计学理论缺陷的详细分析参见景怀斌 2005, pp90-112。其次,虽然人类视觉系统与照相机有着基本相同的成像基础,但是人类视觉空间与物理空间有着很大的不同。前者所用规则未必适用于后者,应用时要注意两者的区别,详见第五章 5.5 节的讨论。所以,应用视觉心理学来解决计算机视觉问题,主要运用类比思维,从人类视觉系统中得到某种启示,弄清计算机视觉问题域的本质,从而能找到新的、有效的计算理论。视觉心理学在计算机视觉中的应用研究132(4) 心理学结论的取舍问题心理学内部派别林立,各种理论观点针锋相对,选择合适的心理学理论来指导

13、计算机视觉的研究是一个很难的问题。基本原则是从计算机视觉问题域本身出发,选取的心理学理论要对弄清问题域的本质有帮助,要尽量避免陷入对立理论的争论之中。如 Gibson 的视觉生态学理论虽然在视觉心理学领域受到的攻击非常多,但是这种理论对实际地面的作用、对视觉环境的研究却是比较成功的,故我们在第四、五、六章借鉴了其中的重要思想(即实际地面是人类视觉最重要的参考平面),提出了单幅二维图像深度估计、单幅二维图像三维重建算法。其实,视觉心理学中各学派的争论在于对心理现象的解释不同,他们对这些现象的描述却是基本相同的。仅是这些对视觉心理现象的一致描述就特别有利于我们弄清计算机问题域的本质。一定不要忘记,

14、我们的出发点与落脚点是计算机视觉问题域本身,而不是心理学,后者只是为前者服务的。我们最重要的目的是从后者寻找解决计算机视觉问题的灵感。(5) 定量化描述定性问题针对计算机视觉的具体问题,即使我们已找到了合适的心理学结论,具体应用好这些心理学结论也是一件很难的工作。大部分的心理学结论是定性给出的,而计算机理论与算法是定量的、精确的。通常的手段就是用数学方法对心理学描述进行定量建模,这正是难点所在。所有的模型都是对问题域某一方面的抽象,如果抽象模型能反映问题的本质,那么就是一个很好的模型。对同一问题,从不同的角度,也许建立的模型不同,故计算的结果也就不同。例如第四章与第五章的深度模型就存在差别,一

15、个是完全比照心理学结论进行建模,而另一个只是从心理学接受了某种启示,从几何光学出发建模。 但事实只有一个,真理不得不经受实践检验,别无他法。建立模型是最难的步骤,一般会因人而异,像第四章那样由心理学家提供现成模型的机会是不可多得的。(6) 跨学科的交流问题从视觉心理学到计算机视觉的学科跨度是比较大的,对两者进行交叉研究,离不开两门学科的相互借鉴、相互交流。故要相互进入对方的领域,学习掌握对方学科的基本研究对象、基本研究方法、基本术语与基本结论。除了这种途第八章 论文工作总结与展望133径,我个人认为没有更好的办法。另外,作为计算机视觉的研究者,我个人认为学习心理学知识应多从经典性、科普性的入门

16、书籍开始,如Rock 1984Gregory 1997等等,力图先对视觉心理学有一个整体的理解。科普书籍选用的观点是经过时间与实践检验的,故一般来说也是正确的,而且对有争议的观点,这些书中也会点明。然后,再阅读各学派的经典书籍,如Best 2000Koffka 1935Gibson1997等等,重点关注对计算机视觉问题域本身有帮助的观点。最后,才能进入心理学论文的阅读阶段。这个阶段也许是不必要的,因为新的心理学论文的结论基本上都是有争议的,而没有争议的观点多数已经反映在最新的书籍之中。所以,我个人的选择是多看心理学书籍,而不是心理学论文。再者,我们要注意体会人类视觉系统的思维模式。虽然人类科学思维已相当发达,但人类视觉系统依然坚持使用日常思维模式。日常思维是用部分观察资料对事实进行表象、推理,因此受到各种缺陷的妨碍。例如, “地心说”是日常思维的产物。科学思维是从不断矫正日常思维的缺陷的过程中缓慢地发展而来,它使人类获得充分的理智满足和消除内心的不安Mach 1999,pp8-9

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号