反馈负波及其理论解释

资源描述

《反馈负波及其理论解释》由会员分享，可在线阅读，更多相关《反馈负波及其理论解释（7页珍藏版）》请在金锄头文库上搜索。

1、心理科学进展 2008，16（5）：705711 Advances in Psychological Science 705 反馈负波及其理论解释* 李鹏李红（西南大学认知与人格教育部重点实验室，重庆 400715）（西南大学心理学院，重庆 400715）摘要反馈负波（feedback related negativity, FRN）是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分，出现在刺激呈现后250300ms左右，偶极子源定位发现这一成分产生于前扣带回附近。对于FRN的功能意义的解释主要有强化学习理论和情绪动机假说，前者认为FRN反映的是神经系统对反馈刺激

2、的认知加工过程，而后者认为FRN反映的是对情绪动机意义的评价过程。两种理论框架下还有一些目前研究仍待解决的问题，可能是未来研究的方向。关键词反馈负波, 强化学习理论, 情绪动机假说，前扣带回，事件相关电位。分类号 B841 人们总是在行为的过程中不断地利用外界反馈刺激的信息来监控自己的行为，及时发现自己的错误，然后进行动作调整。近年来，对反馈刺激引发的反应的研究成为认知神经科学研究的热点之一，借助于新的技术手段，可以更加深入地去了解结果反馈刺激引起的内部神经活动及其功能意义，这不仅具有心理学理论意义，同时对于人类工程学及相关学科也有现实的应用价值。事件相关电位（event related

3、 potentials, ERP）的研究发现，反馈负波（feedback related negativity, FRN）是人脑加工反馈刺激最重要的相关脑电成分，它的源定位在 ACC 附近。与其他的事件相关成分相比，FRN 有其自身的特点。已有的理论似乎又不能解释所有的结果反馈刺激诱发的脑电波负向偏转现象。本文在介绍了FRN 现象的基础上述评目前相关的理论解释，目的是找到未来研究的方向。 1 FRN 现象 FRN的研究是在错误相关负波研究的基础上发展而来的。研究者认为人脑存在一个错误觉察系统，及时发现错误，调整行为。在行为水平上，Rabbitt为人类这种错误觉察纠正系统提供了清楚的实验依据

4、，但其中的脑机制还不清楚1。上世纪90年代初，研究者们在快速反应任务中，如Flankers任务,记录被试的脑电波，发现在错误按键反应后100到150ms收稿日期：2008-01-07 国家自然科学基金项目(30770727)。通讯作者：李红，E-mail: 左右，脑电波会出现明显的负向偏转，于前中部的电极点上达到峰值。这一成分Falkenstein等人称之为（error negativity，Ne），Gehring等称之为（error- related negativity，ERN），这就是错误相关负波2,3。在这种快速反应时任务中，被试在按键之前就知道了正确的反应应该是什么，因此，只

5、要被试按键后马上就能察觉到自己是否错误，然而，在有的实验任务中被试不能立刻知道自己是否做出正确的反应，只能依靠外界信息的反馈。Miltner 等人在1997年研究了被试在时间估计任务中对结果反馈的事件相关脑电位，发现伴随着不正确结果的反馈，脑电波也产生了负向偏转4。Miltner 等人认为这一成分跟错误相关负波一样，可能反映的是错误觉察的过程。后来的研究者也称之为 ERN 或 feedback ERN,简称为 FRN。在本文中，为了区别起见，由错误按键反应诱发的相关负波，即 response-locked ERN 都称之为 ERN，如图 1；凡是由反馈刺激诱发的负波，即 feedback-lo

6、cked ERN 都称之为 FRN，如图 2。对FRN进行偶极子溯源分析发现，脑电波头皮分布定位在前扣带回（anterior cingulated cortex, ACC），可能包括辅助运动皮质在内的区域。后面的研究也认为是在内侧前额叶部分（medial-frontal cortex, MFC）4, 5。 2 FRN 研究的实验范式在FRN的研究中主要用到的任务是时间估计任务和简单赌博任务。时间估计任务的实验过程是首先给被试一个声音的提示表示计时开始，然后让被-706- 心理科学进展 2008 年试来估计一秒钟的时间，如果感觉到了一秒钟就按键停止计时，间隔1秒后呈现反馈刺激告诉被试前面

7、对时间的估计是否正确。一般被试估计的时间在一个时间段内，都算正确，并且正确的标准会根据被试前面试次的表现进行实时的调整。实验证明，不同的感觉通道呈现的负性反馈刺激与正性反馈刺激相比都引起了更大的电位偏转4。图1 错误相关负波举例（引自参考文献38）图2 反馈负波举例（引自参考文献11）简单赌博任务一般是要求被试在电脑程序上进行类似赌博的游戏，每一次的输赢都会累加到被试最后的报酬中去。Gehring和Willoughby记录人们玩赌博游戏时的脑电活动，让被试在屏幕上呈现的一个表示5美分和另一个表示25美分的两个卡片中进行按键选择，随后被试选择的卡片被圈起来，以帮助被试确认自己的选择5。一段

8、时间后，反馈刺激出现，卡片变了颜色，红色表示输钱，绿色表示赢钱。简单赌博任务也有其他的变式，例如有的赌博任务是在屏幕中呈现四张扑克牌（不同花色的Ace），被试的任务是进行按键选择，猜测哪张扑克牌接下来会保留在屏幕上，四个不同的按键分别对应四张牌6。被试选中的那张牌会突出呈现出来，帮助被试确认自己的选择，紧接着呈现代表反馈刺激的那张牌，如果被试猜测正确则会赢钱，否则会输钱。被试不知道的是，输赢的结果都是由计算机决定的，输赢的概率差不多。在这些不同的任务中都可以观察到 FRN 这种成分，但这两种任务范式都有各自的优缺点：在时间估计任务中，被试可以根据结果的反馈调整自己的反应，不断学习，因此

9、更加符合现实生活的情境，但练习效应的存在和必须控制正负反馈比例的要求始终有矛盾。赌博任务的优点是把被试每一次的表现都和最后的酬劳联系起来，这样增强了被试完成实验任务的动机，缺点是，一般输赢都是由电脑程序来控制，反馈不能提供真实的信息，而有研究认为负性事件对于学习和行为的改变非常重要，正负反馈与行为正误保持一致才能符合以下将要阐述的强化学习理论的预期7。另外，在其他的一些实验任务中也可以观察到类似于FRN的脑电成分。Papo等人在一个假设检验的范式中，首先给大学生被试呈现三个阿拉伯数字，让被试在心中形成一个关于这三个数字的潜在的规则，随后呈现其他的几组数字，被试可以连续检验自己的假设是否在这

10、些数字中存在，并可以通过反馈刺激得知假设是否正确，从而修正这个假设8。检测反馈刺激的事件相关电位成分，发现在所有的电极点上，正负反馈都有差异，代表不正确反应的负性反馈刺激在类似P300成分前诱发了负向偏转，这种负向的偏转可能就是一种类似FRN成分。 3 FRN 的理论解释从Miltner等人首先在时间估计任务中发现FRN现象开始，对于FRN现象内部的神经机制的探讨越来越多，目前主要理论解释是强化学习理论。另外最近有研究者开始强调FRN反映的情绪动机意义，这种观点被称为情绪动机假说或情绪理论5, 9。强化学习理论主要的观点认为FRN是在神经系统对反馈刺激的认知加工过程中产生的，而后者认为FR

11、N是对反馈刺激的情绪动机意义的评价过程中产生的。 3.1 强化学习理论 Miltner等人认为这种错误反馈诱发的负偏向可能反映的是一个错误觉察机制。这种机制不局限于特定任务和特定的错误，可以由对不同的错误处理第 16 卷第 5 期反馈负波及其理论解释 -707- 而激活，如选择反应时任务中错误的选择、Go-No Go任务中错误的动作、或在他们研究中错误的时间估计等。Holroyd等人10发展了Miltner等的观点，他们认为错误相关负波是当负性强化学习的信号通过中脑多巴胺系统传输到ACC时产生的，并且这种信号被ACC用来调整当前的行为。具体的过程是：基底神经节参与评价当前的事物，如果错误的行

12、为反应造成的当前事件比期望差，多巴胺神经细胞就会引起相位减弱的活动，多巴胺系统将这些信息传输到ACC，由于多巴胺能的减弱不能抑制ACC上神经元的活动，此时就产生了较大波幅的脑电负波，如果当前事件比期望的要好，中脑多巴胺神经细胞就会引起相位增加的活动，此时在ACC上就不能产生脑电负向偏转。基底神经节就把这样两种信息分别利用并调整对下一次结果的预期，因此系统就逐渐地学会对奖赏和惩罚的早期预警。同时，多巴胺信号都被用做强化学习的信号传输到前额叶运动皮层，寻求合适的行为的调整。对于这几个不同的认知加工阶段，都有很多直接或间接的实验支持。本文从以下方面阐述了关于这个理论的实验支持。第一，评价系统是按

13、照二元分类的规律来将当前的事件分成“好”和“坏”两种结果11。研究发现12,13，FRN相关的评价系统对输赢的具体数量不敏感，而是将所有可能的结果分成好与不好两种情况。类似地，Holroyd等系统地研究中性反馈刺激诱发的ERP波形，中性反馈刺激表示的是不具有奖励或惩罚的意义，也不反馈被试是否反应正确或错误，发现中性反馈刺激同负性反馈刺激一样也诱发了脑电的负向偏转，这种结果与最近关于产生FRN的评价系统将反馈分成满意或不满意的两类的观点一致14。第二，FRN的波幅取决于期待与事实之间的差别11。神经系统对当前事物的评价是依赖于背景的，对结果的评价是好是坏是基于当前情境中能得到的各种可能的结

14、果而言的，因此系统会在不同的情境中形成不同的期望15。例如赢1000块钱相当于赢500块是好的，但相当于赢2000块就是不好的结果。另外，Holroyd等人按照强化学习理论的推断，期望越强的条件下负性反馈刺激会引起更大的波幅，他们认为奖惩刺激的频率将会影响这一系统对负性刺激的认知16。他们设置了两种实验条件，一种是惩罚概率小，另一种是惩罚概率大。结果发现，低惩罚概率的情境下惩罚这种负性反馈刺激引起的波幅明显比高惩罚概率下的要大，从而证实了实验的预期。第三，人们在强化学习过程中对正负强化刺激信号具有偏好。在Frank等人的一项研究中，让30名帕金森病人与19名正常被试同时去完成“trial

15、-and- error”任务，发现帕金森病人对正性结果更加敏感17。后续研究发现，有的人倾向选择正性的结果，这类人Frank等称之为“positive learner”，他们在遇到两个能带来正性反馈结果的概率差不多的选择时，会产生更大的FRN，相反的，有的人尽量避免负性的结果，这类人被称之为“negative learner”，他们在面临都可能带来负性结果的选择时，会产生更大的FRN18。这些研究证实了认知强化学习中存在动态的多巴胺系统的模型，同时也说明这种FRN可能反映了被试从错误反应中学习比从正确反应中学习多多少的程度和决策冲突的大小。第四，系统利用内部或外部的信息进行学习的过程可以反映在ERN和FRN的波幅上11。很少有研究把由错误觉察引起的ERN和负性反馈诱发的FRN两种成分放在一起进行对比，Holroyd等人在同一个实验中研究了两者的关系10。他们设置了一个“Probabilistic Learning”的任务：六张卡片随机呈现多次，让被试在两个键中进行选择按键反应，按对了键就会赢钱。实际上六张卡片中有两张分别100%对应其中一个按键，还有两张卡片分别50%地对应其中的一个按键，另外，无论被试按哪个键，第五张卡片始终会输钱，第六张卡片始终会赢钱。实验的结果如Holroyd等人

展开阅读全文