论文部分内容阅读
决策过程中,选项的实际奖赏/风险与预期奖赏/风险之间的差别,称之为奖赏/风险估计误差。强化学习的计算模型认为,估计误差的学习在强化学习过程中起到了关键作用。神经生物学的研究表明,估计误差的学习的神经基础可能存在于中脑多巴胺能神经元及其投射的纹状体和前额叶等。然而,强化学习的估计误差处理过程中,这些脑区的作用区分、以及是否都参与了估计误差的学习,并不清楚。我们提出这个问题主要从以下三个角度考虑:首先,不同的决策任务中,估计误差的作用不同。有的任务中,各选项的输/赢概率是明确的。此时,各选项的期望奖赏/风险可以直接估算出来。只因为是概率事件,所以即便可以计算出期望奖赏/风险,实际结果也可能和期望值之间存在差别,即奖赏/风险估计误差。但这种情况下,估计误差不代表期望奖赏/风险改变了,即不被学习,也不影响之后的预期;相反,有的任务中,各选项的概率是未知的。此时,个体预估各选项的奖赏/风险时,之前的估计误差是重要的学习内容,可以帮助修正对输/赢概率的认知和各选项的预期。由此可见,估计误差的在不同的任务中,作用不同。为了表述的方便,这里,我们把与学习或者修正无关的认知加工过程称为估计误差的表征,而用来学习和修正的认知加工过程称为估计误差的学习。其次,估计误差的不同作用的神经机制仍然不清楚。例如,Schonberg采用了一个概率未知的决策任务,发现,最终掌握概率的学会组,在产生奖赏估计误差时纹状体激活;相反,未学会组的纹状体则没有激活。但是,在这个任务中,估计误差可能有表征和学习两个加工过程。未学会组的障碍可能是在表征,也可能是在学习,所以纹状体到底是参与了奖赏估计误差的表征还是学习仍然不清楚。此外,前人的神经成像研究,也提示了强化学习中,估计误差的处理存在不同的神经基础。在概率己知的决策任务中,风险估计误差会引起脑岛的激活。而在概率未知的决策任务中,风险估计误差不仅与脑岛有关,还与前扣带回、额叶等有关。这些结果提示,这两种不同的决策任务中的估计误差,可能有一部分共有的神经基础(如脑岛),这些脑区的神经活动可能参与了估计误差的表征;而概率未知的决策任务中,估计误差可能涉及到了额外的脑区(如前扣带回、额叶),这些脑区可能参与了修正估计,即参与了估计误差的学习。最后,关于多巴胺的功能,目前主要的两个理论是奖赏估计误差假设和动机显著假说。前者认为多巴胺的主要功能是学习,尤其是对估计误差的学习;而后者却认为,奖赏估计误差假设存在混淆因素,即动机问题,并且认为多巴胺的功能不是参与估计误差的学习。所以,我们区分估计误差相关的脑区中的各自功能及与估计误差学习有关的脑区,有利于我们了解多巴胺系统的功能。综上,估计误差的表征与学习的神经机制是一个有意义,但尚未解决的问题。为此,本研究采用两个对比任务,概率未知的爱荷华博弈任务(IGT)和概率已知的风险决策任务(RDT)。这两个任务中,被试都需要对多个选项做出判断,通过选择有利的选项以获得奖赏。这两个任务不同的是,在RDT中,由于奖赏/风险的大小和概率都是已知的,个体在每次选择时无需对估计误差进行学习,就能够直接做出判断;然而在IGT中,对奖赏/风险的概率和较优选项的习得需要通过学习估计误差来实现。两个任务的核心差别在于是否需要学习估计误差。所以,IGT和RDT中的共同脑区,提示着可能与估计误差表征相关;而IGT中特有的脑区,可能与估计误差的学习相关。在本项fMRI研究中,有41名受试者完成了IGT任务,另40名受试者完成RDT任务。通过比较IGT和RDT中估计误差相关脑区的异同,我们发现:(1)在IGT和RDT中共同激活的脑区,包括双侧尾核、前脑岛和右侧颞上回;只在IGT中激活的脑区,包括喙侧前扣带回、后扣带回和左侧颞中回;(2)在两种任务中共同激活的脑区中,奖赏估计误差相关脑区为双侧尾核,风险估计误差相关脑区为前脑岛,背侧扣带回和右侧颞上回,没有发现与两种估计误差都相关的脑区;而IGT独有的脑区中,两种估计误差都和喙侧前扣带回、后扣带回和左侧颞中回相关,却没有发现只与某种估计误差相关的脑区。这些结果提示,共同脑区中的尾核参与了奖赏估计误差的表征,前脑岛、背侧扣带回和右侧颞上回参与风险估计误差的表征;而IGT独有脑区,即喙侧前扣带回、后扣带回和左侧颞中回,参与了两种估计误差的学习。特别地,两种估计误差的表征可能具有独立的神经基础,而两种估计误差的学习则具有共同的神经基础。然而,IGT中独有的脑区,其功能可能存在其他的解释(而不是估计误差的学习),例如任务难度的增加导致的更多表征脑区。为了更直接地验证,IGT和RDT共同的脑区与IGT独有脑区的功能不同,我们做了进一步补充分析。因为估计误差学习相关的脑区,其活动水平应该与学习进程相关,所以我们分析了这两种脑区的活动与“不确定性”的关系;此外,估计误差学习相关的脑区如果参与了估计的修正,那么可能与奖赏/风险估计有关脑区的存在功能连接,因此我们用生理心理交互作用的方法加以验证。结果发现:(1)IGT独有脑区(喙侧前扣带回、后扣带回和左侧颞中回)中,喙侧前扣带回对奖赏估计误差的响应水平随着不确定水平的降低而明显增加(p<0.05),而两种任务共同的脑区对奖赏/风险估计误差的响应水平则与不确定性无明显关系;(2)在产生奖赏估计误差时,喙侧前扣带回、后扣带回与奖赏估计的相关脑区存在功能连接,而其他脑区与奖赏估计的相关脑区不存在显著功能连接。最后,由于fMRI的数据本质上反映的是相关关系,所以我们运用多通道经颅直流电刺激(High-definition transcranial direct current stimulation, HD-tDCS),以微弱的电流暂时性抑制IGT独有的脑区(喙侧前扣带回,后扣带回)。结果发现,抑制这些脑区,降低了个体在IGT中的行为成绩,但不影响RDT的成绩。这一结果进一步提示了,IGT独有的脑区对估计误差的学习和决策优化是必要的。总之,我们通过对比IGT和RDT中估计误差的相关脑区,获得了IGT和RDT中共有的脑区和IGT中独有的脑区,并发现,共有的脑区中,奖赏估计误差和风险估计误差有独立的神经基础,而在IGT独有的脑区中,奖赏估计误差和风险估计误差有共同的神经基础。此外,我们还进一步验证了,IGT和RDT共有的脑区和IGT独有的脑区的不同功能。最后用HD-tDCS方法验证IGT独有脑区对估计误差的学习和决策优化的必要性。我们的结果可能提供了强化学习过程中估计误差的表征和学习的神经机制。