当面对新的学习任务,我们的大脑重演活动相反,就像一个视频在倒带,一项新的研究表明。
这种类型的reverse-replay也用于人工智能研究有助于计算机做决定。这一发现可以解释为什么我们学习任务更容易如果我们采取经常性的学习休息:会议给我们的大脑之间的停顿时间审核信息。
发现是详细的在2月12日在线出版的《自然》杂志上。
研究人员在老鼠的大脑活动进行线性跟踪动物来回跑。具体地说,他们监视一个叫做海马的脑区,这被认为是重要的记忆和导航在老鼠和人类。
当老鼠完成一圈,他们被给予食物奖励。餐后,动物会停顿片刻之前启动另一个腿上。表面上,老鼠似乎没有做得在这些休息时间。他们会烦躁不安,新郎或保持静止。然而,大脑记录告诉一个不同的故事。在休息的时候,一只老鼠的海马是一个活动的温床。
啮齿动物上下跑赛道,海马细胞在特定的启动模式。这个发射序列重复动物休息的时候,但在相反的顺序。reverse-replays重复几次;每个重放了只有几百毫秒。
“在压缩时间,鼠重现整个跟踪从目前在哪里回到一开始,”研究小组成员从麻省理工学院的大卫·福斯特。“这一结果表明,直接经验其实是又一次重复几次。外面加工的原始经验可能对学习很重要。”
开放移动
这一发现可能有助于解释老鼠如何解决所谓的“时间信用赋值问题。”因为海马体在老鼠和人类执行许多相同的功能,目前的研究表明我们的大脑可能以同样的方式工作。
决策理论中的经典难题,问题是这样的:如果一个动物必须执行一系列的操作才能得到奖励,最终它如何知道哪些行为是重要的,哪些不是?执行的操作之前获得的奖励是很容易识别同样重要,但执行的操作序列的开始?这些都是重要的?
大学的计算机科学家理查德·萨顿阿尔伯塔,加拿大并没有参与这项研究,首次将问题比作玩西洋双陆棋。
“你怎么评价开放移动如果你不知道怎么玩了吗?”他说。
领域的计算机科学与人工智能,颞信用赋值问题是解决机器工作落后,重演事件反过来和分配更多的信贷操作快结束时比开始时这些序列。
“你知道最后的行动是正确的,所以你可以通过发送信息的操作集被最终状态,”福斯特在一次电话采访中说。
如果反向重播也发生在人类,这就可能解释为什么填鸭式小时前一个测试通常不工作。新的发现表明,我们的大脑学习研究会话之间有频繁的停顿时最好;在这休息,我们的大脑无意识地回顾了几次的新信息,使其更容易记住的时候。
反向重复导致学习如何
科学家早已知道,化学分子的释放多巴胺是大脑的奖励系统的一个重要组成部分。释放的神经递质洪水我们感到快乐和激励我们执行某些活动。
当这种知识是搭配新的建议,我们的大脑可能重演新体验反过来说,一个可能的机制学习中,福斯特说。
研究者假设存在一个特殊的“价值区”大脑的多巴胺信号和reverse-replay信号在哪里美联储成为搭配在一起。如果多巴胺信号是随时间衰减,这意味着它更强的传播比最后,然后会发生以下:
作为扭转重放信号在大脑中上演的价值区域,它是伴随着强烈的多巴胺信号的开始;随着重放的继续,多巴胺信号变得较弱。在这个场景中,行动附近反向重复事件的开始将会比行动更重要的有机体。
提示在心理学
萨顿表示,他不会感到惊讶,如果反向重复发生在动物以及机器。如果有的话,他说,这种机制已从早期的心理学实验长期以来的猜测,如巴甫洛夫的经典条件反射实验狗。