研究解码了小鼠在学习中采取的令人惊讶的方法

A cartoon drawing of the back of a mouse's head as it looks at a giant question mark floating in the sky on the left and a giant light bulb floating in the sky on the right.

从记忆的本质到疾病的治疗，神经科学的发现都依赖于阅读小鼠的思想，因此研究人员需要真正了解啮齿动物的行为在实验中告诉它们什么。在一项研究从奖励中学习的新研究中，麻省理工学院的研究人员破译了一些最初令人费解的小鼠行为，产生了关于小鼠如何思考的新想法以及帮助未来研究的数学工具。

老鼠应该掌握的任务很简单：向左或向右转动轮子以获得奖励，然后识别奖励方向何时切换。当神经典型人士玩这种“反向学习”游戏时，他们会迅速推断出最佳方法：坚持有效的方向，直到它不起作用，然后立即切换。值得注意的是，精神分裂症患者在这项任务中挣扎。在PLOS Computational Biology上的一项新的开放获取研究中，小鼠惊讶地表明，虽然它们能够学习“赢-留，输-转移”策略，但它们仍然拒绝完全采用它。

“这并不是说老鼠不能形成这种环境的基于推理的模型 – 它们可以，”通讯作者Mriganka Sur说，他是皮考尔学习与记忆研究所和麻省理工学院脑与认知科学系（BCS）的牛顿教授。“令人惊讶的是，他们没有坚持下去。即使在游戏中，你知道奖励是100%在一边，每隔一段时间，他们也会尝试另一方。

虽然偏离最佳策略的鼠标主题可能是由于未能将其保留在记忆中，但另一种可能性是小鼠不致力于“赢 – 留下，输 – 转移”方法，因为他们不相信他们的情况会保持稳定或可预测。相反，他们可能会偏离最佳制度来测试规则是否发生了变化。毕竟，自然环境很少是稳定或可预测的。

“我想老鼠比我们想象的更聪明，”Le说。

但是，无论哪种原因可能导致小鼠混合策略，BCS和麦戈文脑研究所副教授Mehrdad Jazayeri补充说，研究人员必须认识到他们这样做，并能够判断他们何时以及如何选择一种策略或另一种策略。

“这项研究强调了这样一个事实，即与公认的智慧不同，执行实验室任务的小鼠不一定采用平稳策略，它提供了一种计算严格的方法来检测和量化这种非平稳性，”他说。“这种能力很重要，因为当研究人员记录神经活动时，当他们不考虑动物的转移策略时，他们对潜在算法和机制的解释可能是无效的。

该研究小组还包括合著者Murat Yildirim，他是前Sur实验室博士后，现在是克利夫兰诊所勒纳研究所的助理教授，最初预计小鼠可能会采用一种或另一种策略。他们模拟了他们期望的结果，看看老鼠是否采用了推断任务规则的最佳策略，或者更随机地调查左转或右转是否得到奖励。即使在几天后，鼠标在任务上的行为也有很大差异，但它从未像只有一种策略模拟的结果。

对于不同的个体程度，鼠标在任务上的表现反映了三个参数的差异：规则切换后它们切换方向的速度，它们过渡到新方向所需的时间，以及它们对新方向的忠诚度。在21只小鼠中，原始数据代表了神经典型人类统一优化的任务结果的惊人多样性。但老鼠显然不是无助的。随着时间的推移，他们的平均性能显着提高，即使它稳定在最佳水平以下。

在任务中，奖励方每 15-25 回合切换一次。该团队意识到鼠标在游戏的每个此类“块”中使用了多个策略，而不仅仅是推断简单规则并根据该推理进行优化。为了解开小鼠何时采用这种策略或其他策略，该团队利用了一种称为隐马尔可夫模型（HMM）的分析框架，该框架可以通过计算梳理出一种看不见的状态何时产生结果与另一种看不见的状态。Le 将其比作烹饪节目中的评委可能会做的事情：根据他们面前每盘食物的图案推断哪个厨师参赛者制作了哪个版本的菜肴。

然而，在团队可以使用HMM破译他们的鼠标性能结果之前，他们必须对其进行调整。典型的HMM可能适用于单个鼠标选择，但在这里，团队对其进行了修改，以解释整个块过程中的选择转换。他们将修改后的模型称为blockHMM。使用blockHMM对任务性能的计算模拟表明，该算法能够推断出人工代理的真实隐藏状态。然后，作者使用这种技术来证明小鼠持续混合多种策略，实现了不同水平的性能。

“我们证实，每只动物都执行来自多个政权的行为混合，而不是单个领域的行为，”Le和他的合著者写道。“事实上，17/21小鼠使用了低，中和高性能行为模式的组合。

进一步的分析表明，正在进行的策略确实是“正确”的规则推理策略，并且是一种更具探索性的策略，与随机测试选项一致，以获得逐向反馈。

现在，研究人员已经解码了小鼠采取的逆转学习的特殊方法，他们计划更深入地研究大脑，以了解涉及哪些大脑区域和回路。通过在任务期间观察脑细胞活动，他们希望辨别出小鼠做出改变策略的决定背后的原因。

Sur说，通过详细检查逆转学习回路，该团队可能会获得有助于解释为什么精神分裂症患者在逆转学习任务中表现不佳的见解。苏尔补充说，一些患有自闭症谱系障碍的人也比神经典型人坚持新的未奖励行为的时间更长，因此他的实验室在调查时也会考虑到这种现象。

Yildirim也有兴趣研究潜在的临床联系。

“这种逆转学习范式让我着迷，因为我想在我的实验室中将其与各种神经系统疾病的临床前模型一起使用，”他说。“我们的下一步是确定行为策略中这些差异背后的大脑机制，以及我们是否可以操纵这些策略。

该研究的资金来自美国国立卫生研究院，陆军研究办公室，保罗和莉拉牛顿脑科学研究奖，马萨诸塞州生命科学计划，皮考尔学习与记忆研究所以及JPB基金会。

新闻旨在传播有益信息，英文版原文来自https://news.mit.edu/2023/study-decodes-surprising-approach-mice-take-learning-0915