DeltaQ：用于多目标导航的脉冲神经元网络中价值引导的赫布学习|||北京沫之东生物技术有限公司

1次围观

动物常常必须在这样一种环境中进行导航：关于朝向目标推进进度的反馈稀疏或延迟，因此需要依赖空间的内部表征以及对既往经验的记忆。海马-内嗅皮层系统被认为能够通过分布式空间表征来支持这种能力，并由此引导目标导向行为。然而，许多关于这些回路的计算模型主要关注神经动力学的再现，而非展示此类表征如何支持导航任务中的学习。我们提出了一种具有生物学启发的脉冲神经网络（SNN）模型，该模型结合了源自网格细胞的空间表征、由{Delta}Q调制的Hebb可塑性以及上下文依赖性调制，以支持稀疏奖励条件下的导航。网格细胞群体生成分布式空间编码，这些编码经由关联细胞群体转换为具有更高空间选择性的内部表征。学习由从目标条件化Q表中计算得到的Q值变化（{Delta}Q）所驱动，从而使局部突触可塑性能够整合关于长期导航结果的信息。对于包含多个导航目标的环境，上下文细胞群体提供任务依赖性调制，使共享的网络架构能够支持不同的导航策略。在两个互补的迷宫环境中，该模型展示了三项核心能力：生成不同的空间表征、在稀疏且延迟奖励条件下学习高效的导航策略，以及在共享环境中支持多个导航目标。结果进一步表明，上下文调制会在一个很大程度上共享的群体表征中引入细微的任务依赖性变化，从而使相同的空间位置能够支持不同的导航行为。这些发现表明，受生物学启发的空间表征、价值引导的可塑性以及上下文调制能够在脉冲神经网络中协同支持灵活导航，从而在机制性神经回路模型与功能性强化学习之间架起桥梁。

动物常常必须在这样一些环境中进行导航：在这些环境里，朝向目标前进的反馈是稀疏的或延迟出现的，因此需要依赖对空间的内部表征以及对既往经验的记忆。海马—内嗅皮层系统被认为通过分布式空间表征来支持这种能力，并利用这些表征引导目标导向行为。然而，许多关于这些神经回路的计算模型主要关注于复现神经动力学，而非展示此类表征如何支持导航任务中的学习。

我们提出了一种具有生物学启发的脉冲神经元网络（SNN）模型，该模型结合了源自网格细胞的空间表征、由 {Delta}Q 调制的赫布可塑性以及情境依赖性调制，以支持稀疏奖励条件下的导航。网格细胞群体生成分布式空间编码，这些编码由关联细胞群体转换为空间选择性更强的内部表征。学习由从目标条件 Q 表中计算得到的 Q 值变化（{Delta}Q）所驱动，从而使局部突触可塑性能够整合关于长期导航结果的信息。对于包含多个导航目标的环境，情境细胞群体提供任务依赖性调制，使共享的网络架构能够支持不同的导航策略。

在两个互补的迷宫环境中，该模型展示了三项核心能力：生成不同的空间表征、在稀疏且延迟奖励条件下学习高效的导航策略，以及在共享环境中支持多个导航目标。结果进一步表明，情境调制会在一个大体共享的群体表征中引入细微的任务依赖性变化，从而使相同的空间位置能够支持不同的导航行为。这些发现表明，受生物学启发的空间表征、价值引导的可塑性与情境调制能够共同支持脉冲神经元网络中的灵活导航，从而在机制性的神经回路模型与功能性的强化学习之间架起桥梁。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.06.12.731882v1?rss=1

🏷️ 脉冲神经网络赫布学习价值调制空间表征多目标导航网格细胞

来源出处

DeltaQ：用于多目标导航的脉冲神经元网络中价值引导的赫布学习 https://www.biorxiv.org/content/10.64898/2026.06.12.731882v1?rss=1