Meta-learning three-factor plasticity rules for structured credit assignment with sparse feedback
本文主要是有漂亮的有REINFORCE型的数学推导,可以学习。
日期: 2025-12
链接: https://arxiv.org/abs/2512.09366
这篇论文主要解决的问题是:神经网络(特别是类脑的脉冲或循环神经网络)如何仅凭“局部”信息和“迟滞”的全局奖励来进行学习?
* 背景:在大脑中,突触(Synapse)只能感知到前突触神经元(Pre)和后突触神经元(Post)的活动,这叫“局部性”。但是,学习往往需要根据很久之后的结果(比如考试及格、游戏通关)来调整连接,这叫“全局稀疏反馈”。
* 难点:反向传播(Backpropagation)是目前AI最强的方法,但它需要全局信息且不符合生物学。传统的生物学规则(如STDP)又是无监督的,难以解决复杂任务。
* 本文方法:提出了一种元学习(Meta-learning)框架。不直接设计学习规则,而是让AI去“学习”如何调整突触。它发现了一种三因素规则:结合了Pre活动、Post活动(前两个因素)和全局奖励误差(第三个因素),并通过资格迹(Eligibility Traces)来桥接时间延迟。
Abstract
生物神经网络能够利用局部突触可塑性(local synaptic plasticity),从稀疏且延迟的反馈中学习复杂的行为。然而,这种能够实现结构化信贷分配(structured credit assignment)的机制在很大程度上仍是未知的。相比之下,解决类似任务的人工循环网络(RNN)通常依赖于生物学上不可信的全局学习规则(如BPTT),或者是手工设计的局部更新规则。
目前,能够支持从延迟强化信号中学习的局部可塑性规则的搜索空间仍未被充分探索。在本文中,我们提出了一种元学习框架(meta-learning framework),用于发现循环网络在稀疏反馈下训练的局部学习规则。
我们的方法包含两层循环:
1. 内循环:在任务执行过程中,使用局部的类新赫布(neo-Hebbian-like)更新规则进行权重调整。
2. 外循环:通过切线传播(tangent-propagation)技术,优化可塑性规则的参数(即“学习如何学习”)。
结果表明,该方法发现的三因素学习规则(three-factor learning rules)能够仅利用局部信息和延迟奖励,实现长时间尺度的信贷分配,为理解生物回路中的学习机制提供了新视角。
Introduction
背景:生物学习的挑战
生物体的学习依赖于神经元之间连接强度的变化(突触可塑性)。实验表明,突触的变化主要依赖于前突触和后突触活动的共同激活(如Hebb定律:“Fire together, wire together”)。这种无监督的局部修改可以解释发育过程中的神经回路微调(如感受野的形成)。
然而,生物体通常需要解决复杂的任务,这些任务需要通过明确的监督或强化信号(Reinforcement Signals)来反馈。这些信号通常是稀疏的(很久才出现一次)且是全局的(广播给整个网络)。
核心问题:信贷分配 (Credit Assignment)
问题在于:当一个奖励信号(比如吃到食物)在动作发生几秒钟后才出现时,大脑中数亿个突触如何知道是哪一个突触的哪一次活动导致了这个奖励?这就是著名的信贷分配问题。
- 传统AI方法:通过时间的反向传播(BPTT)是训练RNN的标准方法。但它不具备生物合理性,因为它需要对称的前向/后向连接和非局部信息。
- 生物合理方法的探索:之前的研究尝试了随机反馈(Random Feedback)或手工设计的规则,但这个领域的探索还非常有限。
本文方法:元优化 (Meta-optimisation)
本文不采用手工设计突触规则,而是通过元优化来发现生物合理的规则。
* 我们将可塑性规则参数化为局部信号(前/后突触活动、突触大小)的函数。
* 我们在第二个强化学习循环中元学习(Meta-learn)这些参数。
Method
Network Dynamics
我们考虑基于放电率(firing rate)的循环神经网络(RNN)。
网络状态演化方程为:
$$ \frac{d\mathbf{x}^{t}}{dt} = -\mathbf{x}^{t} + \mathbf{W}\phi(\mathbf{x}^{t}) + \mathbf{W}_{\text{in}}\mathbf{u}^{t}, \qquad \mathbf{r}^{t} = \phi(\mathbf{x}^{t}) \dot{=} \tanh(\mathbf{x}^{t}) \tag{1} $$
其中:
* $\mathbf{x}^t \in \mathcal{R}^N$:神经元的预激活状态(pre-activations),我个人喜欢理解为number of spikes。
* $\mathbf{r}^t \in \mathcal{R}^N$:瞬时放电率。
* $\mathbf{u}^t$:输入神经元的活动。
* $\mathbf{W}, \mathbf{W}_{\text{in}}, \mathbf{W}_{\text{out}}$:分别对应循环、输入和输出权重矩阵。
Sparse feedback and parametized learning rules
为了从稀疏反馈中学习,我们引入了资格迹(Eligibility Traces, $e_{ij}$),它记录了突触活动的历史。其演化遵循多项式形式的微分方程:
$$ \frac{\mathrm{d}e_{ij}^t}{\mathrm{d}t} = \mathcal{H}_{\theta}(r_j^t, x_i^t) - \frac{e_{ij}^t}{\tau_e} = \sum_{0 \le k, \ell \le d} \theta_{k,\ell} \left(r_j^t\right)^k \left(\bar{x}_i - x_i^t\right)^\ell - \frac{e_{ij}^t}{\tau_e} \tag{2} $$
其中 $\theta_{k,\ell}$ 是我们要元学习的参数。同时$d$是多项式的次数,是一个超参数,论文中设置为了$d=5$。
权重更新并不是确定性的,而是采样自一个矩阵正态分布(Matrix Normal Distribution)。这是为了引入探索性(Exploration),让网络尝试不同的权重变化方向。
更新规则如下:
$$ \pi_{\Theta}\left(\mathbf{\Delta}\mathbf{W}^{(h)} \mid \mathbf{\Theta}\right) = \mathcal{M}\mathcal{N}\left(\boldsymbol{\mu}_{\mathbf{\Theta}}^{(h)}, \, \sigma_{w}^{2} \, \mathbf{I}_{N}, \mathbf{I}_{N}\right) \tag{3} $$
其中均值矩阵 $\boldsymbol{\mu}_{\mathbf{\Theta}}^{(h)}$ 由三因素规则决定:
$$ [\boldsymbol{\mu}_{\mathbf{\Theta}}^{(h)}]_{ij} = \eta \, e_{ij}^{T_{h}} \, \left(R^{(h)} - \bar{R}^{(h)}\right) $$
矩阵正态分布 $\mathcal{M}\mathcal{N}(\mathbf{M}, \mathbf{U}, \mathbf{V})$ 是多元正态分布在矩阵上的推广。这里 $\mathbf{U}=\sigma_w^2\mathbf{I}_N$ 是行协方差,$\mathbf{V}=\mathbf{I}_N$ 是列协方差。数学意义是:权重的实际更新量 $\Delta W$ 是在“理论最优更新量” $\mu$ 的基础上,加上了一些高斯白噪声。这个噪声是独立同分布的,方差为 $\sigma_w^2$。
Meta-learning plasticity rules
Tangent-propagation through learning
目标是最大化所有试验(episodes)的累积期望奖励:
$$ J(\Theta) = \left\langle \sum_{h=1}^H R^{(h)} \right\rangle $$
由于奖励 $R$ 对权重更新的依赖是间接且复杂的,直接求导不可行。作者使用了 REINFORCE 估算器(即 score function estimator)。
REINFORCE 梯度推导 (Appendix A)
利用对数导数技巧(Log-derivative trick):
$$ \begin{aligned} \nabla_{\Theta} \langle R \rangle &= \nabla_{\Theta} \int \pi(\Delta \mathbf{W} \mid \Theta) \, R \, \mathrm{d} \Delta \mathbf{W} \\ &= \int \nabla_{\Theta} \pi(\Delta \mathbf{W} \mid \Theta) \, R \, \mathrm{d} \Delta \mathbf{W} \\ &= \int \pi(\Delta \mathbf{W} \mid \Theta) \, \frac{\nabla_{\Theta} \pi(\Delta \mathbf{W} \mid \Theta)}{\pi(\Delta \mathbf{W} \mid \Theta)} \, R \, \mathrm{d} \Delta \mathbf{W} \\ &= \langle R \, \nabla_{\Theta} \log \pi(\Delta \mathbf{W} \mid \Theta) \rangle_{\pi} \end{aligned} $$
为了减小方差,引入基线奖励 $\bar{R}$,最终得到近似梯度:
$$ \nabla_{\Theta} J(\Theta) \approx \left\langle \sum_{h} \sum_{h'=h+1}^{H} (R^{(h')} - \bar{R}^{(h')}) \nabla_{\Theta} \log \pi (\mathbf{\Delta} \mathbf{W}^{(h)} \mid \mathbf{\Theta}) \right\rangle \tag{4} $$
将 $\mathcal{MN}$ 分布代入,对分量 $\theta_{k,\ell}$ 的梯度为:
$$ \frac{\partial J}{\partial \theta_{k,\ell}} = \left\langle \sum_{h=1}^{H-1} \left( \sum_{h'=h}^{H-1} \delta R^{(h'+1)} \right) \frac{1}{\sigma_w^2} \sum_{i,j} \left( \Delta w_{ij}^{(h)} - \mu_{ij}^{(h)} \right) \frac{\partial \mu_{ij}^{(h)}}{\partial \theta_{k,\ell}} \right\rangle_S \tag{5} $$
要计算 Eq. (5) 中的 $\frac{\partial \mu_{ij}^{(h)}}{\partial \theta_{k,\ell}}$,我们需要追踪参数 $\theta$ 的微小变化如何在时间轴上一步步传播。这涉及到复杂的前向模式微分(Forward-mode differentiation)。
定义以下四个关键的敏感度变量(Tangents):
- State Tangent (状态切线): $\chi_{k,\ell}^t = \frac{\partial \mathbf{x}^t}{\partial \theta_{k,\ell}}$
- Trace Tangent (迹切线): $\psi_{k,\ell}^t = \frac{\partial \bar{\mathbf{x}}^t}{\partial \theta_{k,\ell}}$
- Eligibility Tangent (资格切线): $\mathbf{z}_{k,\ell}^t = \frac{\partial \mathbf{e}^t}{\partial \theta_{k,\ell}}$
- Weight Tangent (权重切线): $\mathbf{U}_{k,\ell}^{(h)} = \frac{\partial \mathbf{W}^{(h)}}{\partial \theta_{k,\ell}}$
递推公式 (Appendix C)
这些变量在每个时间步 $t$ 按如下规则更新(设 $\alpha = dt/\tau$):
1. 状态切线更新:
$$ \chi_{k,\ell}^{t+1} = \chi_{k,\ell}^{t} + \alpha \left( -\chi_{k,\ell}^{t} + \mathbf{W}^{(h)} \left( \operatorname{diag}(\phi'(\mathbf{x}^{t})) \cdot \chi_{k,\ell}^{t} \right) + \mathbf{U}_{k,\ell}^{(h)} \mathbf{r}^{t} \right) \tag{10} $$
Insight: 注意最后一项 $\mathbf{U}_{k,\ell}^{(h)} \mathbf{r}^{t}$,它体现了历史权重的变化如何影响当前的状态。
2. 迹切线更新:
$$ \psi_{k,\ell}^{t+1} = \alpha_{x} \psi_{k,\ell}^{t} + (1 - \alpha_{x}) \chi_{k,\ell}^{t+1} $$
3. 资格切线更新(最复杂的一项):
$$ \begin{aligned} \mathbf{z}_{k,\ell}^{t+1} &= \mathbf{z}_{k,\ell}^{t} + \operatorname{d}t \underbrace{\left( \Delta \mathbf{x}^{t} \right)^{\ell} \otimes \left( \mathbf{r}^{t} \right)^{k}}_{\text{当前时刻直接梯度}} \\ &+ \operatorname{d}t \sum_{\kappa,\lambda} \theta_{\kappa,\lambda} \left[ \underbrace{\lambda \left( \Delta \mathbf{x}^{t} \right)^{\lambda-1} (\psi_{k,\ell}^{t} - \chi_{k,\ell}^{t+1}) \otimes \left( \mathbf{r}^{t} \right)^{\kappa}}_{\text{通过后突触项传播}} + \underbrace{\left( \Delta \mathbf{x}^{t} \right)^{\lambda} \otimes \kappa \left( \mathbf{r}^{t} \right)^{\kappa-1} \left( \operatorname{diag}(\phi') \cdot \chi_{k,\ell}^{t} \right)}_{\text{通过前突触项传播}} \right] \end{aligned} $$
其中 $\otimes$ 表示外积。这个公式精确描述了参数变化如何通过复杂的多项式资格迹规则在网络中扩散。
4. 权重切线更新(在 Trial 结束时):
$$ \mathbf{U}_{k,\ell}^{(h+1)} = \mathbf{U}_{k,\ell}^{(h)} + \eta \, \delta R^{(h)} \, \mathbf{z}_{k,\ell}^{T_h} \tag{13} $$
Results
梯度的正确性验证 (Appendix C.1 & Fig. 2)
为了证明上述复杂的“切线传播”数学推导是正确的,作者进行了梯度验证实验。
* 方法:对比了两种计算梯度的方法:
1. Forward Mode (FM):本文提出的基于公式推导的方法。
2. Finite Difference (FD):数值差分法(暴力计算 $\frac{f(\theta+\epsilon) - f(\theta-\epsilon)}{2\epsilon}$)。
* 结果:如图2所示,FM计算出的梯度与FD几乎完全重合。
* 意义:证明了该元学习算法能够精确地捕捉到 plasticity 参数对最终权重的微小影响,这是后续成功学习的基础。
动力学分析 (Appendix B)
作者分析了学习到的网络的动态特性:
* 不动点 (Fixed Points):通过牛顿法求解 $\mathbf{G}(\mathbf{x}) = 0$ 找到网络状态的不动点。
* 雅可比分析 (Jacobian Analysis):在不动点附近线性化,计算特征值。
* 非正规性 (Non-normality):使用 Henrici index 衡量系统的非正规性。
* Insight:非正规性高的系统即使在稳定的不动点附近,也能产生巨大的瞬态放大(Transient Amplification)。这意味着网络可以利用瞬时的动态变化来处理信息,而不仅仅依赖最终的稳定状态。
Summary
本文提出了一种强大的框架,通过元学习自动发现用于RNN的局部可塑性规则。
1. 生物合理性:规则仅依赖 $Pre, Post, Reward$ 三个因素,且通过资格迹解决时间延迟问题。
2. 自动化:不再需要人类专家手工设计 $STDP$ 窗口或规则,AI自己学会了如何调整突触。
3. 理论贡献:推导了完整的“通过学习过程的切线传播”算法,为在生物约束下训练RNN提供了新的数学工具。