Home Learn Blog Game
Learn Papers Monkey Learning Meta-Learning Biologically Plausible Plasticity Rules With Random Feedback Pathways

Course Structure

s41467-023-37562-1.pdf Main S41467-023-37562-1

Meta-learning biologically plausible plasticity rules with random feedback pathways

来源: Nature Communications (2023)

链接: https://doi.org/10.1038/s41467-023-37562-1

Code Availability: https://github.com/NeuralDynamicsAndComputing/MetaLearning-Plasticity


1. Introduction

第一段,开篇先介绍一下反向传播。

第二段,说了反向传播的生物不合理性。其中一点就是它依赖“symmetric connectivity”,接着就引用了经典的random feedback alignment。

第三段,接着说random feedback alignment的一些改进,然后指出它们也不是很好。

第四段,说可以往random feedback alignment加入一些secondary update rule,比如有赫布学习,定义新的损失函数等等。

第五段,讲了Meta-learning的概念,也就是所谓“学会如何学习”。

第六段,说The meta-learning framework has provided a new direction for building biologically plausible computational neural models.然后举了一些例子。

第七段,讲了meta-learning去学习学习规则,或者说可塑性规则,而不是合适的初始权重。

第八段,说meta-learning给了一种超出前向传播可塑性规则的方法。又举了一些例子。

后面就开始展示自己的方法了。


2. Results

2.1 Limitations of feedback alignment in deep networks

这一小节主要是对feedback alignment的简介和相关实验。

网络定义:考虑一个全连接深层神经网络 $f_W$,参数化为权重 $\mathbf{W}$,表示从输入 $\mathbf{x}$ 到输出 $\mathbf{y}_L$ 的非线性映射 $f_W: \mathbf{x} \mapsto \mathbf{y}_L$,其中 $L$ 表示网络深度。每一层的计算为:

$$\mathbf{z}_{\ell} = \mathbf{W}_{\ell-1,\ell} \mathbf{y}_{\ell-1}, \tag{1}$$

$$\mathbf{y}_{\ell} = \sigma(\mathbf{z}_{\ell}), \tag{2}$$

其中 $\mathbf{y}_{\ell}$ 为第 $\ell$ 层的激活,$\sigma$ 为非线性激活函数,约定 $\mathbf{y}_0 = \mathbf{x}$ 为输入。

训练目标:给定训练集 $\mathcal{D}_{\text{train}} = (X_{\text{train}}, Y_{\text{train}})$,目标是找到权重集合 $\mathbf{W} = \{\mathbf{W}_{\ell-1,\ell} \mid 0 < \ell \leq L\}$,以最小化损失函数 $\mathcal{L}(\mathbf{y}_L, Y_{\text{train}})$。每个权重矩阵 $\mathbf{W}_{\ell-1,\ell}$ 的更新由来自 $\mathcal{L}$ 的教学信号(teaching signal) $\mathbf{e}_\ell$ 调制。

误差的反向传播:通常的做法是先在输出层计算调制信号 $\mathbf{e}_L$,再通过一个辅助反馈网络将其传播到上游各层。反向传播遵循:

$$\mathbf{e}_{\ell} = \mathbf{B}_{\ell+1,\ell} \mathbf{e}_{\ell+1} \odot \sigma'(\mathbf{z}_{\ell}), \tag{3}$$

其中 $\odot$ 表示逐元素乘法,$\mathbf{B} = \{\mathbf{B}_{\ell+1,\ell} \mid 0 < \ell < L\}$ 为反馈连接集合。该式表明:第 $\ell$ 层的误差由上一层 $\ell+1$ 的误差经反馈矩阵 $\mathbf{B}_{\ell+1,\ell}$ 投影,再与激活函数的导数 $\sigma'(\mathbf{z}_{\ell})$ 逐元素相乘得到。

梯度下降与 BP:在基于梯度的优化中,输出层误差定义为 $\mathbf{e}_L = \partial\mathcal{L}/\partial\mathbf{z}_L$。反向传播(backprop, BP) 使用反馈权重 $\mathbf{B}_{\ell+1,\ell}^{\text{BP}} = \mathbf{W}_{\ell,\ell+1}^T$(即前向权重的转置),通过式 (3) 传播调制信号。随后,前向权重按如下共享可塑性规则更新:

$$\Delta \mathbf{W}_{\ell-1,\ell} = -\theta \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^{T}, \tag{4}$$

其中 $\theta$ 为学习率。该规则对所有前向连接 $\mathbf{W}_{\ell-1,\ell}$ 一致适用。

随机反馈对齐(Random Feedback Alignment, FA):为缓解 BP 在生物学上的不合理性(需对称反馈),Lillicrap 等人提出使用固定的随机反馈连接 $\mathbf{B}^{\mathrm{FA}}$,与前向权重无关。本文约定:
- FA:配合固定的随机 $\mathbf{B}^{\mathrm{FA}}_{\ell+1,\ell}$;
- BP:配合 $\mathbf{B}^{\mathrm{BP}}_{\ell+1,\ell} = \mathbf{W}^T_{\ell,\ell+1}$。

FA 的局限:对 FA 而言,$\mathbf{e}_{\ell}^{\mathrm{FA}}$ 并非精确梯度,而是伪梯度(pseudo-gradient)。FA 在简单任务和浅层网络中表现尚可,但在深层网络和小数据场景下效果不佳。在本文的在线数据流实验中,FA 约需 2000 次迭代才开始有效学习,而 BP 收敛快得多(Fig. 1a)。另一种思路是构建直接反馈通路(Nøkland),让误差从输出层直接传到各上游层,虽优于标准 FA,但仍不及 BP(见 Supplementary Fig. S1)。此外,Fig. 1b 显示,通过固定反馈传播的教学信号 $\mathbf{e}_{\ell}^{\mathrm{FA}}$ 与 BP 计算的真梯度 $\mathbf{e}_{\ell}^{\mathrm{BP}}$ 未对齐;夹角 $\alpha_\ell$(单位:度)在 $\ell=1,2,3,4$ 各层均较大。注意输出层 $\mathbf{e}_L$ 由 $\partial\mathcal{L}/\partial\mathbf{z}_L$ 计算,两种方法相同,故 $\alpha_L = 0$。

结论:固定随机反馈下的信息反向流动不足以支撑深层模型的在线训练。本文因此转向改进可塑性规则,并采用元学习框架在参数化的可塑性规则空间中搜索。


Fig. 1 | Feedback alignment learns poorly in deep models. 在 MNIST 上以在线学习训练 5 层全连接分类网络时,FA、BP 与下文发现的生物合理规则 (bio) 的对比。a 准确率随训练样本数的变化。b FA 传播的教学信号 $\mathbf{e}_\ell^{\mathrm{FA}}$ 与 BP 信号 $\mathbf{e}_\ell^{\mathrm{BP}}$ 之间的夹角 $\alpha_\ell$(度),$\ell=1,2,3,4$。两种方法在输出层使用相同的 $\mathbf{e}_L = \partial\mathcal{L}/\partial\mathbf{z}_L$,故 $\alpha_L=0$。

这里使用的模型是5-layer fc,维度为784-170-130-100-70-47-10,激活函数为softplus函数,即$\sigma(z_{\ell}) = \frac{1}{\beta} \log(1 + \exp(\beta z_{\ell}))$,其中$\beta = 10$。batch size为1,epoch为1。

2.2 Meta-learning to discover interpretable plasticity rules

元学习框架概述:元学习(Meta-learning)旨在学习学习过程本身的某些要素,即“学会如何学习”。本文采用双层学习结构:
- 内层适应循环(Inner Adaptation Loop):使用参数化的可塑性规则 $\mathcal{F}(\boldsymbol{\theta})$ 更新模型 $f_{\boldsymbol{W}}$ 的权重 $\boldsymbol{W}$;
- 外层元优化循环(Outer Meta-optimization Loop):更新可塑性规则的元参数 $\boldsymbol{\theta}$。

元训练数据集:包含一组任务 $\{\mathcal{T}_{\varepsilon}\}_{0 \leq \varepsilon \leq \mathcal{E}}$。每个任务 $\mathcal{T}_{\varepsilon}$ 由以下两部分组成(均按类别组织):
- 训练集 $(\boldsymbol{X}_{\text{train}}^{\varepsilon}, \boldsymbol{Y}_{\text{train}}^{\varepsilon})$:每类 $K$ 个样本,用于内层训练模型 $f_{\boldsymbol{W}}$;
- 查询集 $(\boldsymbol{X}_{\text{query}}^{\varepsilon}, \boldsymbol{Y}_{\text{query}}^{\varepsilon})$:每类 $Q$ 个样本,用于评估并优化元参数 $\boldsymbol{\theta}$。

参数化可塑性规则:给定 $R$ 个候选可塑性项 $\{\mathcal{F}^r\}_{0 \leq r \leq R-1}$,定义可塑性规则为它们的线性组合:

$$\mathcal{F}(\boldsymbol{\theta}) = \sum_{r=0}^{R-1} \theta_r \mathcal{F}^r, \tag{5}$$

其中 $\boldsymbol{\Theta} = \{\theta_r \mid 0 \leq r \leq R-1\}$ 为元参数集合,在所有层之间共享。该规则用于更新前向权重 $\mathbf{W}$。

候选可塑性项(本文):

$$\mathcal{F}^0 = -\mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T, \tag{14}$$

$$\mathcal{F}^1 = -\mathbf{y}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{15}$$

$$\mathcal{F}^2 = -\mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{16}$$

$$\mathcal{F}^3 = -\boldsymbol{W}_{\ell-1,\ell}, \tag{17}$$

$$\mathcal{F}^4 = -\mathbf{1}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{18}$$

$$\mathcal{F}^5 = -\mathbf{e}_{\ell} \mathbf{1}_{\ell}^T \mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T, \tag{19}$$

$$\mathcal{F}^6 = -\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T \mathbf{W}_{\ell-1,\ell} \mathbf{e}_{\ell-1} \mathbf{e}_{\ell-1}^T, \tag{20}$$

$$\mathcal{F}^7 = -\mathbf{e}_{\ell} \mathbf{y}_{\ell}^T \mathbf{W}_{\ell-1,\ell} \mathbf{e}_{\ell-1} \mathbf{y}_{\ell-1}^T, \tag{21}$$

$$\mathcal{F}^8 = -\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T \mathbf{W}_{\ell-1,\ell}^T \mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{22}$$

$$\mathcal{F}^9 = \mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T)\mathbf{W}_{\ell-1,\ell}. \tag{23}$$

元损失与 L1 正则化:若仅用式 (5) 做元学习,得到的规则往往包含过多项,难以解释且机制重叠。因此遵循奥卡姆剃刀,在元损失中引入 L1 惩罚,促使算法选择更稀疏的规则组合:

$$\mathcal{L}_{\text{meta}}(\boldsymbol{\theta}) = \mathcal{L}(f_{\boldsymbol{W}}(\boldsymbol{X}_{\text{query}}), \boldsymbol{Y}_{\text{query}}) + \lambda \parallel \boldsymbol{\theta} \parallel_{1}, \tag{6}$$

其中 $f_{\boldsymbol{W}}$ 为内层适应后得到的模型,$\lambda$ 为预设超参数。权重 $\boldsymbol{W}$ 由 $\mathcal{F}(\boldsymbol{\Theta})$ 更新,元参数 $\boldsymbol{\Theta}$ 由基于梯度的优化器更新。

说明:
- 在线学习:每次内层迭代仅使用一个样本 $(x_{\text{train}}^{(i)}, y_{\text{train}}^{(i)})$ 更新 $\boldsymbol{W}$,即 batch size = 1。
- 每 episode 重新初始化:每个 episode $\varepsilon$ 开始时,$\boldsymbol{W}^{(0)}$ 和 $\boldsymbol{B}$ 重新随机初始化。这消除了学习规则对特定初始权重的依赖,使元学习到的规则适用于从零开始训练的随机初始化网络。
- $\mathcal{F}$ 的输入:可塑性规则 $\mathcal{F}$ 的输入包括突触前/后的激活 $\mathbf{y}_{\ell-1}, \mathbf{y}_\ell$、突触前/后的误差 $\mathbf{e}_{\ell-1}, \mathbf{e}_\ell$,以及当前权重 $\boldsymbol{W}_{\ell-1,\ell}$,均为局部可得量(见 Discussion 对局部性的讨论)。
- 元梯度:通过展开内层适应循环的计算图,对 $\boldsymbol{\Theta}$ 求导得到元梯度,进而更新 $\boldsymbol{\Theta}$。

Fig. 2 | 元学习工作流示意。(1) 从规则池 $\{\mathcal{F}^r\}$ 线性组合得到 $\mathcal{F}(\boldsymbol{\theta})$;(2) 每 episode 从随机初始化出发,用 $\mathcal{F}$ 在线更新 $\boldsymbol{W}$;(3) 在 query 集上计算元损失;(4) 梯度下降更新 $\boldsymbol{\Theta}$,循环至收敛。

2.3 Benchmarking backprop and feedback alignment

首先,作者验证了该框架能否重现BP和FA的性能差异。当仅优化学习率 $\theta$ 时,元学习结果确认了FA在处理5-way分类任务时,经过600个episode后准确率仅约25%,而BP可达70%(见 Fig. 3)。

Fig. 3: FA与BP的元学习基准对比。FA(蓝色)的学习效率显著低于BP(橙色),且误差信号并未对齐。

2.4 Biologically plausible plasticity rules

作者构建了一个包含10个局部可塑性项(Local Plasticity Terms)的候选池 $\mathcal{F}^{pool}$,包括伪梯度项、Hebbian项、Oja规则等。
经过元学习优化,大部分系数 $\theta_r$ 收敛至0,最终保留了三个主要项,构成了 $\mathcal{F}^{\text{bio}}$ 规则:

$$ \mathcal{F}^{\text{bio}}(\boldsymbol{\theta}) = \underbrace{-\theta_0 \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T}_{\text{Pseudo-gradient}} \underbrace{- \theta_2 \mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T}_{\text{Hebbian error}} + \underbrace{\theta_9 (\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T) \mathbf{W}_{\ell-1,\ell})}_{\text{Oja's rule}} \tag{7} $$

这一发现的规则在性能上显著优于纯FA,并接近BP的表现。

Fig. 4: $\mathcal{F}^{pool}$ 的元学习结果。
(a, b) 随着元训练进行,精度和Loss逐渐接近BP。
(d) 只有三项系数($\theta_0, \theta_2, \theta_9$)非零,其余被L1正则化抑制。

接下来,作者分别分析了 $\mathcal{F}^{\text{eHebb}}$(前两项)和 $\mathcal{F}^{\text{Oja}}$(第一项和第三项)的作用机制。

2.5 Hebbian-style error-based plasticity rule

$$ \mathcal{F}^{\text{eHebb}}(\boldsymbol{\theta}) = -\theta_0 \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T - \theta_2 \mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T \tag{8} $$

  • 机制:$\mathcal{F}^2 = -\mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T$ 这一项利用前后神经元的误差信号进行Hebbian式更新。
  • 效果:虽然精度提升不如完整版 $\mathcal{F}^{\text{bio}}$,但它显著减小了误差信号与真实梯度之间的夹角(见 Fig. 5c)。
  • 原理:数学推导表明(详见论文 Eq. 9),该项使得前向权重 $\mathbf{W}_{\ell-1,\ell}$ 趋向于反馈权重 $\mathbf{B}_{\ell,\ell-1}^T$ 的转置。这建立了一个辅助通道,将反馈连接的信息“写入”前向权重,从而实现了权重的对齐(Alignment),让随机反馈逐渐变得像对称反馈一样有效。

Fig. 5: $\mathcal{F}^{\text{eHebb}}$ 的效果。它通过对齐误差信号(c图角度下降)来提升性能。


Fig. 6: 信息流对比。
(a) 纯FA:信息需通过 $\mathbf{W}$ 的更新经过一次前向传播才能影响上一层。
(b) 引入 $\mathcal{F}^2$:建立了一个直接的通道(②),加速了反馈通路信息向前向权重的传递。

2.6 Oja's rule

$$ \mathcal{F}^{\text{Oja}}(\boldsymbol{\theta}) = -\theta_0 \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T + \theta_9 (\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T) \mathbf{W}_{\ell-1,\ell}) \tag{10} $$

  • 机制:Oja规则是一种无监督学习规则,用于提取主成分(PCA)。
  • 效果:令人惊讶的是,加入Oja规则显著提升了准确率(Fig. 7a),但几乎没有改善误差信号的对齐情况(Fig. 7c,角度依然很大)。
  • 原理:Oja规则促使权重矩阵正交化(Orthonormality)。通过计算正交性误差 $E_{\mathbf{W}}$(Eq. 11),作者发现 $\mathcal{F}^{\text{Oja}}$ 使得权重矩阵行向量更加正交(Fig. 8)。这改善了前向传播中的特征提取能力,使得隐藏层能学到更好的表示(Embeddings),从而在误差信号不准确的情况下也能提升最终的分类性能。

Fig. 7: $\mathcal{F}^{\text{Oja}}$ 的效果。精度提升显著(a),但并未改善误差对齐(c)。

Fig. 8: 权重正交性误差。$\mathcal{F}^{\text{Oja}}$(c)显著降低了权重的正交性误差,优于BP(d)和FA(a),说明其作用在于改善特征提取。


3. Discussion

本文的主要贡献是利用元学习发现了两种机制,使得在固定随机反馈通路下也能进行有效学习:
1. Alignment(对齐)机制:通过误差及Hebbian项 ($\mathcal{F}^2$),将前向权重推向反馈权重的转置,重建了类似BP的对称性,改善了误差传播。
2. Feature Extraction(特征提取)机制:通过Oja规则 ($\mathcal{F}^9$),在无监督的情况下优化前向特征表示(正交化),即便误差信号质量不高,也能提取出有用的特征供输出层分类。

生物合理性探讨:
* 局部性(Locality):虽然规则涉及 $\mathbf{e}$ 和 $\mathbf{y}$,如果假设激活值和误差信号由同一群神经元(例如通过不同时间窗口或不同的树突部位,如顶树突和基树突)复用编码,则这些规则是局部的。
* 实现可能性:Oja规则和类BP规则在生物学上已有广泛研究。误差Hebbian项可能通过突发脉冲(bursts)和单个脉冲(spikes)的协同作用来实现。


4. Methods

4.1 Models

  • 架构:
    • 5层全连接网络 (784-170-130-100-70-47)。
    • 激活函数:隐藏层使用 Softplus ($\beta=10$),输出层使用 Softmax。Softplus是ReLU的平滑版本,便于二阶微分(元优化需要)。
  • 初始化:
    • 前向权重 $\mathbf{W}$ 和反馈权重 $\mathbf{B}$ 均使用 Xavier 初始化,且互不相同(非对称)。
    • 每个Episode重新初始化,确保学习不依赖于特定的初始权重。

4.2 Candidate learning terms

作者定义了10个候选局部规则 $\mathcal{F}^0 \dots \mathcal{F}^9$。
* $\mathcal{F}^0 = -\mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T$ (伪梯度项)
* $\mathcal{F}^1 = -\mathbf{y}_{\ell} \mathbf{e}_{\ell-1}^T$
* $\mathcal{F}^2 = -\mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T$ (Hebbian误差项)
* ...
* $\mathcal{F}^9 = (\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T) \mathbf{W}_{\ell-1,\ell})$ (Oja规则)

为了保证第一层的更新,定义了合成误差 $\mathbf{e}_0$ (Eq. 24)。

4.3 Meta-training

  • 数据集:EMNIST (47类)。
    • Meta-training Tasks:每个Episode随机抽取5个类(5-way classification)。
    • 数据量:Support set (训练集) 每类50个样本,共250个样本;Query set (查询集) 每类10个样本。
    • 模式:Online Learning (Batch size = 1)。
  • 优化器:
    • 外层优化器:ADAM (learning rate $10^{-3}$)。
    • 损失函数:Cross-Entropy。
    • 元损失:Query set Loss + L1 正则化。
  • 计算:通过展开内层循环的计算图进行微分(meta-gradient)。

5. Availability (资源获取)

  • Data Availability:

    • EMNIST: https://doi.org/10.1109/IJCNN.2017.7966217
    • MNIST: http://yann.lecun.com/exdb/mnist
    • FashionMNIST: https://github.com/zalandoresearch/fashion-mnist
  • Code Availability:

    • PyTorch实现代码: https://github.com/NeuralDynamicsAndComputing/MetaLearning-Plasticity (Zenodo: 10.5281/zenodo.7706619)
Previous

© 2025 Ze Rui Liu.