Meta-learning biologically plausible plasticity rules with random feedback pathways

来源: Nature Communications (2023)

链接: https://doi.org/10.1038/s41467-023-37562-1

Code Availability: https://github.com/NeuralDynamicsAndComputing/MetaLearning-Plasticity

1. Introduction

第一段，开篇先介绍一下反向传播。

第二段，说了反向传播的生物不合理性。其中一点就是它依赖“symmetric connectivity”，接着就引用了经典的random feedback alignment。

第三段，接着说random feedback alignment的一些改进，然后指出它们也不是很好。

第四段，说可以往random feedback alignment加入一些secondary update rule，比如有赫布学习，定义新的损失函数等等。

第五段，讲了Meta-learning的概念，也就是所谓“学会如何学习”。

第六段，说The meta-learning framework has provided a new direction for building biologically plausible computational neural models.然后举了一些例子。

第七段，讲了meta-learning去学习学习规则，或者说可塑性规则，而不是合适的初始权重。

第八段，说meta-learning给了一种超出前向传播可塑性规则的方法。又举了一些例子。

后面就开始展示自己的方法了。

2. Results

2.1 Limitations of feedback alignment in deep networks

这一小节主要是对feedback alignment的简介和相关实验。

网络定义：考虑一个全连接深层神经网络 $f_W$，参数化为权重 $\mathbf{W}$，表示从输入 $\mathbf{x}$ 到输出 $\mathbf{y}_L$ 的非线性映射 $f_W: \mathbf{x} \mapsto \mathbf{y}_L$，其中 $L$ 表示网络深度。每一层的计算为：

$$\mathbf{z}_{\ell} = \mathbf{W}_{\ell-1,\ell} \mathbf{y}_{\ell-1}, \tag{1}$$

$$\mathbf{y}_{\ell} = \sigma(\mathbf{z}_{\ell}), \tag{2}$$

其中 $\mathbf{y}_{\ell}$ 为第 $\ell$ 层的激活，$\sigma$ 为非线性激活函数，约定 $\mathbf{y}_0 = \mathbf{x}$ 为输入。

训练目标：给定训练集 $\mathcal{D}_{\text{train}} = (X_{\text{train}}, Y_{\text{train}})$，目标是找到权重集合 $\mathbf{W} = \{\mathbf{W}_{\ell-1,\ell} \mid 0 < \ell \leq L\}$，以最小化损失函数 $\mathcal{L}(\mathbf{y}_L, Y_{\text{train}})$。每个权重矩阵 $\mathbf{W}_{\ell-1,\ell}$ 的更新由来自 $\mathcal{L}$ 的教学信号（teaching signal） $\mathbf{e}_\ell$ 调制。

误差的反向传播：通常的做法是先在输出层计算调制信号 $\mathbf{e}_L$，再通过一个辅助反馈网络将其传播到上游各层。反向传播遵循：

$$\mathbf{e}_{\ell} = \mathbf{B}_{\ell+1,\ell} \mathbf{e}_{\ell+1} \odot \sigma'(\mathbf{z}_{\ell}), \tag{3}$$

其中 $\odot$ 表示逐元素乘法，$\mathbf{B} = \{\mathbf{B}_{\ell+1,\ell} \mid 0 < \ell < L\}$ 为反馈连接集合。该式表明：第 $\ell$ 层的误差由上一层 $\ell+1$ 的误差经反馈矩阵 $\mathbf{B}_{\ell+1,\ell}$ 投影，再与激活函数的导数 $\sigma'(\mathbf{z}_{\ell})$ 逐元素相乘得到。

梯度下降与 BP：在基于梯度的优化中，输出层误差定义为 $\mathbf{e}_L = \partial\mathcal{L}/\partial\mathbf{z}_L$。反向传播（backprop, BP） 使用反馈权重 $\mathbf{B}_{\ell+1,\ell}^{\text{BP}} = \mathbf{W}_{\ell,\ell+1}^T$（即前向权重的转置），通过式 (3) 传播调制信号。随后，前向权重按如下共享可塑性规则更新：

$$\Delta \mathbf{W}_{\ell-1,\ell} = -\theta \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^{T}, \tag{4}$$

其中 $\theta$ 为学习率。该规则对所有前向连接 $\mathbf{W}_{\ell-1,\ell}$ 一致适用。

随机反馈对齐（Random Feedback Alignment, FA）：为缓解 BP 在生物学上的不合理性（需对称反馈），Lillicrap 等人提出使用固定的随机反馈连接 $\mathbf{B}^{\mathrm{FA}}$，与前向权重无关。本文约定：
- FA：配合固定的随机 $\mathbf{B}^{\mathrm{FA}}_{\ell+1,\ell}$；
- BP：配合 $\mathbf{B}^{\mathrm{BP}}_{\ell+1,\ell} = \mathbf{W}^T_{\ell,\ell+1}$。

FA 的局限：对 FA 而言，$\mathbf{e}_{\ell}^{\mathrm{FA}}$ 并非精确梯度，而是伪梯度（pseudo-gradient）。FA 在简单任务和浅层网络中表现尚可，但在深层网络和小数据场景下效果不佳。在本文的在线数据流实验中，FA 约需 2000 次迭代才开始有效学习，而 BP 收敛快得多（Fig. 1a）。另一种思路是构建直接反馈通路（Nøkland），让误差从输出层直接传到各上游层，虽优于标准 FA，但仍不及 BP（见 Supplementary Fig. S1）。此外，Fig. 1b 显示，通过固定反馈传播的教学信号 $\mathbf{e}_{\ell}^{\mathrm{FA}}$ 与 BP 计算的真梯度 $\mathbf{e}_{\ell}^{\mathrm{BP}}$ 未对齐；夹角 $\alpha_\ell$（单位：度）在 $\ell=1,2,3,4$ 各层均较大。注意输出层 $\mathbf{e}_L$ 由 $\partial\mathcal{L}/\partial\mathbf{z}_L$ 计算，两种方法相同，故 $\alpha_L = 0$。

结论：固定随机反馈下的信息反向流动不足以支撑深层模型的在线训练。本文因此转向改进可塑性规则，并采用元学习框架在参数化的可塑性规则空间中搜索。

Fig. 1 | Feedback alignment learns poorly in deep models. 在 MNIST 上以在线学习训练 5 层全连接分类网络时，FA、BP 与下文发现的生物合理规则 (bio) 的对比。a 准确率随训练样本数的变化。b FA 传播的教学信号 $\mathbf{e}_\ell^{\mathrm{FA}}$ 与 BP 信号 $\mathbf{e}_\ell^{\mathrm{BP}}$ 之间的夹角 $\alpha_\ell$（度），$\ell=1,2,3,4$。两种方法在输出层使用相同的 $\mathbf{e}_L = \partial\mathcal{L}/\partial\mathbf{z}_L$，故 $\alpha_L=0$。

这里使用的模型是5-layer fc，维度为784-170-130-100-70-47-10，激活函数为softplus函数，即$\sigma(z_{\ell}) = \frac{1}{\beta} \log(1 + \exp(\beta z_{\ell}))$，其中$\beta = 10$。batch size为1，epoch为1。

2.2 Meta-learning to discover interpretable plasticity rules

元学习框架概述：元学习（Meta-learning）旨在学习学习过程本身的某些要素，即“学会如何学习”。本文采用双层学习结构：
- 内层适应循环（Inner Adaptation Loop）：使用参数化的可塑性规则 $\mathcal{F}(\boldsymbol{\theta})$ 更新模型 $f_{\boldsymbol{W}}$ 的权重 $\boldsymbol{W}$；
- 外层元优化循环（Outer Meta-optimization Loop）：更新可塑性规则的元参数 $\boldsymbol{\theta}$。

元训练数据集：包含一组任务 $\{\mathcal{T}_{\varepsilon}\}_{0 \leq \varepsilon \leq \mathcal{E}}$。每个任务 $\mathcal{T}_{\varepsilon}$ 由以下两部分组成（均按类别组织）：
- 训练集 $(\boldsymbol{X}_{\text{train}}^{\varepsilon}, \boldsymbol{Y}_{\text{train}}^{\varepsilon})$：每类 $K$ 个样本，用于内层训练模型 $f_{\boldsymbol{W}}$；
- 查询集 $(\boldsymbol{X}_{\text{query}}^{\varepsilon}, \boldsymbol{Y}_{\text{query}}^{\varepsilon})$：每类 $Q$ 个样本，用于评估并优化元参数 $\boldsymbol{\theta}$。

参数化可塑性规则：给定 $R$ 个候选可塑性项 $\{\mathcal{F}^r\}_{0 \leq r \leq R-1}$，定义可塑性规则为它们的线性组合：

$$\mathcal{F}(\boldsymbol{\theta}) = \sum_{r=0}^{R-1} \theta_r \mathcal{F}^r, \tag{5}$$

其中 $\boldsymbol{\Theta} = \{\theta_r \mid 0 \leq r \leq R-1\}$ 为元参数集合，在所有层之间共享。该规则用于更新前向权重 $\mathbf{W}$。

候选可塑性项（本文）：

$$\mathcal{F}^0 = -\mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T, \tag{14}$$

$$\mathcal{F}^1 = -\mathbf{y}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{15}$$

$$\mathcal{F}^2 = -\mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{16}$$

$$\mathcal{F}^3 = -\boldsymbol{W}_{\ell-1,\ell}, \tag{17}$$

$$\mathcal{F}^4 = -\mathbf{1}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{18}$$

$$\mathcal{F}^5 = -\mathbf{e}_{\ell} \mathbf{1}_{\ell}^T \mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T, \tag{19}$$

$$\mathcal{F}^6 = -\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T \mathbf{W}_{\ell-1,\ell} \mathbf{e}_{\ell-1} \mathbf{e}_{\ell-1}^T, \tag{20}$$

$$\mathcal{F}^7 = -\mathbf{e}_{\ell} \mathbf{y}_{\ell}^T \mathbf{W}_{\ell-1,\ell} \mathbf{e}_{\ell-1} \mathbf{y}_{\ell-1}^T, \tag{21}$$

$$\mathcal{F}^8 = -\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T \mathbf{W}_{\ell-1,\ell}^T \mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T, \tag{22}$$

$$\mathcal{F}^9 = \mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T)\mathbf{W}_{\ell-1,\ell}. \tag{23}$$

元损失与 L1 正则化：若仅用式 (5) 做元学习，得到的规则往往包含过多项，难以解释且机制重叠。因此遵循奥卡姆剃刀，在元损失中引入 L1 惩罚，促使算法选择更稀疏的规则组合：

$$\mathcal{L}_{\text{meta}}(\boldsymbol{\theta}) = \mathcal{L}(f_{\boldsymbol{W}}(\boldsymbol{X}_{\text{query}}), \boldsymbol{Y}_{\text{query}}) + \lambda \parallel \boldsymbol{\theta} \parallel_{1}, \tag{6}$$

其中 $f_{\boldsymbol{W}}$ 为内层适应后得到的模型，$\lambda$ 为预设超参数。权重 $\boldsymbol{W}$ 由 $\mathcal{F}(\boldsymbol{\Theta})$ 更新，元参数 $\boldsymbol{\Theta}$ 由基于梯度的优化器更新。

说明：
- 在线学习：每次内层迭代仅使用一个样本 $(x_{\text{train}}^{(i)}, y_{\text{train}}^{(i)})$ 更新 $\boldsymbol{W}$，即 batch size = 1。
- 每 episode 重新初始化：每个 episode $\varepsilon$ 开始时，$\boldsymbol{W}^{(0)}$ 和 $\boldsymbol{B}$ 重新随机初始化。这消除了学习规则对特定初始权重的依赖，使元学习到的规则适用于从零开始训练的随机初始化网络。
- $\mathcal{F}$ 的输入：可塑性规则 $\mathcal{F}$ 的输入包括突触前/后的激活 $\mathbf{y}_{\ell-1}, \mathbf{y}_\ell$、突触前/后的误差 $\mathbf{e}_{\ell-1}, \mathbf{e}_\ell$，以及当前权重 $\boldsymbol{W}_{\ell-1,\ell}$，均为局部可得量（见 Discussion 对局部性的讨论）。
- 元梯度：通过展开内层适应循环的计算图，对 $\boldsymbol{\Theta}$ 求导得到元梯度，进而更新 $\boldsymbol{\Theta}$。

Fig. 2 | 元学习工作流示意。(1) 从规则池 $\{\mathcal{F}^r\}$ 线性组合得到 $\mathcal{F}(\boldsymbol{\theta})$；(2) 每 episode 从随机初始化出发，用 $\mathcal{F}$ 在线更新 $\boldsymbol{W}$；(3) 在 query 集上计算元损失；(4) 梯度下降更新 $\boldsymbol{\Theta}$，循环至收敛。

2.3 Benchmarking backprop and feedback alignment

首先，作者验证了该框架能否重现BP和FA的性能差异。当仅优化学习率 $\theta$ 时，元学习结果确认了FA在处理5-way分类任务时，经过600个episode后准确率仅约25%，而BP可达70%（见 Fig. 3）。

Fig. 3: FA与BP的元学习基准对比。FA（蓝色）的学习效率显著低于BP（橙色），且误差信号并未对齐。

2.4 Biologically plausible plasticity rules

作者构建了一个包含10个局部可塑性项（Local Plasticity Terms）的候选池 $\mathcal{F}^{pool}$，包括伪梯度项、Hebbian项、Oja规则等。
经过元学习优化，大部分系数 $\theta_r$ 收敛至0，最终保留了三个主要项，构成了 $\mathcal{F}^{\text{bio}}$ 规则：

$$ \mathcal{F}^{\text{bio}}(\boldsymbol{\theta}) = \underbrace{-\theta_0 \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T}_{\text{Pseudo-gradient}} \underbrace{- \theta_2 \mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T}_{\text{Hebbian error}} + \underbrace{\theta_9 (\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T) \mathbf{W}_{\ell-1,\ell})}_{\text{Oja's rule}} \tag{7} $$

这一发现的规则在性能上显著优于纯FA，并接近BP的表现。

Fig. 4: $\mathcal{F}^{pool}$ 的元学习结果。
(a, b) 随着元训练进行，精度和Loss逐渐接近BP。
(d) 只有三项系数（$\theta_0, \theta_2, \theta_9$）非零，其余被L1正则化抑制。

接下来，作者分别分析了 $\mathcal{F}^{\text{eHebb}}$（前两项）和 $\mathcal{F}^{\text{Oja}}$（第一项和第三项）的作用机制。

2.5 Hebbian-style error-based plasticity rule

$$ \mathcal{F}^{\text{eHebb}}(\boldsymbol{\theta}) = -\theta_0 \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T - \theta_2 \mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T \tag{8} $$

机制：$\mathcal{F}^2 = -\mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T$ 这一项利用前后神经元的误差信号进行Hebbian式更新。
效果：虽然精度提升不如完整版 $\mathcal{F}^{\text{bio}}$，但它显著减小了误差信号与真实梯度之间的夹角（见 Fig. 5c）。
原理：数学推导表明（详见论文 Eq. 9），该项使得前向权重 $\mathbf{W}_{\ell-1,\ell}$ 趋向于反馈权重 $\mathbf{B}_{\ell,\ell-1}^T$ 的转置。这建立了一个辅助通道，将反馈连接的信息“写入”前向权重，从而实现了权重的对齐（Alignment），让随机反馈逐渐变得像对称反馈一样有效。

Fig. 5: $\mathcal{F}^{\text{eHebb}}$ 的效果。它通过对齐误差信号（c图角度下降）来提升性能。

Fig. 6: 信息流对比。
(a) 纯FA：信息需通过 $\mathbf{W}$ 的更新经过一次前向传播才能影响上一层。
(b) 引入 $\mathcal{F}^2$：建立了一个直接的通道（②），加速了反馈通路信息向前向权重的传递。

2.6 Oja's rule

$$ \mathcal{F}^{\text{Oja}}(\boldsymbol{\theta}) = -\theta_0 \mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T + \theta_9 (\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T) \mathbf{W}_{\ell-1,\ell}) \tag{10} $$

机制：Oja规则是一种无监督学习规则，用于提取主成分（PCA）。
效果：令人惊讶的是，加入Oja规则显著提升了准确率（Fig. 7a），但几乎没有改善误差信号的对齐情况（Fig. 7c，角度依然很大）。
原理：Oja规则促使权重矩阵正交化（Orthonormality）。通过计算正交性误差 $E_{\mathbf{W}}$（Eq. 11），作者发现 $\mathcal{F}^{\text{Oja}}$ 使得权重矩阵行向量更加正交（Fig. 8）。这改善了前向传播中的特征提取能力，使得隐藏层能学到更好的表示（Embeddings），从而在误差信号不准确的情况下也能提升最终的分类性能。

Fig. 7: $\mathcal{F}^{\text{Oja}}$ 的效果。精度提升显著（a），但并未改善误差对齐（c）。

Fig. 8: 权重正交性误差。$\mathcal{F}^{\text{Oja}}$（c）显著降低了权重的正交性误差，优于BP（d）和FA（a），说明其作用在于改善特征提取。

3. Discussion

本文的主要贡献是利用元学习发现了两种机制，使得在固定随机反馈通路下也能进行有效学习：
1. Alignment（对齐）机制：通过误差及Hebbian项 ($\mathcal{F}^2$)，将前向权重推向反馈权重的转置，重建了类似BP的对称性，改善了误差传播。
2. Feature Extraction（特征提取）机制：通过Oja规则 ($\mathcal{F}^9$)，在无监督的情况下优化前向特征表示（正交化），即便误差信号质量不高，也能提取出有用的特征供输出层分类。

生物合理性探讨：
* 局部性（Locality）：虽然规则涉及 $\mathbf{e}$ 和 $\mathbf{y}$，如果假设激活值和误差信号由同一群神经元（例如通过不同时间窗口或不同的树突部位，如顶树突和基树突）复用编码，则这些规则是局部的。
* 实现可能性：Oja规则和类BP规则在生物学上已有广泛研究。误差Hebbian项可能通过突发脉冲（bursts）和单个脉冲（spikes）的协同作用来实现。

4. Methods

4.1 Models

架构：
- 5层全连接网络 (784-170-130-100-70-47)。
- 激活函数：隐藏层使用 Softplus ($\beta=10$)，输出层使用 Softmax。Softplus是ReLU的平滑版本，便于二阶微分（元优化需要）。
初始化：
- 前向权重 $\mathbf{W}$ 和反馈权重 $\mathbf{B}$ 均使用 Xavier 初始化，且互不相同（非对称）。
- 每个Episode重新初始化，确保学习不依赖于特定的初始权重。

4.2 Candidate learning terms

作者定义了10个候选局部规则 $\mathcal{F}^0 \dots \mathcal{F}^9$。
* $\mathcal{F}^0 = -\mathbf{e}_{\ell} \mathbf{y}_{\ell-1}^T$ (伪梯度项)
* $\mathcal{F}^1 = -\mathbf{y}_{\ell} \mathbf{e}_{\ell-1}^T$
* $\mathcal{F}^2 = -\mathbf{e}_{\ell} \mathbf{e}_{\ell-1}^T$ (Hebbian误差项)
* ...
* $\mathcal{F}^9 = (\mathbf{y}_{\ell} \mathbf{y}_{\ell-1}^T - (\mathbf{y}_{\ell} \mathbf{y}_{\ell}^T) \mathbf{W}_{\ell-1,\ell})$ (Oja规则)

为了保证第一层的更新，定义了合成误差 $\mathbf{e}_0$ (Eq. 24)。

4.3 Meta-training

数据集：EMNIST (47类)。
- Meta-training Tasks：每个Episode随机抽取5个类（5-way classification）。
- 数据量：Support set (训练集) 每类50个样本，共250个样本；Query set (查询集) 每类10个样本。
- 模式：Online Learning (Batch size = 1)。
优化器：
- 外层优化器：ADAM (learning rate $10^{-3}$)。
- 损失函数：Cross-Entropy。
- 元损失：Query set Loss + L1 正则化。
计算：通过展开内层循环的计算图进行微分（meta-gradient）。

5. Availability (资源获取)

Data Availability:
- EMNIST: https://doi.org/10.1109/IJCNN.2017.7966217
- MNIST: http://yann.lecun.com/exdb/mnist
- FashionMNIST: https://github.com/zalandoresearch/fashion-mnist
Code Availability:
- PyTorch实现代码: https://github.com/NeuralDynamicsAndComputing/MetaLearning-Plasticity (Zenodo: 10.5281/zenodo.7706619)