Scaling Equilibrium Propagation to Deeper Neural Network Architectures

作者: Sankar Vinayak E P, Gopalakrishnan Srinivasan (Indian Institute of Technology, Madras)
来源: 2509.26003v1

摘要 (Abstract)

均衡传播 (Equilibrium Propagation, EP) 是一种生物学上合理的反向传播 (Backpropagation, BP) 替代方案。由于其梯度计算的局部性以及使用收敛 RNN 达到平衡状态的特性，EP 非常适合在神经形态硬件上实现。然而，先前的研究主要局限于浅层网络（仅包含全连接层或少量卷积层），其准确率与 BP 训练的同等规模网络相比有显著差距。

本文提出了 Hopfield-Resnet 架构，通过在 Hopfield 网络中引入残差（或跳跃）连接，并结合 clipped ReLU 激活函数，成功训练了比以往深近两倍的网络（>12层）。例如，Hopfield-Resnet13 在 CIFAR-10 上达到了 93.92% 的准确率，比之前的最佳结果高出约 3.5%，且与使用 BP 训练的 Resnet13 性能相当。

1. 引言 (Introduction)

反向传播 (BP) 虽然是深度学习的核心，但因其非局部梯度计算和对全局信息的依赖，被认为在生物学上是不合理的。均衡传播 (EP) 作为一种基于能量的对比赫布学习 (Contrastive Hebbian Learning) 规则，通过两个阶段（自由相和弱钳制相）的动力学演化来计算梯度，解决了信用分配问题。

EP 的主要局限在于：尽管其梯度估计在理论上逼近 BPTT (Backpropagation Through Time)，但实际性能往往不如 BP。这主要是由于“微小扰动” (infinitesimally small nudging) 的理论要求在实际操作中引入了估计偏差和噪声。虽然 Centered EP (CEP) 等方法通过改进梯度估计缓解了这一问题，但它们仍主要在浅层网络上验证。本文通过架构改进解决了 EP 的可扩展性问题。

A. 静态收敛 RNN (Static Convergent RNN)

EP 使用收敛 RNN，网络状态 $s$ 随时间演化至稳态 $s_*$。给定输入 $x$，网络参数 $\theta$，能量函数 $\Phi$，状态演化遵循：
$$s_{t+1} = \frac{\partial \Phi(x, s_t, \theta)}{\partial s} \tag{1}$$
平衡状态 $s_*$ 满足：
$$s_* = \frac{\partial \Phi(x, s_*, \theta)}{\partial s} \tag{2}$$

B. 均衡传播 (Equilibrium Propagation)

EP 的梯度计算分为两个阶段：
1. 自由相 (Free Phase): 输入固定为 $x$，网络演化至稳态 $s_*$。
2. 弱钳制相 (Weakly Clamped Phase): 输出层受到与损失函数 $L$ 梯度成比例的微弱钳制（由 $\beta$ 控制）。动力学方程变为：
$$s_{t+1} = \frac{\partial \Phi(x, s_t, \theta)}{\partial s} + \beta \frac{\partial L(x, s_t, \theta)}{\partial s} \tag{3}$$
网络收敛至新的稳态 $s_*^{\beta}$。

损失函数关于参数的梯度可由能量函数的梯度差近似：
$$-\frac{\partial L}{\partial \theta} = \frac{1}{\beta} \left[ \frac{\partial \Phi(x, s_*^{\beta}, \theta)}{\partial \theta} - \frac{\partial \Phi(x, s_*, \theta)}{\partial \theta} \right] \tag{4}$$

C. 中心化均衡传播 (Centered Equilibrium Propagation, CEP)

为了减少 $\beta \neq 0$ 带来的偏差，CEP 使用二阶近似，通过 $+\beta$ 和 $-\beta$ 两个方向的扰动来估计梯度：
$$-\frac{\partial L}{\partial \theta} = \frac{1}{2\beta} \left[ \frac{\partial \Phi(x, s_*^{+\beta}, \theta)}{\partial \theta} - \frac{\partial \Phi(x, s_*^{-\beta}, \theta)}{\partial \theta} \right] \tag{5}$$

D. 卷积网络的 EP (Convolutional Network with EP)

对于包含卷积层的网络，能量函数 $\Phi$ 定义为：
$$\Phi(\theta, \{s^n\}) = \sum_{n=0}^{N_{\text{conv}}-1} s^{n+1} \cdot \mathcal{P}(w_{n+1} \star s^n) + \sum_{n=N_{\text{conv}}}^{N_{\text{tot}}-1} s^{n+1} w_{n+1} s^n \tag{7}$$
其中 $\mathcal{P}$ 是池化操作，$\star$ 是卷积。

层级状态演化方程为：
$$s_{t+1}^{n} = \sigma \left( \mathcal{P}\left(w_n \star s_t^{n-1}\right) + \tilde{w}_{n+1} \star \mathcal{P}^{-1}\left(s_t^{n+1}\right) \right), \quad 1 < n < N^{\text{conv}} \tag{8}$$
$$s_{t+1}^{n} = \sigma \left( w_n s_t^{n-1} + w_{n+1}^{\top} s_t^{n+1} \right), \quad N^{\text{conv}} < n < N^{\text{tot}} \tag{9}$$
其中 $\tilde{w}$ 是转置卷积的翻转核，$\mathcal{P}^{-1}$ 是逆池化。

3. 提出的架构 (Proposed Architecture)

本文的核心贡献是解决了 EP 在深层网络上的扩展性瓶颈。

A. 扩展深度：残差 Hopfield 网络 (Hopfield-Resnet)

传统的收敛 RNN 随着深度增加，达到稳态所需时间变长，训练变得困难。作者引入了 Hopfield-Resnet，在 Hopfield 网络中加入残差连接。

架构设计: 如图 1 (原文 Fig. 1) 所示，基本的 Hopfield-Resnet 块包含三个卷积操作：
- 主路径: 两个使用 $3 \times 3$ 核的卷积层。
- 跳跃连接 (Skip Connection): 一个使用 $1 \times 1$ 核的卷积层，直接连接前一块的最终状态与当前块的最终状态。
- 实验表明，使用 $1 \times 1$ 卷积的跳跃连接优于直接的恒等连接。
修正的状态更新方程:
引入残差连接后，神经元状态的更新不再仅依赖于相邻层，而是需要对所有直接交互的路径求和。
对于 Hopfield-Resnet 块内的层 ($1 \le n \le N^{\text{res}}$):
$$s_{t+1}^{n} = \sigma \Big( \sum_{i \in pre(n)} \mathcal{P}(w_i \star s_t^i) + \sum_{j \in post(n)} \tilde{w}_j \star \mathcal{P}^{-1}(s_t^j) \Big) \tag{10}$$
对于全连接层部分 ($N^{\text{res}} < n < N$):
$$s_{t+1}^{n} = \sigma \left( \sum_{i \in pre(n)} w_i \cdot s_t^i + \sum_{j \in post(n)} w_j^{\top} \cdot s_t^j \right) \tag{11}$$
其中 $pre(n)$ 和 $post(n)$ 分别表示与状态 $n$ 直接交互的前驱和后继状态集合。由于是非前馈网络，能量计算中双向使用对称权重矩阵。

B. 替代激活函数：Clipped ReLU (ReLU$\alpha$)

先前的 EP 工作常使用 Hard-Sigmoid 或全纯函数。作者发现这些函数限制了深层网络的准确率。
本文提出使用 Clipped ReLU (ReLU$\alpha$)，将输出限制在 $[0, \alpha]$ 范围内：
* 限制能量函数值，防止能量爆炸。
* 实验中采用 $\alpha=6$ (ReLU6)。
* 相比于 Hard-Sigmoid (ReLU1)，ReLU6 显著提高了深层网络的性能。

4. 实验结果 (Results)

性能对比

在 CIFAR-10, CIFAR-100, Fashion-MNIST 上验证：
* Hopfield-Resnet13 (12层卷积+1层全连接) 显著优于之前的 VGG5 (4层卷积+1层全连接) 基线。
* 与 BP 训练的同构网络相比，性能差距大幅缩小。
* CIFAR-10: Hopfield-Resnet13 (93.92%) vs BP-Resnet13 (93.78%)。
* CIFAR-100: Hopfield-Resnet13 (71.05%) vs BP-Resnet13 (75.12%)。

消融研究 (Ablation Studies)

跳跃连接的重要性: 如图 2 (原文 Fig. 2) 所示，没有跳跃连接时，深层网络的训练损失几乎不下降；引入跳跃连接后，CEP 算法能成功训练模型。
激活函数: ReLU6 的表现优于 ReLU1 (Hard-Sigmoid) 和随机初始化的 ReLU$\alpha$。

权重分布 (Weight Distribution)

差异: CEP 训练的权重分布通常比 BP 更窄，且绝对值更小。
稀疏性: 随着网络加深，CEP 训练的层中权重趋向于零。跳跃连接层中的权重稀疏性较低，有助于缓解深层网络的训练困难。

5. 结论 (Conclusion)

本文通过引入 Hopfield-Resnet 架构（残差连接）和 ReLU$\alpha$ 激活函数，成功将均衡传播扩展到了更深层的网络，并在标准数据集上取得了接近 BP 的性能。这为在神经形态硬件上实现高效、生物合理的片上学习提供了新的可能性。未来的挑战在于开发针对 EP 计算特性的专用硬件和算法优化，以减少训练时间。