Scaling Equilibrium Propagation to Deeper Neural Network Architectures
作者: Sankar Vinayak E P, Gopalakrishnan Srinivasan (Indian Institute of Technology, Madras)
来源: 2509.26003v1
摘要 (Abstract)
均衡传播 (Equilibrium Propagation, EP) 是一种生物学上合理的反向传播 (Backpropagation, BP) 替代方案。由于其梯度计算的局部性以及使用收敛 RNN 达到平衡状态的特性,EP 非常适合在神经形态硬件上实现。然而,先前的研究主要局限于浅层网络(仅包含全连接层或少量卷积层),其准确率与 BP 训练的同等规模网络相比有显著差距。
本文提出了 Hopfield-Resnet 架构,通过在 Hopfield 网络中引入残差(或跳跃)连接,并结合 clipped ReLU 激活函数,成功训练了比以往深近两倍的网络(>12层)。例如,Hopfield-Resnet13 在 CIFAR-10 上达到了 93.92% 的准确率,比之前的最佳结果高出约 3.5%,且与使用 BP 训练的 Resnet13 性能相当。
1. 引言 (Introduction)
反向传播 (BP) 虽然是深度学习的核心,但因其非局部梯度计算和对全局信息的依赖,被认为在生物学上是不合理的。均衡传播 (EP) 作为一种基于能量的对比赫布学习 (Contrastive Hebbian Learning) 规则,通过两个阶段(自由相和弱钳制相)的动力学演化来计算梯度,解决了信用分配问题。
EP 的主要局限在于:尽管其梯度估计在理论上逼近 BPTT (Backpropagation Through Time),但实际性能往往不如 BP。这主要是由于“微小扰动” (infinitesimally small nudging) 的理论要求在实际操作中引入了估计偏差和噪声。虽然 Centered EP (CEP) 等方法通过改进梯度估计缓解了这一问题,但它们仍主要在浅层网络上验证。本文通过架构改进解决了 EP 的可扩展性问题。
2. 相关工作与数学背景 (Related Works & Background)
A. 静态收敛 RNN (Static Convergent RNN)
EP 使用收敛 RNN,网络状态 $s$ 随时间演化至稳态 $s_*$。给定输入 $x$,网络参数 $\theta$,能量函数 $\Phi$,状态演化遵循:
$$s_{t+1} = \frac{\partial \Phi(x, s_t, \theta)}{\partial s} \tag{1}$$
平衡状态 $s_*$ 满足:
$$s_* = \frac{\partial \Phi(x, s_*, \theta)}{\partial s} \tag{2}$$
B. 均衡传播 (Equilibrium Propagation)
EP 的梯度计算分为两个阶段:
1. 自由相 (Free Phase): 输入固定为 $x$,网络演化至稳态 $s_*$。
2. 弱钳制相 (Weakly Clamped Phase): 输出层受到与损失函数 $L$ 梯度成比例的微弱钳制(由 $\beta$ 控制)。动力学方程变为:
$$s_{t+1} = \frac{\partial \Phi(x, s_t, \theta)}{\partial s} + \beta \frac{\partial L(x, s_t, \theta)}{\partial s} \tag{3}$$
网络收敛至新的稳态 $s_*^{\beta}$。
损失函数关于参数的梯度可由能量函数的梯度差近似:
$$-\frac{\partial L}{\partial \theta} = \frac{1}{\beta} \left[ \frac{\partial \Phi(x, s_*^{\beta}, \theta)}{\partial \theta} - \frac{\partial \Phi(x, s_*, \theta)}{\partial \theta} \right] \tag{4}$$
C. 中心化均衡传播 (Centered Equilibrium Propagation, CEP)
为了减少 $\beta \neq 0$ 带来的偏差,CEP 使用二阶近似,通过 $+\beta$ 和 $-\beta$ 两个方向的扰动来估计梯度:
$$-\frac{\partial L}{\partial \theta} = \frac{1}{2\beta} \left[ \frac{\partial \Phi(x, s_*^{+\beta}, \theta)}{\partial \theta} - \frac{\partial \Phi(x, s_*^{-\beta}, \theta)}{\partial \theta} \right] \tag{5}$$
D. 卷积网络的 EP (Convolutional Network with EP)
对于包含卷积层的网络,能量函数 $\Phi$ 定义为:
$$\Phi(\theta, \{s^n\}) = \sum_{n=0}^{N_{\text{conv}}-1} s^{n+1} \cdot \mathcal{P}(w_{n+1} \star s^n) + \sum_{n=N_{\text{conv}}}^{N_{\text{tot}}-1} s^{n+1} w_{n+1} s^n \tag{7}$$
其中 $\mathcal{P}$ 是池化操作,$\star$ 是卷积。
层级状态演化方程为:
$$s_{t+1}^{n} = \sigma \left( \mathcal{P}\left(w_n \star s_t^{n-1}\right) + \tilde{w}_{n+1} \star \mathcal{P}^{-1}\left(s_t^{n+1}\right) \right), \quad 1 < n < N^{\text{conv}} \tag{8}$$
$$s_{t+1}^{n} = \sigma \left( w_n s_t^{n-1} + w_{n+1}^{\top} s_t^{n+1} \right), \quad N^{\text{conv}} < n < N^{\text{tot}} \tag{9}$$
其中 $\tilde{w}$ 是转置卷积的翻转核,$\mathcal{P}^{-1}$ 是逆池化。
3. 提出的架构 (Proposed Architecture)
本文的核心贡献是解决了 EP 在深层网络上的扩展性瓶颈。
A. 扩展深度:残差 Hopfield 网络 (Hopfield-Resnet)
传统的收敛 RNN 随着深度增加,达到稳态所需时间变长,训练变得困难。作者引入了 Hopfield-Resnet,在 Hopfield 网络中加入残差连接。
-
架构设计: 如图 1 (原文 Fig. 1) 所示,基本的 Hopfield-Resnet 块包含三个卷积操作:
- 主路径: 两个使用 $3 \times 3$ 核的卷积层。
- 跳跃连接 (Skip Connection): 一个使用 $1 \times 1$ 核的卷积层,直接连接前一块的最终状态与当前块的最终状态。
- 实验表明,使用 $1 \times 1$ 卷积的跳跃连接优于直接的恒等连接。
-
修正的状态更新方程:
引入残差连接后,神经元状态的更新不再仅依赖于相邻层,而是需要对所有直接交互的路径求和。
对于 Hopfield-Resnet 块内的层 ($1 \le n \le N^{\text{res}}$):
$$s_{t+1}^{n} = \sigma \Big( \sum_{i \in pre(n)} \mathcal{P}(w_i \star s_t^i) + \sum_{j \in post(n)} \tilde{w}_j \star \mathcal{P}^{-1}(s_t^j) \Big) \tag{10}$$
对于全连接层部分 ($N^{\text{res}} < n < N$):
$$s_{t+1}^{n} = \sigma \left( \sum_{i \in pre(n)} w_i \cdot s_t^i + \sum_{j \in post(n)} w_j^{\top} \cdot s_t^j \right) \tag{11}$$
其中 $pre(n)$ 和 $post(n)$ 分别表示与状态 $n$ 直接交互的前驱和后继状态集合。由于是非前馈网络,能量计算中双向使用对称权重矩阵。
B. 替代激活函数:Clipped ReLU (ReLU$\alpha$)
先前的 EP 工作常使用 Hard-Sigmoid 或全纯函数。作者发现这些函数限制了深层网络的准确率。
本文提出使用 Clipped ReLU (ReLU$\alpha$),将输出限制在 $[0, \alpha]$ 范围内:
* 限制能量函数值,防止能量爆炸。
* 实验中采用 $\alpha=6$ (ReLU6)。
* 相比于 Hard-Sigmoid (ReLU1),ReLU6 显著提高了深层网络的性能。
4. 实验结果 (Results)
性能对比
在 CIFAR-10, CIFAR-100, Fashion-MNIST 上验证:
* Hopfield-Resnet13 (12层卷积+1层全连接) 显著优于之前的 VGG5 (4层卷积+1层全连接) 基线。
* 与 BP 训练的同构网络相比,性能差距大幅缩小。
* CIFAR-10: Hopfield-Resnet13 (93.92%) vs BP-Resnet13 (93.78%)。
* CIFAR-100: Hopfield-Resnet13 (71.05%) vs BP-Resnet13 (75.12%)。
消融研究 (Ablation Studies)
- 跳跃连接的重要性: 如图 2 (原文 Fig. 2) 所示,没有跳跃连接时,深层网络的训练损失几乎不下降;引入跳跃连接后,CEP 算法能成功训练模型。
- 激活函数: ReLU6 的表现优于 ReLU1 (Hard-Sigmoid) 和随机初始化的 ReLU$\alpha$。
权重分布 (Weight Distribution)
- 差异: CEP 训练的权重分布通常比 BP 更窄,且绝对值更小。
- 稀疏性: 随着网络加深,CEP 训练的层中权重趋向于零。跳跃连接层中的权重稀疏性较低,有助于缓解深层网络的训练困难。
5. 结论 (Conclusion)
本文通过引入 Hopfield-Resnet 架构(残差连接)和 ReLU$\alpha$ 激活函数,成功将均衡传播扩展到了更深层的网络,并在标准数据集上取得了接近 BP 的性能。这为在神经形态硬件上实现高效、生物合理的片上学习提供了新的可能性。未来的挑战在于开发针对 EP 计算特性的专用硬件和算法优化,以减少训练时间。