文献精读:Towards biologically plausible DNN optimization: Replacing backpropagation and loss functions with a top-down credit assignment network
目录
1. 文献基本信息
| 字段 | 内容 |
|---|---|
| 文献来源 | Neurocomputing |
| 发表年月 | 2025-12 |
| DOI | 10.1016/j.neucom.2025.132330 |
| 文献链接 | main.pdf |
| 作者 | Jianhui Chen, Tianming Yang, Cheng-Lin Liu, Zuoren Wang (中科院神经科学研究所/自动化研究所) |
| 作者人数 | 4 |
| 被引次数 | N/A (新发表) |
2. 研究背景
-
立项依据 (The Biologically Implausible Trio): 主流深度神经网络 (DNN) 的优化严重依赖于三个核心组件:显式定义的损失函数 (Loss Function)、反向传播算法 (Backpropagation, BP) 和 梯度下降 (Gradient Descent)。 然而,从神经科学的角度来看,这套机制是“生物不可信” (Biologically Implausible) 的:
- 损失函数:大脑中不存在一个显式的、符号化的全局标量损失信号来指导学习。大脑的优化目标往往是隐式的、分布式的。
- 反向传播:BP 要求突触权重对称 (Weight Transport Problem),且需要精确的非局部信号传递,这在生物神经网络中未被观察到。
- 计算机制:BP 涉及复杂的链式法则求导,而生物神经元的更新更多依赖于局部信息 (Hebbian plasticity 等)。
-
解决痛点: 现有的生物可信学习研究(如 Feedback Alignment, Target Propagation)主要集中在替换 BP 这一环,但往往忽略了损失函数本身的生物不可信性。 本论文试图同时解决这两个问题:能否构建一种既不需要显式损失函数,也不需要反向传播算法的全新优化范式?
3. 研究方法
作者提出了一种名为 Top-Down Credit Assignment Network (TDCA-network) 的框架。
-
双网络架构: 系统由两个耦合的网络组成:
- Bottom-up Network (主网络):负责处理任务(如分类、控制),类似于传统的 DNN。
- Top-down Network (TDCA网络):充当“优化器”和“评价者”的角色。
-
替换 BP 和 Loss:
- 无损失函数:不再人为定义 $L(y, y^*)$。TDCA 网络通过监测 Bottom-up 网络的神经元状态和环境反馈(如 Label 或 Reward),直接输出“信用信号” (Credit) 或“参数更新量”。
- 无反向传播:Bottom-up 网络的参数更新不是通过链式法则计算梯度的,而是由 TDCA 网络通过自顶向下的投影直接生成的。
-
元学习视角 (Meta-Learning): TDCA 网络本身的参数是如何确定的?作者利用进化策略 (Evolution Strategies) 或其他外层优化循环来训练 TDCA 网络,使其能够“学会如何指导”Bottom-up 网络的学习。一旦 TDCA 训练完成,它就可以泛化到新的任务中,像大脑的高级皮层指导初级皮层一样工作。
-
脑启发信用扩散 (Brain-inspired Credit Diffusion): 引入了一种受神经调节剂(如多巴胺)扩散启发的机制,允许信用信号在空间上扩散,从而以极低的计算成本实现高效的参数更新,这是传统 BP 无法做到的。
4. 实验结果
-
结果概述:
- 非凸函数优化:TDCA 能够引导网络跳出局部最优,表现优于传统的梯度下降。
- 监督学习 (MNIST/Fashion-MNIST):在标准基准上,TDCA 指导的网络达到了与 BP 相当甚至更好的收敛速度和精度。
- 强化学习:在 RL 任务中,TDCA 展示了比传统 Policy Gradient 更高效的样本利用率。
-
Solid程度:
- 实验覆盖了多种范式(监督、强化、函数拟合),验证了通用性。
- 对比了 BP、Feedback Alignment (FA) 等基线,证明了方法的有效性。
- Ablation studies 验证了 Top-down 结构和信用扩散机制的贡献。
-
对比对象:
- Standard BP:作为性能基准。
- Feedback Alignment (FA):生物可信学习的代表作。
- Evolution Strategies (ES):作为外层优化的对比。
5. 评价
- 创新等级判定:
- 个人认为这篇工作是一篇A+B式的工作,把各种学习方法和生物机制融合在了一起。
- 评价:
- 优点:思想非常前卫。将“优化规则”参数化并由另一个网络执行,极大地增强了系统的灵活性。这种 Top-down 的控制结构非常符合神经科学中关于大脑皮层层级控制的认知。
- 局限性:TDCA 网络本身的训练成本极高(通常需要双层循环优化),这可能限制其在大规模深层网络(如 LLM)上的直接应用。此外,TDCA 的泛化能力(从 MNIST 泛化到 ImageNet)仍需进一步验证。
- 过拟合嫌疑:在小规模数据集上“学会”的优化规则,可能仅仅是记住了特定的梯度方向,能否应对极其复杂的 Loss Landscape 存疑。
6. 借鉴与启发
- 隐式优化目标:未来的 AI 系统可能不需要人类精心设计的 Loss(通常很难设计完美,如 RL 中的 Reward Shaping),而是通过数据驱动的方式“学”出一个优化目标。
- Neuromorphic Computing:该方法不需要全局同步和精确的链式求导,非常适合部署在类脑芯片(如 Spiking Neural Networks 硬件)上,因为这些硬件擅长局部更新而非全局反向传播。
7. 论文关系
-
前置基础 (Anchors):
- Lillicrap et al. (2016): Feedback Alignment (打破了权重对称性限制).
- Bengio et al. series on Biologically Plausible Deep Learning.
- Meta-Learning: 如 "Learning to Learn by Gradient Descent by Gradient Descent" (Andrychowicz et al., 2016).
-
后续改进方向:
- Scalability:如何将 TDCA 扩展到 Transformer 等现代大模型架构。
- Theoretical Guarantee:为 TDCA 生成的更新规则提供数学上的收敛性证明。
8. 方法详述
我们将整个学习系统拆解为三个嵌套的层级:最内层是任务执行,中间层是参数调整(学习),最外层是规则进化(元学习)。
1. 任务执行:Bottom-Up Network (Student)
这是一个标准的深度神经网络,负责将输入 $x$ 映射到输出 $y$。 * 输入: $x \in \mathbb{R}^{d_{in}}$ * 网络参数: $\theta$ (包含所有层 $l=1 \dots L$ 的突触权重 $W_l$) * 前向传播: 第 $l$ 层的隐藏状态 $h_l$ 计算如下: $$ h_l = \sigma(W_l h_{l-1}) $$ 其中 $h_0 = x$,$\sigma$ 是非线性激活函数。最终输出 $\hat{y} = h_L$。
2. 参数调整:Top-Down Credit Assignment (Teacher)
在传统深度学习中,参数 $\theta$ 的更新 $\Delta \theta$ 是由损失函数的负梯度 $-\nabla_\theta \mathcal{L}$ 决定的。 在 TDCA 中,这一角色由一个独立的 Top-Down Network (TD-Net) 取代。
(1) 信用信号生成
TD-Net 是一个参数化函数 $F_\phi$,它观察主网络的状态 $S$(如神经元活性)和环境反馈 $E$(如 Reward 或 Target),并输出信用信号 $C$。 $$ C = F_\phi(S, E) $$ * 参数: $\phi$ (TD-Net 自身的权重) * 输入: $S = \{h_1, \dots, h_L\}$, $E = \{y^*, r\}$
(2) 权重更新规则 (The "Learning Rule")
主网络的权重更新遵循 Hebbian-like 规则,结合了局部突触前活性 ($h_{l-1}$) 和 Top-down 传来的全局信用信号 ($C_l$): $$ \Delta W_l = \eta \cdot C_l \cdot h_{l-1}^T $$ 这里 $C_l$ 是 TD-Net 投射到第 $l$ 层的调节因子。TD-Net 实际上是在动态地生成每一层的“局部误差梯度”,而不需要通过链式法则从输出层反向计算。
(3) 信用扩散机制 (Credit Diffusion)
为了进一步模拟生物神经调质(如多巴胺)的体积传输特性,TD-Net 输出的信用信号 $C$ 并不是精确对应到每个神经元,而是在网络空间中扩散的标量场。 假设信用浓度 $c(x, t)$ 随时间演化: $$ \frac{\partial c}{\partial t} = D \nabla^2 c - \lambda c + I_{source}(x, t; \phi) $$ * $I_{source}$: 由 TD-Net 在特定位置释放的初始信号。 * $D \nabla^2 c$: 扩散项,使信号平滑覆盖邻近区域。 * $-\lambda c$: 衰减项。
这种机制允许 TD-Net 仅通过稀疏的连接(Sparse Projection)就能有效地调节一大片神经元群体的可塑性。
3. 规则进化:Meta-Learning via Evolution Strategies (Evolution)
最关键的问题是:TD-Net 是如何学会生成正确的信用信号的? TD-Net 的参数 $\phi$ 不是通过梯度下降训练的(那会陷入“谁来教老师”的无限递归),而是通过 进化策略 (Evolution Strategies, ES) 在漫长的进化过程中习得的。
优化目标
我们希望找到一组 $\phi$,使得由它指导的主网络在训练 $T$ 步后的任务表现 $R$ 最好。 $$ J(\phi) = \mathbb{E}_{\theta_0, \text{task}} \left[ R(\theta_T) \right] \quad \text{where } \theta_{t+1} = \theta_t + \text{TDCA}_\phi(\dots) $$
进化算法 (NES / OpenAI-ES)
我们通过引入随机扰动来估计 $\phi$ 的梯度方向: 1. 变异: 生成 $N$ 个扰动样本 $\epsilon_i \sim \mathcal{N}(0, I)$。 $$ \phi_i = \phi + \sigma \epsilon_i $$ 2. 评估 (Inner Loop): 对于每个 $\phi_i$,初始化一个主网络 $\theta_0$,用 $\phi_i$ 指导它学习任务。经过一段时间后,测试主网络的性能得分 $R_i$。 3. 更新 (Outer Loop): 根据得分加权,更新 $\phi$ 向高分方向移动。 $$ \phi \leftarrow \phi + \alpha \frac{1}{N \sigma} \sum_{i=1}^N R_i \epsilon_i $$
一旦进化完成,$\phi$ 就被固定下来(类似于人类大脑的先天结构和可塑性规则)。面对新任务时,TD-Net 能够根据 $E$ 和 $S$ 快速生成有效的 $\Delta W$,指导主网络迅速收敛,实现 Few-Shot Learning 或快速适应,而无需重新进行漫长的进化过程。