文献精读：Towards biologically plausible DNN optimization: Replacing backpropagation and loss functions with a top-down credit assignment network

1. 文献基本信息

字段	内容
文献来源	Neurocomputing
发表年月	2025-12
DOI	10.1016/j.neucom.2025.132330
文献链接	main.pdf
作者	Jianhui Chen, Tianming Yang, Cheng-Lin Liu, Zuoren Wang (中科院神经科学研究所/自动化研究所)
作者人数	4
被引次数	N/A (新发表)

2. 研究背景

立项依据 (The Biologically Implausible Trio)：主流深度神经网络 (DNN) 的优化严重依赖于三个核心组件：显式定义的损失函数 (Loss Function)、反向传播算法 (Backpropagation, BP) 和 梯度下降 (Gradient Descent)。然而，从神经科学的角度来看，这套机制是“生物不可信” (Biologically Implausible) 的：
1. 损失函数：大脑中不存在一个显式的、符号化的全局标量损失信号来指导学习。大脑的优化目标往往是隐式的、分布式的。
2. 反向传播：BP 要求突触权重对称 (Weight Transport Problem)，且需要精确的非局部信号传递，这在生物神经网络中未被观察到。
3. 计算机制：BP 涉及复杂的链式法则求导，而生物神经元的更新更多依赖于局部信息 (Hebbian plasticity 等)。
解决痛点：现有的生物可信学习研究（如 Feedback Alignment, Target Propagation）主要集中在替换 BP 这一环，但往往忽略了损失函数本身的生物不可信性。本论文试图同时解决这两个问题：能否构建一种既不需要显式损失函数，也不需要反向传播算法的全新优化范式？

3. 研究方法

作者提出了一种名为 Top-Down Credit Assignment Network (TDCA-network) 的框架。

双网络架构：系统由两个耦合的网络组成：
- Bottom-up Network (主网络)：负责处理任务（如分类、控制），类似于传统的 DNN。
- Top-down Network (TDCA网络)：充当“优化器”和“评价者”的角色。
替换 BP 和 Loss：
- 无损失函数：不再人为定义 $L(y, y^*)$。TDCA 网络通过监测 Bottom-up 网络的神经元状态和环境反馈（如 Label 或 Reward），直接输出“信用信号” (Credit) 或“参数更新量”。
- 无反向传播：Bottom-up 网络的参数更新不是通过链式法则计算梯度的，而是由 TDCA 网络通过自顶向下的投影直接生成的。
元学习视角 (Meta-Learning)： TDCA 网络本身的参数是如何确定的？作者利用进化策略 (Evolution Strategies) 或其他外层优化循环来训练 TDCA 网络，使其能够“学会如何指导”Bottom-up 网络的学习。一旦 TDCA 训练完成，它就可以泛化到新的任务中，像大脑的高级皮层指导初级皮层一样工作。
脑启发信用扩散 (Brain-inspired Credit Diffusion)：引入了一种受神经调节剂（如多巴胺）扩散启发的机制，允许信用信号在空间上扩散，从而以极低的计算成本实现高效的参数更新，这是传统 BP 无法做到的。

4. 实验结果

结果概述：
- 非凸函数优化：TDCA 能够引导网络跳出局部最优，表现优于传统的梯度下降。
- 监督学习 (MNIST/Fashion-MNIST)：在标准基准上，TDCA 指导的网络达到了与 BP 相当甚至更好的收敛速度和精度。
- 强化学习：在 RL 任务中，TDCA 展示了比传统 Policy Gradient 更高效的样本利用率。
Solid程度：
- 实验覆盖了多种范式（监督、强化、函数拟合），验证了通用性。
- 对比了 BP、Feedback Alignment (FA) 等基线，证明了方法的有效性。
- Ablation studies 验证了 Top-down 结构和信用扩散机制的贡献。
对比对象：
- Standard BP：作为性能基准。
- Feedback Alignment (FA)：生物可信学习的代表作。
- Evolution Strategies (ES)：作为外层优化的对比。

5. 评价

创新等级判定：
- 个人认为这篇工作是一篇A+B式的工作，把各种学习方法和生物机制融合在了一起。
评价：
- 优点：思想非常前卫。将“优化规则”参数化并由另一个网络执行，极大地增强了系统的灵活性。这种 Top-down 的控制结构非常符合神经科学中关于大脑皮层层级控制的认知。
- 局限性：TDCA 网络本身的训练成本极高（通常需要双层循环优化），这可能限制其在大规模深层网络（如 LLM）上的直接应用。此外，TDCA 的泛化能力（从 MNIST 泛化到 ImageNet）仍需进一步验证。
- 过拟合嫌疑：在小规模数据集上“学会”的优化规则，可能仅仅是记住了特定的梯度方向，能否应对极其复杂的 Loss Landscape 存疑。

6. 借鉴与启发

隐式优化目标：未来的 AI 系统可能不需要人类精心设计的 Loss（通常很难设计完美，如 RL 中的 Reward Shaping），而是通过数据驱动的方式“学”出一个优化目标。
Neuromorphic Computing：该方法不需要全局同步和精确的链式求导，非常适合部署在类脑芯片（如 Spiking Neural Networks 硬件）上，因为这些硬件擅长局部更新而非全局反向传播。

7. 论文关系

前置基础 (Anchors)：
- Lillicrap et al. (2016): Feedback Alignment (打破了权重对称性限制).
- Bengio et al. series on Biologically Plausible Deep Learning.
- Meta-Learning: 如 "Learning to Learn by Gradient Descent by Gradient Descent" (Andrychowicz et al., 2016).
后续改进方向：
- Scalability：如何将 TDCA 扩展到 Transformer 等现代大模型架构。
- Theoretical Guarantee：为 TDCA 生成的更新规则提供数学上的收敛性证明。

8. 方法详述

我们将整个学习系统拆解为三个嵌套的层级：最内层是任务执行，中间层是参数调整（学习），最外层是规则进化（元学习）。

1. 任务执行：Bottom-Up Network (Student)

这是一个标准的深度神经网络，负责将输入 $x$ 映射到输出 $y$。 * 输入: $x \in \mathbb{R}^{d_{in}}$ * 网络参数: $\theta$ (包含所有层 $l=1 \dots L$ 的突触权重 $W_l$) * 前向传播: 第 $l$ 层的隐藏状态 $h_l$ 计算如下： $$ h_l = \sigma(W_l h_{l-1}) $$ 其中 $h_0 = x$，$\sigma$ 是非线性激活函数。最终输出 $\hat{y} = h_L$。

2. 参数调整：Top-Down Credit Assignment (Teacher)

在传统深度学习中，参数 $\theta$ 的更新 $\Delta \theta$ 是由损失函数的负梯度 $-\nabla_\theta \mathcal{L}$ 决定的。在 TDCA 中，这一角色由一个独立的 Top-Down Network (TD-Net) 取代。

(1) 信用信号生成

TD-Net 是一个参数化函数 $F_\phi$，它观察主网络的状态 $S$（如神经元活性）和环境反馈 $E$（如 Reward 或 Target），并输出信用信号 $C$。 $$ C = F_\phi(S, E) $$ * 参数: $\phi$ (TD-Net 自身的权重) * 输入: $S = \{h_1, \dots, h_L\}$， $E = \{y^*, r\}$

(2) 权重更新规则 (The "Learning Rule")

主网络的权重更新遵循 Hebbian-like 规则，结合了局部突触前活性 ($h_{l-1}$) 和 Top-down 传来的全局信用信号 ($C_l$)： $$ \Delta W_l = \eta \cdot C_l \cdot h_{l-1}^T $$ 这里 $C_l$ 是 TD-Net 投射到第 $l$ 层的调节因子。TD-Net 实际上是在动态地生成每一层的“局部误差梯度”，而不需要通过链式法则从输出层反向计算。

(3) 信用扩散机制 (Credit Diffusion)

为了进一步模拟生物神经调质（如多巴胺）的体积传输特性，TD-Net 输出的信用信号 $C$ 并不是精确对应到每个神经元，而是在网络空间中扩散的标量场。假设信用浓度 $c(x, t)$ 随时间演化： $$ \frac{\partial c}{\partial t} = D \nabla^2 c - \lambda c + I_{source}(x, t; \phi) $$ * $I_{source}$: 由 TD-Net 在特定位置释放的初始信号。 * $D \nabla^2 c$: 扩散项，使信号平滑覆盖邻近区域。 * $-\lambda c$: 衰减项。

这种机制允许 TD-Net 仅通过稀疏的连接（Sparse Projection）就能有效地调节一大片神经元群体的可塑性。

3. 规则进化：Meta-Learning via Evolution Strategies (Evolution)

最关键的问题是：TD-Net 是如何学会生成正确的信用信号的？ TD-Net 的参数 $\phi$ 不是通过梯度下降训练的（那会陷入“谁来教老师”的无限递归），而是通过 进化策略 (Evolution Strategies, ES) 在漫长的进化过程中习得的。

优化目标

我们希望找到一组 $\phi$，使得由它指导的主网络在训练 $T$ 步后的任务表现 $R$ 最好。 $$ J(\phi) = \mathbb{E}_{\theta_0, \text{task}} \left[ R(\theta_T) \right] \quad \text{where } \theta_{t+1} = \theta_t + \text{TDCA}_\phi(\dots) $$

进化算法 (NES / OpenAI-ES)

我们通过引入随机扰动来估计 $\phi$ 的梯度方向： 1. 变异: 生成 $N$ 个扰动样本 $\epsilon_i \sim \mathcal{N}(0, I)$。 $$ \phi_i = \phi + \sigma \epsilon_i $$ 2. 评估 (Inner Loop): 对于每个 $\phi_i$，初始化一个主网络 $\theta_0$，用 $\phi_i$ 指导它学习任务。经过一段时间后，测试主网络的性能得分 $R_i$。 3. 更新 (Outer Loop): 根据得分加权，更新 $\phi$ 向高分方向移动。 $$ \phi \leftarrow \phi + \alpha \frac{1}{N \sigma} \sum_{i=1}^N R_i \epsilon_i $$

一旦进化完成，$\phi$ 就被固定下来（类似于人类大脑的先天结构和可塑性规则）。面对新任务时，TD-Net 能够根据 $E$ 和 $S$ 快速生成有效的 $\Delta W$，指导主网络迅速收敛，实现 Few-Shot Learning 或快速适应，而无需重新进行漫长的进化过程。

Main