Home Learn Blog Game
Learn Papers

Course Structure

Original PDF Main

Main

5 min read Updated recently

文献精读:Towards biologically plausible DNN optimization: Replacing backpropagation and loss functions with a top-down credit assignment network

目录

  • 1. 文献基本信息
  • 2. 研究背景
  • 3. 研究方法
  • 4. 实验结果
  • 5. 评价
  • 6. 借鉴与启发
  • 7. 论文关系
  • 8. 方法详述

1. 文献基本信息

字段 内容
文献来源 Neurocomputing
发表年月 2025-12
DOI 10.1016/j.neucom.2025.132330
文献链接 main.pdf
作者 Jianhui Chen, Tianming Yang, Cheng-Lin Liu, Zuoren Wang (中科院神经科学研究所/自动化研究所)
作者人数 4
被引次数 N/A (新发表)

2. 研究背景

  • 立项依据 (The Biologically Implausible Trio): 主流深度神经网络 (DNN) 的优化严重依赖于三个核心组件:显式定义的损失函数 (Loss Function)、反向传播算法 (Backpropagation, BP) 和 梯度下降 (Gradient Descent)。 然而,从神经科学的角度来看,这套机制是“生物不可信” (Biologically Implausible) 的:

    1. 损失函数:大脑中不存在一个显式的、符号化的全局标量损失信号来指导学习。大脑的优化目标往往是隐式的、分布式的。
    2. 反向传播:BP 要求突触权重对称 (Weight Transport Problem),且需要精确的非局部信号传递,这在生物神经网络中未被观察到。
    3. 计算机制:BP 涉及复杂的链式法则求导,而生物神经元的更新更多依赖于局部信息 (Hebbian plasticity 等)。
  • 解决痛点: 现有的生物可信学习研究(如 Feedback Alignment, Target Propagation)主要集中在替换 BP 这一环,但往往忽略了损失函数本身的生物不可信性。 本论文试图同时解决这两个问题:能否构建一种既不需要显式损失函数,也不需要反向传播算法的全新优化范式?

3. 研究方法

作者提出了一种名为 Top-Down Credit Assignment Network (TDCA-network) 的框架。

  1. 双网络架构: 系统由两个耦合的网络组成:

    • Bottom-up Network (主网络):负责处理任务(如分类、控制),类似于传统的 DNN。
    • Top-down Network (TDCA网络):充当“优化器”和“评价者”的角色。
  2. 替换 BP 和 Loss:

    • 无损失函数:不再人为定义 $L(y, y^*)$。TDCA 网络通过监测 Bottom-up 网络的神经元状态和环境反馈(如 Label 或 Reward),直接输出“信用信号” (Credit) 或“参数更新量”。
    • 无反向传播:Bottom-up 网络的参数更新不是通过链式法则计算梯度的,而是由 TDCA 网络通过自顶向下的投影直接生成的。
  3. 元学习视角 (Meta-Learning): TDCA 网络本身的参数是如何确定的?作者利用进化策略 (Evolution Strategies) 或其他外层优化循环来训练 TDCA 网络,使其能够“学会如何指导”Bottom-up 网络的学习。一旦 TDCA 训练完成,它就可以泛化到新的任务中,像大脑的高级皮层指导初级皮层一样工作。

  4. 脑启发信用扩散 (Brain-inspired Credit Diffusion): 引入了一种受神经调节剂(如多巴胺)扩散启发的机制,允许信用信号在空间上扩散,从而以极低的计算成本实现高效的参数更新,这是传统 BP 无法做到的。

4. 实验结果

  • 结果概述:

    • 非凸函数优化:TDCA 能够引导网络跳出局部最优,表现优于传统的梯度下降。
    • 监督学习 (MNIST/Fashion-MNIST):在标准基准上,TDCA 指导的网络达到了与 BP 相当甚至更好的收敛速度和精度。
    • 强化学习:在 RL 任务中,TDCA 展示了比传统 Policy Gradient 更高效的样本利用率。
  • Solid程度:

    • 实验覆盖了多种范式(监督、强化、函数拟合),验证了通用性。
    • 对比了 BP、Feedback Alignment (FA) 等基线,证明了方法的有效性。
    • Ablation studies 验证了 Top-down 结构和信用扩散机制的贡献。
  • 对比对象:

    • Standard BP:作为性能基准。
    • Feedback Alignment (FA):生物可信学习的代表作。
    • Evolution Strategies (ES):作为外层优化的对比。

5. 评价

  • 创新等级判定:
    • 个人认为这篇工作是一篇A+B式的工作,把各种学习方法和生物机制融合在了一起。
  • 评价:
    • 优点:思想非常前卫。将“优化规则”参数化并由另一个网络执行,极大地增强了系统的灵活性。这种 Top-down 的控制结构非常符合神经科学中关于大脑皮层层级控制的认知。
    • 局限性:TDCA 网络本身的训练成本极高(通常需要双层循环优化),这可能限制其在大规模深层网络(如 LLM)上的直接应用。此外,TDCA 的泛化能力(从 MNIST 泛化到 ImageNet)仍需进一步验证。
    • 过拟合嫌疑:在小规模数据集上“学会”的优化规则,可能仅仅是记住了特定的梯度方向,能否应对极其复杂的 Loss Landscape 存疑。

6. 借鉴与启发

  • 隐式优化目标:未来的 AI 系统可能不需要人类精心设计的 Loss(通常很难设计完美,如 RL 中的 Reward Shaping),而是通过数据驱动的方式“学”出一个优化目标。
  • Neuromorphic Computing:该方法不需要全局同步和精确的链式求导,非常适合部署在类脑芯片(如 Spiking Neural Networks 硬件)上,因为这些硬件擅长局部更新而非全局反向传播。

7. 论文关系

  • 前置基础 (Anchors):

    • Lillicrap et al. (2016): Feedback Alignment (打破了权重对称性限制).
    • Bengio et al. series on Biologically Plausible Deep Learning.
    • Meta-Learning: 如 "Learning to Learn by Gradient Descent by Gradient Descent" (Andrychowicz et al., 2016).
  • 后续改进方向:

    • Scalability:如何将 TDCA 扩展到 Transformer 等现代大模型架构。
    • Theoretical Guarantee:为 TDCA 生成的更新规则提供数学上的收敛性证明。

8. 方法详述

我们将整个学习系统拆解为三个嵌套的层级:最内层是任务执行,中间层是参数调整(学习),最外层是规则进化(元学习)。

1. 任务执行:Bottom-Up Network (Student)

这是一个标准的深度神经网络,负责将输入 $x$ 映射到输出 $y$。 * 输入: $x \in \mathbb{R}^{d_{in}}$ * 网络参数: $\theta$ (包含所有层 $l=1 \dots L$ 的突触权重 $W_l$) * 前向传播: 第 $l$ 层的隐藏状态 $h_l$ 计算如下: $$ h_l = \sigma(W_l h_{l-1}) $$ 其中 $h_0 = x$,$\sigma$ 是非线性激活函数。最终输出 $\hat{y} = h_L$。

2. 参数调整:Top-Down Credit Assignment (Teacher)

在传统深度学习中,参数 $\theta$ 的更新 $\Delta \theta$ 是由损失函数的负梯度 $-\nabla_\theta \mathcal{L}$ 决定的。 在 TDCA 中,这一角色由一个独立的 Top-Down Network (TD-Net) 取代。

(1) 信用信号生成

TD-Net 是一个参数化函数 $F_\phi$,它观察主网络的状态 $S$(如神经元活性)和环境反馈 $E$(如 Reward 或 Target),并输出信用信号 $C$。 $$ C = F_\phi(S, E) $$ * 参数: $\phi$ (TD-Net 自身的权重) * 输入: $S = \{h_1, \dots, h_L\}$, $E = \{y^*, r\}$

(2) 权重更新规则 (The "Learning Rule")

主网络的权重更新遵循 Hebbian-like 规则,结合了局部突触前活性 ($h_{l-1}$) 和 Top-down 传来的全局信用信号 ($C_l$): $$ \Delta W_l = \eta \cdot C_l \cdot h_{l-1}^T $$ 这里 $C_l$ 是 TD-Net 投射到第 $l$ 层的调节因子。TD-Net 实际上是在动态地生成每一层的“局部误差梯度”,而不需要通过链式法则从输出层反向计算。

(3) 信用扩散机制 (Credit Diffusion)

为了进一步模拟生物神经调质(如多巴胺)的体积传输特性,TD-Net 输出的信用信号 $C$ 并不是精确对应到每个神经元,而是在网络空间中扩散的标量场。 假设信用浓度 $c(x, t)$ 随时间演化: $$ \frac{\partial c}{\partial t} = D \nabla^2 c - \lambda c + I_{source}(x, t; \phi) $$ * $I_{source}$: 由 TD-Net 在特定位置释放的初始信号。 * $D \nabla^2 c$: 扩散项,使信号平滑覆盖邻近区域。 * $-\lambda c$: 衰减项。

这种机制允许 TD-Net 仅通过稀疏的连接(Sparse Projection)就能有效地调节一大片神经元群体的可塑性。

3. 规则进化:Meta-Learning via Evolution Strategies (Evolution)

最关键的问题是:TD-Net 是如何学会生成正确的信用信号的? TD-Net 的参数 $\phi$ 不是通过梯度下降训练的(那会陷入“谁来教老师”的无限递归),而是通过 进化策略 (Evolution Strategies, ES) 在漫长的进化过程中习得的。

优化目标

我们希望找到一组 $\phi$,使得由它指导的主网络在训练 $T$ 步后的任务表现 $R$ 最好。 $$ J(\phi) = \mathbb{E}_{\theta_0, \text{task}} \left[ R(\theta_T) \right] \quad \text{where } \theta_{t+1} = \theta_t + \text{TDCA}_\phi(\dots) $$

进化算法 (NES / OpenAI-ES)

我们通过引入随机扰动来估计 $\phi$ 的梯度方向: 1. 变异: 生成 $N$ 个扰动样本 $\epsilon_i \sim \mathcal{N}(0, I)$。 $$ \phi_i = \phi + \sigma \epsilon_i $$ 2. 评估 (Inner Loop): 对于每个 $\phi_i$,初始化一个主网络 $\theta_0$,用 $\phi_i$ 指导它学习任务。经过一段时间后,测试主网络的性能得分 $R_i$。 3. 更新 (Outer Loop): 根据得分加权,更新 $\phi$ 向高分方向移动。 $$ \phi \leftarrow \phi + \alpha \frac{1}{N \sigma} \sum_{i=1}^N R_i \epsilon_i $$

一旦进化完成,$\phi$ 就被固定下来(类似于人类大脑的先天结构和可塑性规则)。面对新任务时,TD-Net 能够根据 $E$ 和 $S$ 快速生成有效的 $\Delta W$,指导主网络迅速收敛,实现 Few-Shot Learning 或快速适应,而无需重新进行漫长的进化过程。

Previous Save as PDF

© 2025 Ze Rui Liu. Built for the future of AGI.

Classic Beige
Deep Space
Electric Violet
Matcha Latte
Cherry Blossom
High Contrast
Inter Sans
Playfair Serif
JetBrains Mono
Patrick Hand