Home Learn Blog Game
Learn Papers

Course Structure

Predictive coding in the visual cortex a functional interpretation of some extra-classical receptive-field effects.pdf Predictive Coding In The Visual Cortex A Functional Interpretation Of Some Extra-Classical Receptive-Field Effects Main Remark

Main

5 min read Updated recently

Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects

作者:Rajesh P. N. Rao, Dana H. Ballard 日期:1999-01

核心思想:层级预测编码(predictive coding)解释视觉皮层的非经典感受野(extra-classical RF)效应,尤其是端抑制(endstopping / end-inhibition):
- top-down携带“对低层神经活动的预测”;
- bottom-up携带“预测残差/误差(prediction error)”;
- extra-classical 效应可视作预测误差单元(error-detecting neurons)的响应特性。


研究问题与贡献

要解释的现象

  • 端抑制:神经元对某个“最优长度”的线段反应最强;当线段延伸到经典感受野(classical RF)之外时,反应被抑制甚至消失。
  • 更广义的周围调制/非经典效应:中心与周围一致(如同向)时常见抑制;中心-周围不一致(如交叉取向)时可能出现增强。

论文的解释框架

系统学习自然图像统计,尽量“解释掉/预测掉”可预测成分,只把不可预测的残差往上传。于是: - 若周围上下文使中心刺激更可预测 → 误差变小 → 误差神经元反应减弱(表现为端抑制/周围抑制)。
- 若刺激偏离自然统计(如孤立短条、中心-周围不一致)→ 预测差 → 误差变大 → 误差神经元反应增强。


模型总览:层级 Predictive Estimator(PE)

模型是层级网络(文中示例为 3 层):最低层为图像像素;每一层由若干 PE 模块组成。每个 PE 模块可抽象为三类变量/神经元群: - 表示/隐变量神经元:维护当前对隐原因(causes)的估计 $ \mathbf{r} $
- 反馈预测通路:把 $ f(\mathbf{U}\mathbf{r}) $ 作为对下层的预测发回去
- 误差神经元:计算并向上送出“实际 - 预测”的残差(或对 $\mathbf{r}$ 的 top-down 残差)

层级结构带来的关键性质:高层的有效感受野更大,因此高层更能利用周围上下文来预测中心。


Methods

1)层级生成模型(Hierarchical generative model)

将图像表示为向量 $\mathbf{I}\in\mathbb{R}^{n}$,假设由隐原因 $\mathbf{r}\in\mathbb{R}^{k}$ 通过字典矩阵 $\mathbf{U}\in\mathbb{R}^{n\times k}$ 生成,并加上噪声:

$$ \mathbf{I} = f(\mathbf{U}\mathbf{r}) + \mathbf{n},\qquad \mathbf{n}\sim \mathcal{N}(\mathbf{0},\sigma^2 \mathbf{I}) $$

  • $\mathbf{U}$ 的列 $\mathbf{U}_i$ 可视作“基向量/字典原子”;$\mathbf{r}$ 是系数(神经活动)。
  • $f(\cdot)$ 为逐元素非线性(论文中使用过 $f(x)=x$ 与 $f(x)=\tanh(x)$)。

层级化假设:低层原因 $\mathbf{r}$ 也由更高层原因 $\mathbf{r}^h$ 预测:

$$ \mathbf{r} = \mathbf{r}^{td} + \mathbf{n}^{td},\qquad \mathbf{r}^{td} = f(\mathbf{U}^h \mathbf{r}^h),\qquad \mathbf{n}^{td}\sim \mathcal{N}(\mathbf{0},\sigma_{td}^2 \mathbf{I}) $$

其中 $\mathbf{r}^{td}$ 是 top-down 预测,$\mathbf{r}-\mathbf{r}^{td}$ 是 top-down 残差。

论文提到可加入时间预测:$\mathbf{r}(t+1)= f(\mathbf{V}\mathbf{r}(t))+\mathbf{m}$(本文仿真主要用静态图像)。

2)优化目标:MAP / 负对数后验(Energy function)

在高斯噪声假设下,对 $\mathbf{r}$ 做最大后验(MAP)等价于最小化:

$$ E_1 = \frac{1}{\sigma^2}\|\mathbf{I}-f(\mathbf{U}\mathbf{r})\|_2^2 \frac{1}{\sigma_{td}^2}\|\mathbf{r}-\mathbf{r}^{td}\|_2^2 $$

再加上先验(正则)得到总目标:

$$ E = E_1 + g(\mathbf{r}) + h(\mathbf{U}) $$

论文给了两类典型先验: - 高斯先验(L2 正则)
$$ g(\mathbf{r})=\alpha\sum_i r_i^2,\qquad h(\mathbf{U})=\lambda\sum_{i,j}U_{ij}^2 $$ - 稀疏/峰度先验(鼓励稀疏表示)
$$ g(\mathbf{r})=\alpha\sum_i \log(1+r_i^2) $$

信息论视角:最小化 $E$ 可理解为最小描述长度(MDL):在“重建误差”与“活动/参数编码成本”间折中。

3)推断:对 $\mathbf{r}$ 的梯度下降 → 神经动力学

对 $\mathbf{r}$ 做连续时间梯度下降:

$$ \frac{d\mathbf{r}}{dt} = -\frac{k_1}{2}\frac{\partial E}{\partial \mathbf{r}} = \frac{k_1}{\sigma^2}\mathbf{U}^{T}\mathbf{J}_f^{T}(\mathbf{x})\big(\mathbf{I}-f(\mathbf{U}\mathbf{r})\big) + \frac{k_1}{\sigma_{td}^2}(\mathbf{r}^{td}-\mathbf{r}) - \frac{k_1}{2}g'(\mathbf{r}) $$

其中 $\mathbf{x}=\mathbf{U}\mathbf{r}$,$\mathbf{J}_f(\mathbf{x})=\partial f/\partial \mathbf{x}$(逐元素非线性时为对角矩阵): - 若 $f(x)=x$,则 $\mathbf{J}_f=\mathbf{I}$;
- 若 $f(x)=\tanh(x)$,则 $f'(x)=1-\tanh^2(x)$(逐元素)。

按计算意义拆解: - $\mathbf{e}^{bu}=\mathbf{I}-f(\mathbf{U}\mathbf{r})$:bottom-up 预测残差(像素/低层误差)。
- $\mathbf{e}^{td}=\mathbf{r}^{td}-\mathbf{r}$:top-down 残差(高层对本层原因活动的预测误差)。
- 第一项 $\mathbf{U}^T\mathbf{J}_f^T\mathbf{e}^{bu}$:把残差“反投影”回原因空间,用于修正 $\mathbf{r}$。
- 最后一项 $-g'(\mathbf{r})$:先验驱动的收缩/稀疏化。

这解释了论文的神经实现直觉:网络只需局部量(权重、活动、误差信号)即可更新。

4)线性情形的等价形式:侧向抑制(lateral interactions)

当 $f(x)=x$ 时,上式可改写为(论文 Eq. 8):

$$ \frac{d\mathbf{r}}{dt} = \frac{k_1}{\sigma^2}\mathbf{U}^{T}\mathbf{I} + \frac{k_1}{\sigma_{td}^2}(\mathbf{r}^{td}-\mathbf{r}) - \frac{k_1}{2}g'(\mathbf{r}) - \frac{k_1}{\sigma^2}\mathbf{W}\mathbf{r}, \qquad \mathbf{W}=\mathbf{U}^T\mathbf{U} $$

最后一项 $-\mathbf{W}\mathbf{r}$ 可解释为表示神经元间的复发侧向抑制/竞争,从而把部分反馈效应“等价改写”为侧向交互(论文也在 Discussion 提到与 divisive normalization 的联系)。

5)学习:对 $\mathbf{U}$ 的梯度下降 → 误差驱动的 Hebbian 更新

对 $\mathbf{U}$ 做梯度下降(论文 Eq. 9):

$$ \frac{d\mathbf{U}}{dt} = -\frac{k_2}{2}\frac{\partial E}{\partial \mathbf{U}} = \frac{k_2}{\sigma^2}\mathbf{J}_f^{T}(\mathbf{x})\big(\mathbf{I}-f(\mathbf{U}\mathbf{r})\big)\mathbf{r}^T - k_2\lambda \mathbf{U} $$

要点: - 更新量 $\propto \mathbf{e}^{bu}\mathbf{r}^T$:误差 × 活动 的 Hebbian-like 学习;
- top-down 项不显式出现在 $\partial E/\partial \mathbf{U}$ 中,但通过影响 $\mathbf{r}$ 的推断间接影响学习。


实验

感受野学习(自然图像训练)

  • 用自然图像 patch 训练层级网络,最小化 $E$。
  • 学到的 $\mathbf{U}$ 在第 1 层呈现类似 V1 simple cell 的定向边缘/条纹 RF;更高层呈现组合特征。

端抑制实验(线性生成模型)

  • 3 个相邻的 level-1 模块分别处理重叠的 $16\times 16$ patch,汇聚到 level-2(有效 RF 约 $16\times 26$)。
  • 每个 level-1 模块包含:前馈单元(编码 $\mathbf{U}^T$)、维护 $\mathbf{r}$ 的单元、误差探测单元(向上送出 $\mathbf{r}-\mathbf{r}^{td}$)、以及向下产生预测 $\mathbf{U}\mathbf{r}$ 的反馈单元。
  • 给出一组参数示例:$k_1, \sigma^2, \sigma_{td}^2, \alpha, \lambda, k_2$ 等(学习率 $k_2$ 随训练逐步衰减)。

其它 extra-classical 实验(非线性 + 稀疏先验)

  • 使用 $f(x)=\tanh(x)$,并采用稀疏峰度先验 $g(\mathbf{r})=\alpha\sum_i\log(1+r_i^2)$,可得到更局部的 RF。
  • 9 个 level-1 模块按 3×3 重叠布局覆盖更大局部区域,输出汇聚到一个 level-2 模块。

主要结果与解释

1)端抑制:长条更“可预测” → 误差更小

  • 短条(孤立):高层难以仅凭局部预测 → 残差大 → 误差神经元强响应。
  • 长条(延伸到周围):自然图像中沿主导取向存在较长距离正相关,周围提供上下文使预测更准 → 残差趋近 0 → 误差神经元响应下降(端抑制)。

论文还用自然图像统计验证:沿主导取向方向的相关可延伸到较远距离(对应文中 Fig. 4 的论证)。

2)切断反馈会显著消除端抑制(模型因果检验)

  • 去掉 level-2→level-1 的反馈后,原本端抑制的神经元对更长条仍持续响应。
  • 定量结果:定义端抑制为 >50% 抑制时,禁用反馈使端抑制在大多数误差单元中消失(论文报告约 82% 的端抑制被消除)。

3)其它 extra-classical 效应:同向周围抑制、交叉取向增强、纹理 pop-out

  • 中心与周围同向/同纹理:更可预测 → 残差下降 → 抑制增强。
  • 中心-周围取向对比:违背自然统计 → 残差上升 → 相对增强(论文给出具体增强比例示例)。
  • 纹理刺激:对“pop-out”类刺激残差更大,模型误差神经元响应也更大,与生理数据趋势一致。

生物学映射与可检验预测

功能性映射

  • extra-classical 效应显著的细胞群可解释为误差探测/残差编码单元。
  • 论文特别强调:投射到更高视觉区的浅层 2/3神经元是潜在候选(其前馈通路承担误差上送)。

可检验预测

  • 若抑制高层到低层的反馈(例如 V2→V1),应当解除低层对周围一致刺激的抑制:端抑制减弱、同向周围抑制减弱。
  • extra-classical 效应的出现可能具有较晚的时间成分(与反馈回路时间尺度一致)。

总结

整篇论文可以压缩为:视觉皮层在最小化能量函数

$$ E = \frac{1}{\sigma^2}\|\mathbf{I}-f(\mathbf{U}\mathbf{r})\|_2^2 \frac{1}{\sigma_{td}^2}\|\mathbf{r}-\mathbf{r}^{td}\|_2^2 g(\mathbf{r})+h(\mathbf{U}) $$

其中 $\mathbf{r}$ 通过误差驱动的动力学(梯度下降)被推断,$\mathbf{U}$ 通过“残差×活动”的 Hebbian-like 规则被学习;端抑制等非经典感受野效应则自然涌现为:当周围使中心更可预测时,预测误差更小。

评价

这是一个非常有趣的工作,虽然我不认为这篇文章里面提出来的方法真的是大脑的运行机制。但是也依然有一定的启发性。

这篇文章主要的思想是把反向传播限制在了中间的层中,不需要全局的反向传播,只需要单独一层的传播。但是反向传播的痛点是无法做到真正的异步更新,这篇文章提出来的方法虽然很有启发性,但是并没有解决这个问题。所以还没有达到替代反向传播的程度。

Previous Save as PDF

© 2025 Ze Rui Liu. Built for the future of AGI.

Classic Beige
Deep Space
Electric Violet
Matcha Latte
Cherry Blossom
High Contrast
Inter Sans
Playfair Serif
JetBrains Mono
Patrick Hand