Main - MathMonkeyLiu

Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects

作者：Rajesh P. N. Rao， Dana H. Ballard 日期：1999-01

核心思想：层级预测编码（predictive coding）解释视觉皮层的非经典感受野（extra-classical RF）效应，尤其是端抑制（endstopping / end-inhibition）：
- top-down携带“对低层神经活动的预测”；
- bottom-up携带“预测残差/误差（prediction error）”；
- extra-classical 效应可视作预测误差单元（error-detecting neurons）的响应特性。

研究问题与贡献

要解释的现象

端抑制：神经元对某个“最优长度”的线段反应最强；当线段延伸到经典感受野（classical RF）之外时，反应被抑制甚至消失。
更广义的周围调制/非经典效应：中心与周围一致（如同向）时常见抑制；中心-周围不一致（如交叉取向）时可能出现增强。

论文的解释框架

系统学习自然图像统计，尽量“解释掉/预测掉”可预测成分，只把不可预测的残差往上传。于是： - 若周围上下文使中心刺激更可预测 → 误差变小 → 误差神经元反应减弱（表现为端抑制/周围抑制）。
- 若刺激偏离自然统计（如孤立短条、中心-周围不一致）→ 预测差 → 误差变大 → 误差神经元反应增强。

模型总览：层级 Predictive Estimator（PE）

模型是层级网络（文中示例为 3 层）：最低层为图像像素；每一层由若干 PE 模块组成。每个 PE 模块可抽象为三类变量/神经元群： - 表示/隐变量神经元：维护当前对隐原因（causes）的估计 $ \mathbf{r} $
- 反馈预测通路：把 $ f(\mathbf{U}\mathbf{r}) $ 作为对下层的预测发回去
- 误差神经元：计算并向上送出“实际 - 预测”的残差（或对 $\mathbf{r}$ 的 top-down 残差）

层级结构带来的关键性质：高层的有效感受野更大，因此高层更能利用周围上下文来预测中心。

Methods

1）层级生成模型（Hierarchical generative model）

将图像表示为向量 $\mathbf{I}\in\mathbb{R}^{n}$，假设由隐原因 $\mathbf{r}\in\mathbb{R}^{k}$ 通过字典矩阵 $\mathbf{U}\in\mathbb{R}^{n\times k}$ 生成，并加上噪声：

$$ \mathbf{I} = f(\mathbf{U}\mathbf{r}) + \mathbf{n},\qquad \mathbf{n}\sim \mathcal{N}(\mathbf{0},\sigma^2 \mathbf{I}) $$

$\mathbf{U}$ 的列 $\mathbf{U}_i$ 可视作“基向量/字典原子”；$\mathbf{r}$ 是系数（神经活动）。
$f(\cdot)$ 为逐元素非线性（论文中使用过 $f(x)=x$ 与 $f(x)=\tanh(x)$）。

层级化假设：低层原因 $\mathbf{r}$ 也由更高层原因 $\mathbf{r}^h$ 预测：

$$ \mathbf{r} = \mathbf{r}^{td} + \mathbf{n}^{td},\qquad \mathbf{r}^{td} = f(\mathbf{U}^h \mathbf{r}^h),\qquad \mathbf{n}^{td}\sim \mathcal{N}(\mathbf{0},\sigma_{td}^2 \mathbf{I}) $$

其中 $\mathbf{r}^{td}$ 是 top-down 预测，$\mathbf{r}-\mathbf{r}^{td}$ 是 top-down 残差。

论文提到可加入时间预测：$\mathbf{r}(t+1)= f(\mathbf{V}\mathbf{r}(t))+\mathbf{m}$（本文仿真主要用静态图像）。

2）优化目标：MAP / 负对数后验（Energy function）

在高斯噪声假设下，对 $\mathbf{r}$ 做最大后验（MAP）等价于最小化：

$$ E_1 = \frac{1}{\sigma^2}\|\mathbf{I}-f(\mathbf{U}\mathbf{r})\|_2^2 \frac{1}{\sigma_{td}^2}\|\mathbf{r}-\mathbf{r}^{td}\|_2^2 $$

再加上先验（正则）得到总目标：

$$ E = E_1 + g(\mathbf{r}) + h(\mathbf{U}) $$

论文给了两类典型先验： - 高斯先验（L2 正则）
$$ g(\mathbf{r})=\alpha\sum_i r_i^2,\qquad h(\mathbf{U})=\lambda\sum_{i,j}U_{ij}^2 $$ - 稀疏/峰度先验（鼓励稀疏表示）
$$ g(\mathbf{r})=\alpha\sum_i \log(1+r_i^2) $$

信息论视角：最小化 $E$ 可理解为最小描述长度（MDL）：在“重建误差”与“活动/参数编码成本”间折中。

3）推断：对 $\mathbf{r}$ 的梯度下降 → 神经动力学

对 $\mathbf{r}$ 做连续时间梯度下降：

$$ \frac{d\mathbf{r}}{dt} = -\frac{k_1}{2}\frac{\partial E}{\partial \mathbf{r}} = \frac{k_1}{\sigma^2}\mathbf{U}^{T}\mathbf{J}_f^{T}(\mathbf{x})\big(\mathbf{I}-f(\mathbf{U}\mathbf{r})\big) + \frac{k_1}{\sigma_{td}^2}(\mathbf{r}^{td}-\mathbf{r}) - \frac{k_1}{2}g'(\mathbf{r}) $$

其中 $\mathbf{x}=\mathbf{U}\mathbf{r}$，$\mathbf{J}_f(\mathbf{x})=\partial f/\partial \mathbf{x}$（逐元素非线性时为对角矩阵）： - 若 $f(x)=x$，则 $\mathbf{J}_f=\mathbf{I}$；
- 若 $f(x)=\tanh(x)$，则 $f'(x)=1-\tanh^2(x)$（逐元素）。

按计算意义拆解： - $\mathbf{e}^{bu}=\mathbf{I}-f(\mathbf{U}\mathbf{r})$：bottom-up 预测残差（像素/低层误差）。
- $\mathbf{e}^{td}=\mathbf{r}^{td}-\mathbf{r}$：top-down 残差（高层对本层原因活动的预测误差）。
- 第一项 $\mathbf{U}^T\mathbf{J}_f^T\mathbf{e}^{bu}$：把残差“反投影”回原因空间，用于修正 $\mathbf{r}$。
- 最后一项 $-g'(\mathbf{r})$：先验驱动的收缩/稀疏化。

这解释了论文的神经实现直觉：网络只需局部量（权重、活动、误差信号）即可更新。

4）线性情形的等价形式：侧向抑制（lateral interactions）

当 $f(x)=x$ 时，上式可改写为（论文 Eq. 8）：

$$ \frac{d\mathbf{r}}{dt} = \frac{k_1}{\sigma^2}\mathbf{U}^{T}\mathbf{I} + \frac{k_1}{\sigma_{td}^2}(\mathbf{r}^{td}-\mathbf{r}) - \frac{k_1}{2}g'(\mathbf{r}) - \frac{k_1}{\sigma^2}\mathbf{W}\mathbf{r}, \qquad \mathbf{W}=\mathbf{U}^T\mathbf{U} $$

最后一项 $-\mathbf{W}\mathbf{r}$ 可解释为表示神经元间的复发侧向抑制/竞争，从而把部分反馈效应“等价改写”为侧向交互（论文也在 Discussion 提到与 divisive normalization 的联系）。

5）学习：对 $\mathbf{U}$ 的梯度下降 → 误差驱动的 Hebbian 更新

对 $\mathbf{U}$ 做梯度下降（论文 Eq. 9）：

$$ \frac{d\mathbf{U}}{dt} = -\frac{k_2}{2}\frac{\partial E}{\partial \mathbf{U}} = \frac{k_2}{\sigma^2}\mathbf{J}_f^{T}(\mathbf{x})\big(\mathbf{I}-f(\mathbf{U}\mathbf{r})\big)\mathbf{r}^T - k_2\lambda \mathbf{U} $$

要点： - 更新量 $\propto \mathbf{e}^{bu}\mathbf{r}^T$：误差 × 活动 的 Hebbian-like 学习；
- top-down 项不显式出现在 $\partial E/\partial \mathbf{U}$ 中，但通过影响 $\mathbf{r}$ 的推断间接影响学习。

实验

感受野学习（自然图像训练）

用自然图像 patch 训练层级网络，最小化 $E$。
学到的 $\mathbf{U}$ 在第 1 层呈现类似 V1 simple cell 的定向边缘/条纹 RF；更高层呈现组合特征。

端抑制实验（线性生成模型）

3 个相邻的 level-1 模块分别处理重叠的 $16\times 16$ patch，汇聚到 level-2（有效 RF 约 $16\times 26$）。
每个 level-1 模块包含：前馈单元（编码 $\mathbf{U}^T$）、维护 $\mathbf{r}$ 的单元、误差探测单元（向上送出 $\mathbf{r}-\mathbf{r}^{td}$）、以及向下产生预测 $\mathbf{U}\mathbf{r}$ 的反馈单元。
给出一组参数示例：$k_1, \sigma^2, \sigma_{td}^2, \alpha, \lambda, k_2$ 等（学习率 $k_2$ 随训练逐步衰减）。

其它 extra-classical 实验（非线性 + 稀疏先验）

使用 $f(x)=\tanh(x)$，并采用稀疏峰度先验 $g(\mathbf{r})=\alpha\sum_i\log(1+r_i^2)$，可得到更局部的 RF。
9 个 level-1 模块按 3×3 重叠布局覆盖更大局部区域，输出汇聚到一个 level-2 模块。

主要结果与解释

1）端抑制：长条更“可预测” → 误差更小

短条（孤立）：高层难以仅凭局部预测 → 残差大 → 误差神经元强响应。
长条（延伸到周围）：自然图像中沿主导取向存在较长距离正相关，周围提供上下文使预测更准 → 残差趋近 0 → 误差神经元响应下降（端抑制）。

论文还用自然图像统计验证：沿主导取向方向的相关可延伸到较远距离（对应文中 Fig. 4 的论证）。

2）切断反馈会显著消除端抑制（模型因果检验）

去掉 level-2→level-1 的反馈后，原本端抑制的神经元对更长条仍持续响应。
定量结果：定义端抑制为 >50% 抑制时，禁用反馈使端抑制在大多数误差单元中消失（论文报告约 82% 的端抑制被消除）。

3）其它 extra-classical 效应：同向周围抑制、交叉取向增强、纹理 pop-out

中心与周围同向/同纹理：更可预测 → 残差下降 → 抑制增强。
中心-周围取向对比：违背自然统计 → 残差上升 → 相对增强（论文给出具体增强比例示例）。
纹理刺激：对“pop-out”类刺激残差更大，模型误差神经元响应也更大，与生理数据趋势一致。

生物学映射与可检验预测

功能性映射

extra-classical 效应显著的细胞群可解释为误差探测/残差编码单元。
论文特别强调：投射到更高视觉区的浅层 2/3神经元是潜在候选（其前馈通路承担误差上送）。

可检验预测

若抑制高层到低层的反馈（例如 V2→V1），应当解除低层对周围一致刺激的抑制：端抑制减弱、同向周围抑制减弱。
extra-classical 效应的出现可能具有较晚的时间成分（与反馈回路时间尺度一致）。

总结

整篇论文可以压缩为：视觉皮层在最小化能量函数

$$ E = \frac{1}{\sigma^2}\|\mathbf{I}-f(\mathbf{U}\mathbf{r})\|_2^2 \frac{1}{\sigma_{td}^2}\|\mathbf{r}-\mathbf{r}^{td}\|_2^2 g(\mathbf{r})+h(\mathbf{U}) $$

其中 $\mathbf{r}$ 通过误差驱动的动力学（梯度下降）被推断，$\mathbf{U}$ 通过“残差×活动”的 Hebbian-like 规则被学习；端抑制等非经典感受野效应则自然涌现为：当周围使中心更可预测时，预测误差更小。

评价

这是一个非常有趣的工作，虽然我不认为这篇文章里面提出来的方法真的是大脑的运行机制。但是也依然有一定的启发性。

这篇文章主要的思想是把反向传播限制在了中间的层中，不需要全局的反向传播，只需要单独一层的传播。但是反向传播的痛点是无法做到真正的异步更新，这篇文章提出来的方法虽然很有启发性，但是并没有解决这个问题。所以还没有达到替代反向传播的程度。