Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects
作者:Rajesh P. N. Rao, Dana H. Ballard 日期:1999-01
核心思想:层级预测编码(predictive coding)解释视觉皮层的非经典感受野(extra-classical RF)效应,尤其是端抑制(endstopping / end-inhibition):
- top-down携带“对低层神经活动的预测”;
- bottom-up携带“预测残差/误差(prediction error)”;
- extra-classical 效应可视作预测误差单元(error-detecting neurons)的响应特性。
研究问题与贡献
要解释的现象
- 端抑制:神经元对某个“最优长度”的线段反应最强;当线段延伸到经典感受野(classical RF)之外时,反应被抑制甚至消失。
- 更广义的周围调制/非经典效应:中心与周围一致(如同向)时常见抑制;中心-周围不一致(如交叉取向)时可能出现增强。
论文的解释框架
系统学习自然图像统计,尽量“解释掉/预测掉”可预测成分,只把不可预测的残差往上传。于是:
- 若周围上下文使中心刺激更可预测 → 误差变小 → 误差神经元反应减弱(表现为端抑制/周围抑制)。
- 若刺激偏离自然统计(如孤立短条、中心-周围不一致)→ 预测差 → 误差变大 → 误差神经元反应增强。
模型总览:层级 Predictive Estimator(PE)
模型是层级网络(文中示例为 3 层):最低层为图像像素;每一层由若干 PE 模块组成。每个 PE 模块可抽象为三类变量/神经元群:
- 表示/隐变量神经元:维护当前对隐原因(causes)的估计 $ \mathbf{r} $
- 反馈预测通路:把 $ f(\mathbf{U}\mathbf{r}) $ 作为对下层的预测发回去
- 误差神经元:计算并向上送出“实际 - 预测”的残差(或对 $\mathbf{r}$ 的 top-down 残差)
层级结构带来的关键性质:高层的有效感受野更大,因此高层更能利用周围上下文来预测中心。
Methods
1)层级生成模型(Hierarchical generative model)
将图像表示为向量 $\mathbf{I}\in\mathbb{R}^{n}$,假设由隐原因 $\mathbf{r}\in\mathbb{R}^{k}$ 通过字典矩阵 $\mathbf{U}\in\mathbb{R}^{n\times k}$ 生成,并加上噪声:
$$ \mathbf{I} = f(\mathbf{U}\mathbf{r}) + \mathbf{n},\qquad \mathbf{n}\sim \mathcal{N}(\mathbf{0},\sigma^2 \mathbf{I}) $$
- $\mathbf{U}$ 的列 $\mathbf{U}_i$ 可视作“基向量/字典原子”;$\mathbf{r}$ 是系数(神经活动)。
- $f(\cdot)$ 为逐元素非线性(论文中使用过 $f(x)=x$ 与 $f(x)=\tanh(x)$)。
层级化假设:低层原因 $\mathbf{r}$ 也由更高层原因 $\mathbf{r}^h$ 预测:
$$ \mathbf{r} = \mathbf{r}^{td} + \mathbf{n}^{td},\qquad \mathbf{r}^{td} = f(\mathbf{U}^h \mathbf{r}^h),\qquad \mathbf{n}^{td}\sim \mathcal{N}(\mathbf{0},\sigma_{td}^2 \mathbf{I}) $$
其中 $\mathbf{r}^{td}$ 是 top-down 预测,$\mathbf{r}-\mathbf{r}^{td}$ 是 top-down 残差。
论文提到可加入时间预测:$\mathbf{r}(t+1)= f(\mathbf{V}\mathbf{r}(t))+\mathbf{m}$(本文仿真主要用静态图像)。
2)优化目标:MAP / 负对数后验(Energy function)
在高斯噪声假设下,对 $\mathbf{r}$ 做最大后验(MAP)等价于最小化:
$$ E_1 = \frac{1}{\sigma^2}\|\mathbf{I}-f(\mathbf{U}\mathbf{r})\|_2^2 \frac{1}{\sigma_{td}^2}\|\mathbf{r}-\mathbf{r}^{td}\|_2^2 $$
再加上先验(正则)得到总目标:
$$ E = E_1 + g(\mathbf{r}) + h(\mathbf{U}) $$
论文给了两类典型先验:
- 高斯先验(L2 正则)
$$
g(\mathbf{r})=\alpha\sum_i r_i^2,\qquad
h(\mathbf{U})=\lambda\sum_{i,j}U_{ij}^2
$$
- 稀疏/峰度先验(鼓励稀疏表示)
$$
g(\mathbf{r})=\alpha\sum_i \log(1+r_i^2)
$$
信息论视角:最小化 $E$ 可理解为最小描述长度(MDL):在“重建误差”与“活动/参数编码成本”间折中。
3)推断:对 $\mathbf{r}$ 的梯度下降 → 神经动力学
对 $\mathbf{r}$ 做连续时间梯度下降:
$$ \frac{d\mathbf{r}}{dt} = -\frac{k_1}{2}\frac{\partial E}{\partial \mathbf{r}} = \frac{k_1}{\sigma^2}\mathbf{U}^{T}\mathbf{J}_f^{T}(\mathbf{x})\big(\mathbf{I}-f(\mathbf{U}\mathbf{r})\big) + \frac{k_1}{\sigma_{td}^2}(\mathbf{r}^{td}-\mathbf{r}) - \frac{k_1}{2}g'(\mathbf{r}) $$
其中 $\mathbf{x}=\mathbf{U}\mathbf{r}$,$\mathbf{J}_f(\mathbf{x})=\partial f/\partial \mathbf{x}$(逐元素非线性时为对角矩阵):
- 若 $f(x)=x$,则 $\mathbf{J}_f=\mathbf{I}$;
- 若 $f(x)=\tanh(x)$,则 $f'(x)=1-\tanh^2(x)$(逐元素)。
按计算意义拆解:
- $\mathbf{e}^{bu}=\mathbf{I}-f(\mathbf{U}\mathbf{r})$:bottom-up 预测残差(像素/低层误差)。
- $\mathbf{e}^{td}=\mathbf{r}^{td}-\mathbf{r}$:top-down 残差(高层对本层原因活动的预测误差)。
- 第一项 $\mathbf{U}^T\mathbf{J}_f^T\mathbf{e}^{bu}$:把残差“反投影”回原因空间,用于修正 $\mathbf{r}$。
- 最后一项 $-g'(\mathbf{r})$:先验驱动的收缩/稀疏化。
这解释了论文的神经实现直觉:网络只需局部量(权重、活动、误差信号)即可更新。
4)线性情形的等价形式:侧向抑制(lateral interactions)
当 $f(x)=x$ 时,上式可改写为(论文 Eq. 8):
$$ \frac{d\mathbf{r}}{dt} = \frac{k_1}{\sigma^2}\mathbf{U}^{T}\mathbf{I} + \frac{k_1}{\sigma_{td}^2}(\mathbf{r}^{td}-\mathbf{r}) - \frac{k_1}{2}g'(\mathbf{r}) - \frac{k_1}{\sigma^2}\mathbf{W}\mathbf{r}, \qquad \mathbf{W}=\mathbf{U}^T\mathbf{U} $$
最后一项 $-\mathbf{W}\mathbf{r}$ 可解释为表示神经元间的复发侧向抑制/竞争,从而把部分反馈效应“等价改写”为侧向交互(论文也在 Discussion 提到与 divisive normalization 的联系)。
5)学习:对 $\mathbf{U}$ 的梯度下降 → 误差驱动的 Hebbian 更新
对 $\mathbf{U}$ 做梯度下降(论文 Eq. 9):
$$ \frac{d\mathbf{U}}{dt} = -\frac{k_2}{2}\frac{\partial E}{\partial \mathbf{U}} = \frac{k_2}{\sigma^2}\mathbf{J}_f^{T}(\mathbf{x})\big(\mathbf{I}-f(\mathbf{U}\mathbf{r})\big)\mathbf{r}^T - k_2\lambda \mathbf{U} $$
要点:
- 更新量 $\propto \mathbf{e}^{bu}\mathbf{r}^T$:误差 × 活动 的 Hebbian-like 学习;
- top-down 项不显式出现在 $\partial E/\partial \mathbf{U}$ 中,但通过影响 $\mathbf{r}$ 的推断间接影响学习。
实验
感受野学习(自然图像训练)
- 用自然图像 patch 训练层级网络,最小化 $E$。
- 学到的 $\mathbf{U}$ 在第 1 层呈现类似 V1 simple cell 的定向边缘/条纹 RF;更高层呈现组合特征。
端抑制实验(线性生成模型)
- 3 个相邻的 level-1 模块分别处理重叠的 $16\times 16$ patch,汇聚到 level-2(有效 RF 约 $16\times 26$)。
- 每个 level-1 模块包含:前馈单元(编码 $\mathbf{U}^T$)、维护 $\mathbf{r}$ 的单元、误差探测单元(向上送出 $\mathbf{r}-\mathbf{r}^{td}$)、以及向下产生预测 $\mathbf{U}\mathbf{r}$ 的反馈单元。
- 给出一组参数示例:$k_1, \sigma^2, \sigma_{td}^2, \alpha, \lambda, k_2$ 等(学习率 $k_2$ 随训练逐步衰减)。
其它 extra-classical 实验(非线性 + 稀疏先验)
- 使用 $f(x)=\tanh(x)$,并采用稀疏峰度先验 $g(\mathbf{r})=\alpha\sum_i\log(1+r_i^2)$,可得到更局部的 RF。
- 9 个 level-1 模块按 3×3 重叠布局覆盖更大局部区域,输出汇聚到一个 level-2 模块。
主要结果与解释
1)端抑制:长条更“可预测” → 误差更小
- 短条(孤立):高层难以仅凭局部预测 → 残差大 → 误差神经元强响应。
- 长条(延伸到周围):自然图像中沿主导取向存在较长距离正相关,周围提供上下文使预测更准 → 残差趋近 0 → 误差神经元响应下降(端抑制)。
论文还用自然图像统计验证:沿主导取向方向的相关可延伸到较远距离(对应文中 Fig. 4 的论证)。
2)切断反馈会显著消除端抑制(模型因果检验)
- 去掉 level-2→level-1 的反馈后,原本端抑制的神经元对更长条仍持续响应。
- 定量结果:定义端抑制为 >50% 抑制时,禁用反馈使端抑制在大多数误差单元中消失(论文报告约 82% 的端抑制被消除)。
3)其它 extra-classical 效应:同向周围抑制、交叉取向增强、纹理 pop-out
- 中心与周围同向/同纹理:更可预测 → 残差下降 → 抑制增强。
- 中心-周围取向对比:违背自然统计 → 残差上升 → 相对增强(论文给出具体增强比例示例)。
- 纹理刺激:对“pop-out”类刺激残差更大,模型误差神经元响应也更大,与生理数据趋势一致。
生物学映射与可检验预测
功能性映射
- extra-classical 效应显著的细胞群可解释为误差探测/残差编码单元。
- 论文特别强调:投射到更高视觉区的浅层 2/3神经元是潜在候选(其前馈通路承担误差上送)。
可检验预测
- 若抑制高层到低层的反馈(例如 V2→V1),应当解除低层对周围一致刺激的抑制:端抑制减弱、同向周围抑制减弱。
- extra-classical 效应的出现可能具有较晚的时间成分(与反馈回路时间尺度一致)。
总结
整篇论文可以压缩为:视觉皮层在最小化能量函数
$$ E = \frac{1}{\sigma^2}\|\mathbf{I}-f(\mathbf{U}\mathbf{r})\|_2^2 \frac{1}{\sigma_{td}^2}\|\mathbf{r}-\mathbf{r}^{td}\|_2^2 g(\mathbf{r})+h(\mathbf{U}) $$
其中 $\mathbf{r}$ 通过误差驱动的动力学(梯度下降)被推断,$\mathbf{U}$ 通过“残差×活动”的 Hebbian-like 规则被学习;端抑制等非经典感受野效应则自然涌现为:当周围使中心更可预测时,预测误差更小。
评价
这是一个非常有趣的工作,虽然我不认为这篇文章里面提出来的方法真的是大脑的运行机制。但是也依然有一定的启发性。
这篇文章主要的思想是把反向传播限制在了中间的层中,不需要全局的反向传播,只需要单独一层的传播。但是反向传播的痛点是无法做到真正的异步更新,这篇文章提出来的方法虽然很有启发性,但是并没有解决这个问题。所以还没有达到替代反向传播的程度。