Home Learn Blog Game
Learn Papers

Course Structure

Original PDF Main

Main

5 min read Updated recently

title: Large Associative Memory Problem in Neurobiology and Machine Learning(Krotov & Hopfield) date: 2025-12-17


原文PDF:vscode-remote://ssh-remote%2B7b22686f73744e616d65223a22616c6979756e2d31227d/var/www/mathmonkeyliu.fun/content/learn/papers/machine_learning/Hopfield%20Network/Large%20Associative%20Memory%20Problem%20in%20Neurobiology%20and%20Machine%20Learning/main.pdf

1. 这篇论文要解决什么问题?

论文从一个“计数 + 生物约束”的矛盾出发,提出大容量联想记忆(Large Associative Memory)需要怎样的微观电路。

  • 联想记忆(associative memory):给出一个“记忆”中的一部分特征,系统应能补全其余特征(从部分线索回忆整体)。
  • 用特征空间表示:$N_f$ 个特征神经元(feature neurons)$v_i$ 表示特征 $i$ 的存在/强度。

1.1 “小容量”是怎么来的?

如果你只允许在这 $N_f$ 个神经元之间建立普通的二体连接(突触只连接两端),那么可用连接数最多是 $O(N_f^2)$;而每条突触可存信息是有限的。直觉上这意味着:当 $N_f$ 固定时,可可靠存储的“无关记忆”的数量不会远超 $O(N_f)$。

经典 Hopfield 网络(1982)的确给出类似的容量上限(比例常数约 $0.14N_f$,在标准设置下)。

1.2 大容量方法为何“看起来不生物”?

Dense Associative Memories(DAM)与 modern Hopfield networks 的一个关键特点是:它们能以某些能量/吸引子机制实现指数级容量(随特征维度增长)。但这些模型的朴素写法常出现“高阶相互作用”(many-body interactions):

  • 经典 Hopfield:能量或动力学只需要矩阵 $T_{ij}$(二阶)。
  • DAM/modern Hopfield:常写成 $T_{ijk\ldots}$(三阶及以上张量)或非多项式形式,朴素解释会暗示“高阶突触”,不符合常见生物突触的二体连接现实。

1.3 论文的核心观点(一句话)

DAM/modern Hopfield 里那些“高阶/非局部”的相互作用,应该被理解为:一个更微观的、只含二体连接的网络在“积分掉隐藏神经元(hidden neurons)”后的有效描述。

论文做的事情就是:给出这个微观网络的一个统一形式,并严格证明它的动力学下降某个能量(Lyapunov function),然后展示在不同选择下可回收多种已知模型(包括与 Transformer attention 的对应)。


2. 总体结构:显式隐藏层 + 能量下降的连续动力学

论文考虑两层变量:

  • 特征层(feature layer):$v_i,\ i=1,\dots,N_f$
  • 隐藏/记忆层(hidden or memory layer):$h_\mu,\ \mu=1,\dots,N_h$

两层之间由一个“记忆矩阵/权重矩阵”$\xi_{i\mu}$(或 $\xi_{\mu i}$)连接;它可以被理解为:隐藏单元 $\mu$ 对特征 $i$ 的“原型/记忆模式”的分量。

还允许一个外部输入(或线索)$I_i$ 作用在特征层。


3. 通用形式:动力学(更新方程)、激活函数与能量函数

论文提出一个非常统一的连续时间系统(写成两条一阶常微分方程),并构造一个能量 $E$ 作为 Lyapunov 函数。

3.1 两层动力学(最关键的方程)

设 $\tau_f,\tau_h>0$ 为时间常数。动力学写成

$$ \begin{cases} \tau_f \dfrac{dv_i}{dt} = \sum_{\mu=1}^{N_h}\xi_{i\mu}\, f_\mu(h_\mu) + I_i - v_i,\\[6pt] \tau_h \dfrac{dh_\mu}{dt} = \sum_{i=1}^{N_f}\xi_{\mu i}\, g_i(v) - h_\mu. \end{cases} $$

直觉解释:

  • $v_i$ 的变化由三部分决定:来自隐藏层的“回忆信号”$\sum_\mu \xi_{i\mu} f_\mu$、外部输入 $I_i$、以及泄露/衰减项 $-v_i$。
  • $h_\mu$ 是对特征层的某种“投影/匹配分数”$\sum_i \xi_{\mu i} g_i$ 的低通滤波(再减去自身 $h_\mu$)。

这套形式的关键是:层间相互作用是二体的(只出现 $\xi_{i\mu}$ 与单个 $v_i/h_\mu$ 的组合),没有显式的三体/多体突触。

3.2 用“拉格朗日量”统一定义激活

论文用两个标量函数(可以理解为“势能/拉格朗日量”)来统一生成激活函数:

  • 特征层:$L_v(v)$
  • 隐藏层:$L_h(h)$

然后定义“激活/响应”:

$$ g_i(v) = \frac{\partial L_v}{\partial v_i},\qquad f_\mu(h) = \frac{\partial L_h}{\partial h_\mu}. $$

这一步非常关键:它让后续的能量构造与下降性证明变成一个相对通用的“凸性/半正定”条件。

3.3 能量函数(Lyapunov function)

论文给出如下能量(核心结构是“三项 + 一个耦合项”):

$$ E(v,h)= \sum_i (v_i-I_i)\,g_i(v)\;-\;L_v(v)\;+\;\sum_\mu h_\mu\,f_\mu(h)\;-\;L_h(h)\;-\;\sum_{i,\mu}\xi_{i\mu}\,g_i(v)\,f_\mu(h). $$

把它看成:

  • 前两项:特征层的“自能量”(含输入)
  • 中两项:隐藏层的“自能量”
  • 最后一项:特征-隐藏的耦合能量

3.4 为什么它一定下降?

论文在附录中计算 $\frac{dE}{dt}$,并把动力学方程代入,得到一个典型的“二次型非正”结论:

$$ \frac{dE}{dt} = -\tau_f \sum_{i,j}\frac{dv_i}{dt}\,\frac{\partial^2 L_v}{\partial v_i\partial v_j}\,\frac{dv_j}{dt} -\tau_h \sum_{\mu,\nu}\frac{dh_\mu}{dt}\,\frac{\partial^2 L_h}{\partial h_\mu\partial h_\nu}\,\frac{dh_\nu}{dt} \le 0. $$

因此只要两个 Hessian(海森矩阵)是半正定:

$$ \nabla^2 L_v \succeq 0,\qquad \nabla^2 L_h \succeq 0, $$

系统沿轨迹单调降低能量 $E$,从而收敛到能量极小/稳定点(吸引子)。这给了“联想记忆=吸引子动力学”的严格基础。


4. “积分掉隐藏神经元”:从微观二体网络到 DAM/modern Hopfield 的有效能量

论文的关键操作是考虑隐藏层收敛得非常快的极限:

$$ \tau_h\to 0. $$

在这个极限下,$h_\mu$ 近似瞬时满足稳态条件

$$ h_\mu = \sum_{i=1}^{N_f}\xi_{\mu i}\, g_i(v). $$

把它代回能量表达式,会出现一个非常漂亮的消去:能量中 $+\sum_\mu h_\mu f_\mu$ 与 $-\sum_{i,\mu}\xi_{i\mu}g_if_\mu$ 在稳态关系下相互抵消,得到一个只依赖 $v$ 的有效能量(把 $h$ “积掉”):

$$ E_{\text{eff}}(v)= \sum_i (v_i-I_i)\,g_i(v)\;-\;L_v(v)\;-\;L_h\!\left(h(v)\right), \quad h_\mu(v)=\sum_i \xi_{\mu i}\, g_i(v). $$

如果 $L_h$ 是可加的,例如

$$ L_h(h)=\sum_{\mu=1}^{N_h} F(h_\mu), $$

那么有效能量就变为

$$ E_{\text{eff}}(v)= \sum_i (v_i-I_i)\,g_i(v)\;-\;L_v(v)\;-\;\sum_{\mu=1}^{N_h} F\!\left(\sum_i \xi_{\mu i}\, g_i(v)\right). $$

这就是 DAM/modern Hopfield 常见的“对一堆内积/匹配分数做非线性聚合”的能量形式:看起来像高阶相互作用,其实来自隐藏层的消去。


5. 三类代表模型(论文的 Model A/B/C 思路)

论文把“选择 $L_v,L_h$ 的方式”系统化,得到不同类别的有效模型。核心差别来自:

  • $L_h$ 是否可加($\sum_\mu$ 形式)或带归一化耦合
  • $L_v$ 的结构(是否产生衰减项、是否带球面归一化等)

下面按论文主线讲清三类典型现象。

5.1 Model A:最直接的“DAM 有效能量”形式(可加隐藏层 + 二次特征层)

一个最常见/直观的选择是:

$$ L_v(v)=\frac{1}{2}\sum_i v_i^2 \quad\Rightarrow\quad g_i(v)=v_i, $$

以及

$$ L_h(h)=\sum_\mu F(h_\mu) \quad\Rightarrow\quad f_\mu(h)=F'(h_\mu). $$

那么动力学成为

$$ \tau_f \frac{dv_i}{dt}=\sum_\mu \xi_{i\mu}F'(h_\mu)+I_i-v_i, \qquad \tau_h \frac{dh_\mu}{dt}=\sum_i \xi_{\mu i}v_i-h_\mu. $$

在 $\tau_h\to 0$ 下,$h_\mu=\sum_i\xi_{\mu i}v_i$,有效能量成为

$$ E_{\text{eff}}(v) = \frac{1}{2}\sum_i (v_i-I_i)^2 -\sum_\mu F\!\left(\sum_i\xi_{\mu i}v_i\right) +\text{const}. $$

这就是非常典型的 DAM 能量结构:对每个“记忆模式”$\xi_{\mu}$ 与当前状态 $v$ 的重叠(内积)做非线性 $F$,再对 $\mu$ 求和。

直觉:如果 $F$ 选择得“尖锐”(比如更高次幂或指数),那么最匹配的那个(或少数几个)$\mu$ 会在能量下降中占主导,从而实现“从部分线索跳到最近记忆”的吸引子检索,并且容量可以非常大。

与经典 Hopfield 的关系(把它看成一个特例)

如果进一步取一个二次型的相互作用(典型地 $F(x)=\frac{1}{2}x^2$),那么

$$ \sum_\mu F(\xi_\mu\cdot v) = \frac{1}{2}\sum_\mu (\xi_\mu\cdot v)^2 = \frac{1}{2}\sum_{i,j}\left(\sum_\mu \xi_{\mu i}\xi_{\mu j}\right)v_iv_j. $$

这时等效的二阶“连接矩阵”就变成了

$$ T_{ij}=\sum_\mu \xi_{\mu i}\xi_{\mu j}, $$

形式上回到经典 Hopfield 的“外积存储”结构;而本论文的观点是:当 $F$ 更一般(甚至非多项式)且容量更大时,这依然可以来自微观二体网络,只是等效能量不再是简单二次型。

5.2 Model B:与 modern Hopfield / attention 的对应(softmax 形式的权重)

论文强调:如果你选取某些带“归一化结构”的 $L_h$(例如与 log-sum-exp/softmax 相关的形式),那么 $f_\mu$ 会变成一组归一化权重(近似 softmax),而特征层更新就变成:

  • 先计算“匹配分数”$h_\mu \sim \xi_\mu\cdot g(v)$
  • 再把它变成权重 $f_\mu(h)$(softmax-like)
  • 最后做加权回读 $v \leftarrow \sum_\mu \xi_{:\mu}\, f_\mu$

这就是 modern Hopfield 中常见的“检索=对记忆库做soft attention”的结构;并且论文指出:把该更新做一次,就与 Transformer 的 attention 机制在形式上等价(把 $\xi$ 视作“值/键”的某种组合,$v$ 视作“查询”)。

论文同时讨论了以往工作里从指数型 DAM 能量出发“再取对数并加二次项”的推导方式,并给出一个更直接的、由上述微观框架自然推出的推导视角。

一个非常典型的“softmax 检索”写法(便于你直接对照 attention)是:当匹配分数取为内积 $h_\mu=\sum_j\xi_{\mu j}v_j$,并令权重为 softmax

$$ \alpha_\mu(v)=\frac{\exp(\beta h_\mu)}{\sum_\nu \exp(\beta h_\nu)}, $$

则一次回读更新可以写成

$$ v_i^{\text{new}}=\sum_\mu \xi_{i\mu}\,\alpha_\mu(v). $$

这里 $\beta$ 控制“检索的尖锐程度”($\beta$ 越大越接近 winner-take-all)。

5.3 Model C:球面归一化记忆(Spherical Memory)

论文还给出一个他们认为文献中较少系统讨论的类别:特征层采用球面归一化。

具体选择是(论文给出的形式):

$$ L_h(h)=\sum_\mu F(h_\mu), \qquad L_v(v)=\sqrt{\sum_i v_i^2}=\|v\|. $$

于是

$$ f_\mu = F'(h_\mu), \qquad g_i(v)=\frac{\partial \|v\|}{\partial v_i}=\frac{v_i}{\sqrt{\sum_j v_j^2}}=\frac{v_i}{\|v\|}. $$

在 $I_i=0$ 时动力学变为

$$ \begin{cases} \tau_f\dfrac{dv_i}{dt}=\sum_\mu \xi_{i\mu} f_\mu(h_\mu),\\[6pt] \tau_h\dfrac{dh_\mu}{dt}=\sum_i \xi_{\mu i}\dfrac{v_i}{\|v\|}-h_\mu. \end{cases} $$

在 $\tau_h\to 0$ 下,得到有效能量

$$ E_{\text{eff}}(v) = -\sum_\mu F\!\left(\sum_i \xi_{\mu i}\frac{v_i}{\|v\|}\right). $$

也就是:相似度用“归一化内积”(cosine-like)来度量,而不是裸内积;并且由于球面归一化的结构,特征层在这个极限下会出现一个零模(Hessian 有零特征值),论文对其作了说明。


6. 这套框架到底解释了什么?

6.1 “高阶相互作用”从哪里来?

从微观角度看,网络只有二体耦合 $\xi_{i\mu}$。但当你把 $h_\mu$ 消去之后,$E_{\text{eff}}(v)$ 里会出现

$$ F\!\left(\sum_i \xi_{\mu i} g_i(v)\right) $$

这样的复合形式。对 $v$ 展开时,这里面可以产生看似高阶的 $v_i v_j v_k\cdots$ 项(尤其当 $F$ 是多项式或指数时),于是就像“多体相互作用”。论文的核心解释是:它不是多体突触,而是隐藏层带来的有效相互作用。

6.2 为什么这能带来大容量?

核心直觉是:容量的瓶颈并不在 $N_f$ 本身,而在“能存储的信息量/自由度”。引入 $N_h$ 个隐藏神经元与相应突触后,系统可用的存储资源大幅增加;而 DAM/modern Hopfield 的有效形式正是在利用这些隐藏自由度,以更“尖锐”的能量地形实现大规模可分的吸引子集合。

6.3 与 Transformer attention 的关系(概念层面)

把“记忆模式”$\xi_\mu$ 看成一组可寻址的内容:

  • 用当前状态(查询)与每个记忆(键)计算匹配分数 $h_\mu$
  • 用某种非线性/归一化把匹配分数变成权重 $f_\mu$
  • 用权重对记忆内容做加权求和回读到 $v$

这正是 attention 的核心操作。论文强调:在某些选择/极限下,一次 Hopfield 检索更新等价于一次 attention;而它仍然有一个整体能量在下降(在合适的构造下)。


7. 读者该怎么用这篇论文?

  • 如果你关心“生物可解释性”:这篇论文给出一个很干净的答案——现代大容量 Hopfield/DAM 并不需要假设高阶突触;它们可以被解释为有隐藏神经元的二体网络在粗粒化后的有效理论。
  • 如果你关心“模型设计”:你可以把 $L_v,L_h$ 当作可设计模块;通过不同凸性/归一化结构,得到不同的能量地形与检索行为(包括 cosine 相似、softmax 权重等)。
  • 如果你关心“attention 的能量视角”:这篇论文提供了一个把 attention 视作“能量下降/联想记忆检索”的结构化方式,尤其适合在“可解释的记忆模块”或“可收敛的检索动力学”中使用。
Previous Save as PDF

© 2025 Ze Rui Liu. Built for the future of AGI.

Classic Beige
Deep Space
Electric Violet
Matcha Latte
Cherry Blossom
High Contrast
Inter Sans
Playfair Serif
JetBrains Mono
Patrick Hand