Sparse Modern Hopfield Networks(稀疏现代 Hopfield 网络)精读笔记
- 论文:Sparse Modern Hopfield Networks(NeurIPS 2023 Workshop: Associative Memory & Hopfield Networks in 2023)
- 作者:André F. T. Martins, Vlad Niculae, Daniel McNamee
- 核心关键词:Modern Hopfield Networks,Transformer Attention,Fenchel-Young loss,$\Omega$-regularized prediction map($\Omega$-RPM),Tsallis negentropy,$\alpha$-entmax / sparsemax,稀疏检索,精确收敛
0. 这篇论文解决什么问题?
现代 Hopfield 网络(modern Hopfield networks)的一条经典发现是:其一次更新等价于 Transformer 的注意力(在某些设定下)。Ramsauer et al. (2021) 的能量函数对应的更新是 $$ q_{t+1}=X^\top \mathrm{softmax}(\beta X q_t), $$ 它在实践中常出现一个“不太想要”的现象:网络不一定检索到某一个单独记忆(单个 pattern),而是收敛到由很多 pattern 混合而成的 metastable states(亚稳混合态)。
这篇论文的目标是:改造能量函数,使更新规则天然产生“稀疏选择”(只激活少量 patterns),并且在适当条件下能做到 精确 收敛到单一记忆(而不是“$\epsilon$-接近”)。
1. 记号与基本设定(Modern Hopfield 回顾)
- 记忆库矩阵:$X\in\mathbb{R}^{N\times D}$,第 $i$ 行是一个记忆(memory pattern)$x_i\in\mathbb{R}^D$。
- 查询/状态向量:$q_t\in\mathbb{R}^D$。
- 温度/锐化系数:$\beta>0$($\beta$ 越大,选择越尖锐)。
现代 Hopfield 网络通过迭代 $q_t\mapsto q_{t+1}$,希望从初始查询 $q_0$ 出发收敛到一个吸引子 $q^\*$,理想情况下 $q^\*$ 对应于某个存储的 $x_i$(或少量混合)。
经典 Hopfield(Hopfield 1982)是二次能量 $$ E(q)=-\frac12 q^\top W q,\quad W=X^\top X, $$ 离散更新为 $q_{t+1}=\mathrm{sign}(Wq_t)$,但容量只有 $O(D)$。
2. Ramsauer et al. (2021) 的现代 Hopfield 能量与注意力更新
Ramsauer et al. (2021) 给出能量(本文记为式(1)): $$ E(q)= -\mathrm{lse}(\beta,Xq)+\frac12 q^\top q+\beta^{-1}\log N + \frac12 M^2, \tag{1} $$ 其中 $$ \mathrm{lse}(\beta,\theta)=\beta^{-1}\log\sum_{i=1}^N \exp(\beta\theta_i),\quad M=\max_i \|x_i\|. $$
对这个能量使用 concave-convex procedure(CCCP)最小化,会得到更新(本文式(2)): $$ q_{t+1}=X^\top\mathrm{softmax}(\beta X q_t). \tag{2} $$ 当 $\beta=1/\sqrt{D}$ 且注意力投影矩阵取恒等时,每次更新与单头注意力计算一致,这就是“Hopfield layers 与 Attention 的连接”。
问题点:softmax 永远是稠密概率(除非极限),因此容易得到大规模混合态,无法“硬”选出一个模式;并且“精确收敛到单一 pattern”很难保证,往往只能说在低温(大 $\beta$)时接近。
3. 工具箱:$\Omega$-Regularized Prediction Map 与 Fenchel-Young Loss
这篇论文的关键思想是:把 softmax 看作一个更一般族的特例,然后选一个会产生稀疏解的正则。
3.1 概率单纯形
$$ \Delta^{N-1}=\{p\in\mathbb{R}^N: p\ge 0,\; \mathbf{1}^\top p=1\}. $$ $p$ 可以理解为对 $N$ 个记忆的“注意力权重/检索权重”。
3.2 $\Omega$-RPM($\Omega$ 正则化预测映射)
给定凸函数 $\Omega:\Delta^{N-1}\to\mathbb{R}$,定义(本文式(3)): $$ \hat p_\Omega(\theta)=\arg\max_{p\in\Delta^{N-1}}\;\theta^\top p-\Omega(p). \tag{3} $$
- 若 $\Omega(p)=\sum_i p_i\log p_i$(Shannon negentropy),则 $\hat p_\Omega=\mathrm{softmax}$。
- 若 $\Omega(p)=\frac12\|p\|_2^2$,则 $\hat p_\Omega=\mathrm{sparsemax}$(投影到单纯形,得到稀疏 $p$)。
3.3 Tsallis $\alpha$-negentropy 与 $\alpha$-entmax
论文选用 Tsallis $\alpha$-negentropy(本文式(4)): $$ \Omega_\alpha(p)=\frac{-1+\|p\|_\alpha^\alpha}{\alpha(\alpha-1)}. \tag{4} $$ 性质: - $\alpha\to 1$:$\Omega_\alpha$ 退化到 Shannon negentropy $\Rightarrow$ softmax。 - $\alpha=2$:对应(常数差异下的)$\ell_2$ 正则 $\Rightarrow$ sparsemax。 - $\alpha>1$:得到 $\alpha$-entmax,是一类端到端可微、可产生稀疏权重的变换(也用于 adaptively sparse transformers)。
3.4 Fenchel-Young loss
记 $\Omega^\*$ 为凸共轭: $$ \Omega^\*(\theta)=\max_{p\in\Delta^{N-1}}\theta^\top p-\Omega(p). $$ Fenchel-Young loss(本文式(5))定义为: $$ L_\Omega(\theta,p)=\Omega(p)+\Omega^\*(\theta)-\theta^\top p. \tag{5} $$ 关键性质(Blondel et al. 2020): - $L_\Omega(\theta,p)\ge 0$,且 $L_\Omega(\theta,p)=0 \Leftrightarrow p=\hat p_\Omega(\theta)$。 - 对 $\theta$ 凸,梯度 $$ \nabla_\theta L_\Omega(\theta,p)= -p+\hat p_\Omega(\theta). $$
3.5 $\alpha>1$ 时的“间隔(margin)”性质(稀疏的核心)
对 Tsallis $\Omega_\alpha$ 且 $\alpha>1$,对 one-hot 目标 $e_i$ 有(本文式(6)): $$ \forall i,\quad L_{\Omega_\alpha}(\theta,e_i)=0 \Leftrightarrow \hat p_{\Omega_\alpha}(\theta)=e_i \Leftrightarrow \theta_i-\max_{j\ne i}\theta_j\ge \frac{1}{\alpha-1}. \tag{6} $$ 这条等价非常重要:只要最大 logit 比次大 logit 大到一定阈值,就会直接“塌缩”为 one-hot”,从而精确选中某一个 pattern。
4. 论文的核心:Hopfield-Fenchel-Young 能量
4.1 能量函数(本文式(7))
先定义记忆均值(经验均值): $$ \mu_X := X^\top \frac{\mathbf{1}}{N}\in\mathbb{R}^D. $$
作者提出新的能量(把 Ramsauer 的能量推广到任意 generalized negentropy $\Omega$): $$ E(q)= -\beta^{-1} L_\Omega(\beta Xq;\mathbf{1}/N) + \frac12\|q-\mu_X\|^2 + \frac12(M^2-\|\mu_X\|^2). \tag{7} $$
直觉分解:
- “凹项”(让你选一个模式):$E_{\text{concave}}(q)=-\beta^{-1} L_\Omega(\beta Xq;\mathbf{1}/N)$
最小化 $E_{\text{concave}}$ 等价于最大化 $L_\Omega(\beta Xq;\mathbf{1}/N)$,推动 $Xq$ 远离“均匀”,偏向某个单一模式(或少数模式)。
- “凸项”(正则/稳定项):$E_{\text{convex}}(q)=\frac12\|q-\mu_X\|^2+\frac12(M^2-\|\mu_X\|^2)$
约束 $q$ 不要跑得太离谱,保持稳定(靠近均值)。
4.2 用 CCCP 得到更新规则(本文命题 1 的结论)
将 $E=E_{\text{convex}}+E_{\text{concave}}$,CCCP 在第 $t$ 轮对凹项做一阶线性化,然后求解凸子问题,最终得到更新: $$ q_{t+1}=X^\top \hat p_\Omega(\beta X q_t). \tag{8} $$ 当 $\Omega=\Omega_1$(Shannon)时,$\hat p_\Omega=\mathrm{softmax}$,就回到 Ramsauer 的更新;当 $\Omega=\Omega_\alpha$ 且 $\alpha>1$ 时,$\hat p_\Omega$ 变成 $\alpha$-entmax(稀疏),更新就变成“稀疏注意力”式的检索。
5. 理论结果:能量界与“精确检索”条件
5.1 命题 1:能量的上下界 + CCCP 更新式
命题 1(本文)主要做两件事: - 给出在 $q$ 位于记忆凸包时的能量界(用来说明能量非负且有上界,优化不会发散); - 严格推导 CCCP 迭代得到的更新式(8)。
结论(原文表述略去常数细节): - 当 $q=X^\top p$ 且 $p\in\Delta^{N-1}$ 时,有 $$ 0\le E(q)\le \min\Big\{2M^2,\; -\beta^{-1}\Omega(\mathbf{1}/N)+\frac12 M^2\Big\}. $$ - CCCP 导致更新 $$ q_{t+1}=X^\top \hat p_\Omega(\beta X q_t). $$
直觉:$p$ 是在单纯形上的概率权重,所以 $q=X^\top p$ 就是记忆的凸组合;能量下界 $0$ 表示该能量是“良性”的 Lyapunov 候选。
5.2 命题 2:$\alpha>1$ 时,单一记忆可以成为严格不动点,并可“一步精确收敛”
先定义 pattern 的“分离度”(本文沿用 Ramsauer 的定义): $$ \Delta_i = x_i^\top x_i - \max_{j\ne i} x_i^\top x_j. $$
命题 2(本文)给出非常强的结论(关键在 $\alpha>1$ 的 margin 性质):
-
假设 $\Omega=\Omega_\alpha$ 且 $\alpha>1$,并且 $x_i$ 不在其他记忆的凸包内(更“独立”)。 则 $x_i$ 是能量(7)的一个驻点当且仅当 $$ \Delta_i \ge \frac{1}{(\alpha-1)\beta}. $$
-
进一步,如果初始查询 $q_0$ 满足对所有 $j\ne i$: $$ q_0^\top(x_i-x_j)\ge \frac{1}{(\alpha-1)\beta}, $$ 那么更新(8)会在 一步 精确收敛到 $x_i$(而不是“接近”)。
-
若 patterns 归一化且 $\Delta_i \ge \frac{1}{(\alpha-1)\beta}+2\epsilon$,则任意 $\epsilon$-近的初值($\|q_0-x_i\|\le \epsilon$)也会一步收敛到 $x_i$。
直觉:
- $\beta Xq$ 是所有记忆对当前状态的“打分”(相似度);
- 条件 $q_0^\top(x_i-x_j)$ 足够大,意味着第 $i$ 个 pattern 的分数相对所有竞争者都有一个统一的下界间隔;
- 对 $\alpha>1$,$\alpha$-entmax 有硬阈值(式(6)):间隔超过 $1/(\alpha-1)$ 就直接输出 one-hot。于是 $p=\hat p_{\Omega_\alpha}(\beta Xq_0)=e_i$,接着
$$
q_1=X^\top e_i=x_i,
$$
所以“一步到位”。
这就是稀疏化带来的本质差别:softmax 只有在极限 $\beta\to\infty$ 才可能接近 one-hot;而 $\alpha$-entmax 在有限 $\beta$ 下就能严格变成 one-hot。
6. 实验:稀疏更新如何减少 metastable states?
论文用模拟数据做了一个很直观的对比实验(主要看“最终落到多少个 pattern 的混合上”)。
6.1 设置
- 在单位球面上随机生成 patterns:$x_i$ 均匀分布在 $\|x_i\|=1$ 的球面上。
- 典型参数:$N=10,\; D=5$。
- 初始 query:在单位球内部均匀采样。
- 比较 $\alpha\in\{1,\;1.5,\;2\}$:
- $\alpha=1$:softmax(Ramsauer)。
- $\alpha=2$:sparsemax。
- $\alpha=1.5$:中间态 entmax。
- $\beta$:文中用 $\beta=4$ 做统计表;画吸引域时还会用更大的 $\beta$(并且对 $\alpha=1$ 允许一个容差 $\epsilon=0.01$ 来判断是否“接近单一模式”)。
6.2 指标:亚稳态的“基数”
令最终权重 $p$ 的非零个数为 $\|p\|_0$,它刻画了“混合了多少个 pattern”。
论文表 1 的结论(文字概括): - $\alpha=1$(softmax):大量结果落到很大的混合态($\|p\|_0$ 从 5 到 10 的比例都不低)。 - $\alpha=1.5$:混合态显著变小,多数在 1 或 2 或 3。 - $\alpha=2$(sparsemax):绝大多数 trial 直接收敛到单一模式($\|p\|_0=1$ 的比例最高),混合态很少且规模很小。
这与理论完全一致:$\alpha>1$ 引入了“硬间隔”机制,从而更容易出现 one-hot 的检索权重,减少大规模混合亚稳态。
7. 与“稀疏 Transformer”的关系
更新式(8)本质上就是: 1. 计算 logits:$\theta=\beta X q_t$; 2. 做一个(可能稀疏的)归一化注意力:$p=\hat p_\Omega(\theta)$; 3. 回读记忆:$q_{t+1}=X^\top p$。
当 $\Omega=\Omega_\alpha$,$p$ 就是 $\alpha$-entmax(Correia et al. 2019 等工作中的稀疏注意力形式之一)。因此,这篇论文把“Hopfield 视角”和“Fenchel-Young/稀疏注意力视角”在一个统一能量框架下对齐了。
8. Related work(论文结论里强调的点)
- 本文是对 Ramsauer et al. (2021) 的推广:把 log-sum-exp/softmax 推广到 Fenchel-Young loss + generalized negentropy。
- 同期 Hu et al. (2023) 也研究稀疏 modern Hopfield,并给出检索误差界;作者指出 Hu 的能量可视为本文框架在 $\alpha=2$(sparsemax)下的特例。
- 本文突出贡献之一是:利用 $\alpha$-entmax 的 margin 性质证明在条件满足时可以 精确一步收敛。
9. 实用总结(你应该记住的几句话)
- 把 softmax 换成 $\alpha$-entmax($\alpha>1$),就能让 Hopfield/Attention 的权重变稀疏,减少“混一堆记忆”的亚稳态。
- 新能量函数 $$ E(q)= -\beta^{-1} L_\Omega(\beta Xq;\mathbf{1}/N) + \frac12\|q-\mu_X\|^2 + \frac12(M^2-\|\mu_X\|^2) $$ 在 CCCP 下产生统一更新 $$ q_{t+1}=X^\top \hat p_\Omega(\beta X q_t), $$ 其中 $\Omega$ 选 Tsallis $\Omega_\alpha$ 就得到稀疏检索。
- $\alpha>1$ 的关键优势:存在有限阈值的 margin 条件(式(6)),因此能在有限 $\beta$ 下做到 one-hot,从而得到对单一模式的精确检索保证(命题 2)。
参考文献(按论文列举)
- Blondel, Martins, Niculae (2020). Learning with Fenchel-Young losses.
- Correia, Niculae, Martins (2019). Adaptively sparse transformers.
- Hopfield (1982). Neural networks and physical systems with emergent collective computational abilities.
- Ramsauer et al. (2021). Hopfield networks is all you need.
- Tsallis (1988). Possible generalization of boltzmann-gibbs statistics.
- Hu et al. (2023). On sparse modern hopfield model.