Evolving and Merging Hebbian Learning Rules: Increasing Generalization by Decreasing the Number of Rules
作者: Joachim Winther Pedersen, Sebastian Risi (IT University of Copenhagen)
发表: GECCO '21
链接:https://arxiv.org/abs/2104.07959
1. Introduction
人工神经网络(ANNs)通常在训练分布外(OOD)的情况下表现不佳。生物大脑通过基因组编码神经系统的构建规则,而非直接编码每个突触的连接强度。受此“基因组瓶颈(Genomic Bottleneck)”现象的启发,本文提出了一种名为 Evolve & Merge 的方法。
该方法通过演化一组 Hebbian 局部学习规则,并强制网络中的多个连接共享同一个学习规则,从而大幅减少可训练参数的数量。研究表明,通过这种方式,可以在减少参数(从 61,440 减至 1,920)的同时,显著提高智能体在未见过的机器人形态上的鲁棒性和泛化能力。
2. Approach
本文的方法结合了 Hebbian 学习规则 的参数演化和 规则合并(Rule Merging) 策略。
2.1 The ABCD Rule
不同于直接优化神经网络的权重,本文优化的是控制权重更新的 局部学习规则 的参数。使用的规则被称为 "ABCD" 规则,这是一种参数化的 Hebbian 学习抽象形式。
对于两个神经元 $i$ 和 $j$,其连接权重 $w_{ij}$ 的更新公式为:
$$ \Delta w_{ij} = \alpha (A o_i o_j + B o_i + C o_j + D) $$
其中:
- $\Delta w_{ij}$ 是权重的变化量。
- $o_i$ 和 $o_j$ 是突触前和突触后神经元的激活值。
- $\alpha$ 是学习率。
- $A, B, C, D$ 是演化优化的系数,决定了突触可塑性的具体形式(例如,$A$ 控制相关的 Hebbian 项,$B$ 和 $C$ 控制突触前/后的偏置项,$D$ 是常数漂移项)。
每个规则包含 5 个可训练参数:$\{\alpha, A, B, C, D\}$。
在每一代(Generation)开始时,网络的连接权重 $w_{ij}$ 被随机初始化($w_{ij} \sim U(-0.1, 0.1)$),并在智能体的生命周期内根据上述规则实时更新。
2.2 Evolve & Merge Algorithm
该方法的核心在于通过迭代聚类来减少规则数量。

图 1: 规则合并流程示意图。规则数量通过 K-Means 聚类迭代减半。
具体步骤如下:
-
初始化 (Initialization):
- 为网络中的每一个连接(共 $N$ 个)随机初始化一个独立的学习规则。
- 初始规则集大小 $K_0 = N$(在实验中为 12,288 个规则)。
-
演化与合并循环 (Evolution & Merging Loop):
- 演化 (Evolve): 使用进化策略(Evolution Strategy, ES)优化当前的规则集参数,持续一定的代数(例如 600 代)。
- 聚类 (Cluster): 使用 K-Means 聚类算法 对当前的 $K_t$ 个规则进行聚类,将其分为 $K_{t+1} = K_t / 2$ 个簇。
- 合并 (Merge): 将属于同一个簇的所有规则合并为该簇的中心(Centroid)。此时,网络中原本使用同一簇内不同规则的连接,现在共享同一个新的规则(即簇中心)。
- 重映射 (Remap): 更新连接到规则的映射关系。
-
终止 (Termination):
- 重复上述过程,直到规则数量减少到预定目标或达到最大演化代数(实验中总共 1600 代)。
这种方法模拟了生物进化中的“基因组瓶颈”,即通过少量的规则(基因)控制大量的突触连接。
3. Experiments
3.1 环境与任务
- 环境: AntBullet (PyBullet 物理引擎中的四足机器人)。
- 任务: 控制机器人在指定方向上尽可能快地行走。
- 输入: 28 维向量(位置、速度、关节角度等)。
- 输出: 8 维向量(关节力矩)。
3.2 Robustness/Generalization
为了测试模型的泛化能力,作者在测试时修改了机器人的形态(Morphology),这是训练期间未见过的。

图 2: 机器人形态变化。右侧为标准形态,左侧为缩短腿部("脚踝"部分)后的形态,用于测试鲁棒性。
测试集包括 30 种不同的形态变体(不同程度的腿部缩短及不同腿的组合)。
3.3 Baselines
- Static: 标准的静态神经网络(权重固定,不进行 Hebbian 学习)。
- Smaller Static: 参数较少的静态网络。
- Noisy Static: 在输入端加入噪声训练的静态网络(增强鲁棒性的常用方法)。
- ABCD (Full): 每个连接一个独立规则,不进行合并。
- Fixed Reduced: 初始即固定为少量规则(如 500 个),随机分配。
4. Results
4.1 Generalization Analysis
实验结果表明,随着规则数量的减少,模型对未见形态的鲁棒性逐渐增强。

图 3: 泛化性能箱线图。(a) 所有新环境下的平均得分。(b) 最差平均得分。
- Static vs. Plastic: 静态网络(Static)在训练环境(标准形态)下表现最好,但在新形态下性能急剧下降。可塑性网络(Plastic)在训练环境下略逊一筹,但在新形态下表现出极强的稳定性。
- 规则数量的影响: 随着规则数量从 12,288 减少到 384,模型在新环境下的平均得分(Figure 9a)和最差得分(Figure 9b)均有提升趋势。
- Evolve & Merge vs. Fixed: 相比于一开始就固定使用少量规则(如 500 rules from start),Evolve & Merge 方法(逐渐减少规则)最终得到的模型性能更好。这表明从高维参数空间开始搜索再压缩,比直接在低维空间搜索更有效(类似于彩票票据假设 Lottery Ticket Hypothesis)。
4.2 Training Curves and Parameter Efficiency

图 4: Evolve & Merge 训练曲线。每次合并规则后,性能会有短暂下降,但随后迅速恢复并提升。
- 最终仅使用 384 个规则(1,920 个参数)的模型,其表现优于拥有 12,288 个规则(61,440 个参数)的全参数模型。
- 该方法在不增加总训练代数的情况下,实现了参数压缩和性能提升的双重目标。
5. Discussion and Conclusion
- 基因组瓶颈作为正则化器: 限制规则数量迫使进化寻找更通用的学习策略,而非过拟合于特定连接的特定功能。这解释了为何规则越少,泛化越好。
- 与彩票票据假设的联系: "Evolve & Merge" 的成功支持了在间接编码(Indirect Encoding)背景下的彩票票据假设——从大网络(多规则)开始更容易找到好的解,然后可以通过剪枝(合并)来保留这些解。
- 对比噪声注入: 虽然在静态网络中注入噪声也能提高鲁棒性,但需要精细调节噪声水平。而 Evolve & Merge 提供了一种通过架构约束自动获得鲁棒性的方法。
Conclusion
本文通过模拟生物进化的基因组瓶颈,提出了一种通过聚类动态合并 Hebbian 学习规则的方法。该方法在大幅压缩模型参数(>96%)的同时,显著提升了智能体在未见环境下的适应能力,为构建更具鲁棒性的自适应系统提供了新思路。