Evolving and Merging Hebbian Learning Rules: Increasing Generalization by Decreasing the Number of Rules

作者: Joachim Winther Pedersen, Sebastian Risi (IT University of Copenhagen)
发表: GECCO '21
链接：https://arxiv.org/abs/2104.07959

1. Introduction

人工神经网络（ANNs）通常在训练分布外（OOD）的情况下表现不佳。生物大脑通过基因组编码神经系统的构建规则，而非直接编码每个突触的连接强度。受此“基因组瓶颈（Genomic Bottleneck）”现象的启发，本文提出了一种名为 Evolve & Merge 的方法。

该方法通过演化一组 Hebbian 局部学习规则，并强制网络中的多个连接共享同一个学习规则，从而大幅减少可训练参数的数量。研究表明，通过这种方式，可以在减少参数（从 61,440 减至 1,920）的同时，显著提高智能体在未见过的机器人形态上的鲁棒性和泛化能力。

2. Approach

本文的方法结合了 Hebbian 学习规则 的参数演化和 规则合并（Rule Merging） 策略。

2.1 The ABCD Rule

不同于直接优化神经网络的权重，本文优化的是控制权重更新的 局部学习规则 的参数。使用的规则被称为 "ABCD" 规则，这是一种参数化的 Hebbian 学习抽象形式。

对于两个神经元 $i$ 和 $j$，其连接权重 $w_{ij}$ 的更新公式为：

$$ \Delta w_{ij} = \alpha (A o_i o_j + B o_i + C o_j + D) $$

其中：
- $\Delta w_{ij}$ 是权重的变化量。
- $o_i$ 和 $o_j$ 是突触前和突触后神经元的激活值。
- $\alpha$ 是学习率。
- $A, B, C, D$ 是演化优化的系数，决定了突触可塑性的具体形式（例如，$A$ 控制相关的 Hebbian 项，$B$ 和 $C$ 控制突触前/后的偏置项，$D$ 是常数漂移项）。

每个规则包含 5 个可训练参数：$\{\alpha, A, B, C, D\}$。

在每一代（Generation）开始时，网络的连接权重 $w_{ij}$ 被随机初始化（$w_{ij} \sim U(-0.1, 0.1)$），并在智能体的生命周期内根据上述规则实时更新。

2.2 Evolve & Merge Algorithm

该方法的核心在于通过迭代聚类来减少规则数量。

Rule Merging Process
图 1: 规则合并流程示意图。规则数量通过 K-Means 聚类迭代减半。

具体步骤如下：

初始化 (Initialization):
- 为网络中的每一个连接（共 $N$ 个）随机初始化一个独立的学习规则。
- 初始规则集大小 $K_0 = N$（在实验中为 12,288 个规则）。
演化与合并循环 (Evolution & Merging Loop):
- 演化 (Evolve): 使用进化策略（Evolution Strategy, ES）优化当前的规则集参数，持续一定的代数（例如 600 代）。
- 聚类 (Cluster): 使用 K-Means 聚类算法 对当前的 $K_t$ 个规则进行聚类，将其分为 $K_{t+1} = K_t / 2$ 个簇。
- 合并 (Merge): 将属于同一个簇的所有规则合并为该簇的中心（Centroid）。此时，网络中原本使用同一簇内不同规则的连接，现在共享同一个新的规则（即簇中心）。
- 重映射 (Remap): 更新连接到规则的映射关系。
终止 (Termination):
- 重复上述过程，直到规则数量减少到预定目标或达到最大演化代数（实验中总共 1600 代）。

这种方法模拟了生物进化中的“基因组瓶颈”，即通过少量的规则（基因）控制大量的突触连接。

3. Experiments

3.1 环境与任务

环境: AntBullet (PyBullet 物理引擎中的四足机器人)。
任务: 控制机器人在指定方向上尽可能快地行走。
输入: 28 维向量（位置、速度、关节角度等）。
输出: 8 维向量（关节力矩）。

3.2 Robustness/Generalization

为了测试模型的泛化能力，作者在测试时修改了机器人的形态（Morphology），这是训练期间未见过的。

Robot Environment
图 2: 机器人形态变化。右侧为标准形态，左侧为缩短腿部（"脚踝"部分）后的形态，用于测试鲁棒性。

测试集包括 30 种不同的形态变体（不同程度的腿部缩短及不同腿的组合）。

3.3 Baselines

Static: 标准的静态神经网络（权重固定，不进行 Hebbian 学习）。
Smaller Static: 参数较少的静态网络。
Noisy Static: 在输入端加入噪声训练的静态网络（增强鲁棒性的常用方法）。
ABCD (Full): 每个连接一个独立规则，不进行合并。
Fixed Reduced: 初始即固定为少量规则（如 500 个），随机分配。

4. Results

4.1 Generalization Analysis

实验结果表明，随着规则数量的减少，模型对未见形态的鲁棒性逐渐增强。

Generalisation Performance
图 3: 泛化性能箱线图。(a) 所有新环境下的平均得分。(b) 最差平均得分。

Static vs. Plastic: 静态网络（Static）在训练环境（标准形态）下表现最好，但在新形态下性能急剧下降。可塑性网络（Plastic）在训练环境下略逊一筹，但在新形态下表现出极强的稳定性。
规则数量的影响: 随着规则数量从 12,288 减少到 384，模型在新环境下的平均得分（Figure 9a）和最差得分（Figure 9b）均有提升趋势。
Evolve & Merge vs. Fixed: 相比于一开始就固定使用少量规则（如 500 rules from start），Evolve & Merge 方法（逐渐减少规则）最终得到的模型性能更好。这表明从高维参数空间开始搜索再压缩，比直接在低维空间搜索更有效（类似于彩票票据假设 Lottery Ticket Hypothesis）。

4.2 Training Curves and Parameter Efficiency

Training Results
图 4: Evolve & Merge 训练曲线。每次合并规则后，性能会有短暂下降，但随后迅速恢复并提升。

最终仅使用 384 个规则（1,920 个参数）的模型，其表现优于拥有 12,288 个规则（61,440 个参数）的全参数模型。
该方法在不增加总训练代数的情况下，实现了参数压缩和性能提升的双重目标。

5. Discussion and Conclusion

基因组瓶颈作为正则化器: 限制规则数量迫使进化寻找更通用的学习策略，而非过拟合于特定连接的特定功能。这解释了为何规则越少，泛化越好。
与彩票票据假设的联系: "Evolve & Merge" 的成功支持了在间接编码（Indirect Encoding）背景下的彩票票据假设——从大网络（多规则）开始更容易找到好的解，然后可以通过剪枝（合并）来保留这些解。
对比噪声注入: 虽然在静态网络中注入噪声也能提高鲁棒性，但需要精细调节噪声水平。而 Evolve & Merge 提供了一种通过架构约束自动获得鲁棒性的方法。

Conclusion

本文通过模拟生物进化的基因组瓶颈，提出了一种通过聚类动态合并 Hebbian 学习规则的方法。该方法在大幅压缩模型参数（>96%）的同时，显著提升了智能体在未见环境下的适应能力，为构建更具鲁棒性的自适应系统提供了新思路。