Mu-scaling：大规模科学模型研究的新范式，无需训练即可预测性能

terry 2年前 (2023-09-23) 阅读数 129 #AI人工智能

致远研究院认知与数据团队提出Mu-scaling：一种基于最大更新参数化（MUP）预测方法的损失。该方法利用MUP缩放规则生成一组不同宽度的模型系列，并利用小模型的损失值直接预测大模型的损失。实验表明，模型损失与参数尺度之间的关系可以作为幂律精确地拟合到超参数空间中的损失池中。该方法可以直接确定一些用于大型模型训练的超参数，无需重新搜索。基于这一发现，在大参数规模上，不同的模型结构和算法可以直接通过损失预测进行有意义的比较，而不需要实际训练。这一特征预示着大模型时代新的科学研究范式。论文标题：https://arxiv.org/abs/2304.06875

1。背景：损失预测（Loss Prediction）

2023年3月，GPT-4技术报告中引入了OpenAI[1]，为了预测最终的损失（loss），开发了一个AI底层框架，可以实现可预测缩放。以及开始训练模型之前或之后不久的一些其他指标，如下图所示。本文描述的肌肉缩放是一种预测损失的方法。

GPT-4

2 的预测。实现损失预测的主要困难

现有的一些工作已经通过实验证明模型训练损失与计算量、模型参数规模和训练数据规模有关。存在幂律关系（Scaling Law）[2]。然而，这种关系必须通过调整所有大小的模型上的超参数（例如学习率）来建立，并且在训练大型模型之前通常不知道最佳的超参数选择。即使可以确定最佳超参数，如何设计一系列中介模型来预测最终训练损失仍然是一个悬而未决的问题。

3。 Mu-scaling方法

本文提出了Mu-scaling方法，利用最大更新参数化（MUP）[3]解决了上述问题。所需要的只是在小模型上搜索最优参数，这可以使用修正的幂律来解决，从而准确预测大型模型的损失。

3.1 最大更新参数化（MUP）

神经网络的无限宽度极限理论证明：超参数集合（学习率、初始化方差、乘数）满足一定的与神经网络宽度相适应的规则网络。假设不同宽度的模型的最优超参数值是对齐的，这组缩放规则称为MUP（下图）。通过MUP规则，可以在小宽度模型上设置参数（学习率、初始化方差、乘数），在大宽度模型上可以直接计算超参数集的最优值。

使用uP，不同宽度的损失对齐（右），未使用的损失分散（左）

但是，MUP 本身无法直接预测其他超参数和不同模型的损失值，最终还是训练效果也是无可比拟的。

3.2 本文中的方法：Mu 缩放

Mu 缩放（如下图）使用模型宽度的 MUP 参数化过程，仅生成不同宽度的模型序列。在小模型上进行单个超参数搜索后，可以直接计算该系列中所有模型的最优（学习率、初始化方差、乘数）值。本文通过实验证明：在上面的三维超参数空间中，对于位于（统一）最优超参数值附近的点（即该系列中所有模型训练损失最小的点，即超参数中的Loss bins）空间），模型的训练/预测损失值与模型参数个数之间的关系满足高精度幂律，以这一系列模型为媒介，任何大型模型的最优损失都可以直接确定为拟合小模型的幂律，通过MUP直接计算得到的最优损失（学习率、初始化方差、乘数）对应的值就可以得到，这样在训练大模型之前就可以预测损失

对于其他超参数以及所有模型结构设计和开发，只需生成一系列模型并使用 Mu 缩放分别预测其损失值，以便在大参数尺度上进行真实比较。请参阅原始文章了解更多详细信息。

文章的方法

4。实验结果实验设置

我们使用宽度128~1024的训练损失进行幂律，宽度2048和3072作为预测目标。我们在 256 个纬度上执行了一次最优超参数搜索（学习率、初始化方差、乘数），发现了以下三组参数：(7.5e-4, 0.04, 6.0) / (1e-3, 0.05, 5 ,0) ) / (2e-3, 0.06, 4.0) 经过MUP缩放后，该系列中的所有模型都有较低的损失，即它们接近损失池。另外两组超参数（3e-3, 0.02, 2.0）和（1e-4, 0.01, 0.5）具有更高的损失。这五组超参数的幂律拟合预测结果如下：

实验结果

可以得出，损失池中的超参数点只需要指定一个参数在8M到200M之间的模型即可。经过训练，Mus-Scaling准确预测10倍以上参数尺度对应的训练损失；距离损失池越远，匹配效果相应降低。

5。大模型科学研究新范式

基于Mu尺度损失预测，可以在任意参数尺度上直接比较不同模型，这预示着大模型时代的新科学研究范式。 在这种范式中，计算资源不足的研究人员可以从参数量较大的模型中得出更可信的结论。 具体过程如下：

（1）对于每个模型设计，寻找小参数的最优（学习率、初始化方差、乘数）组。

(2) 生成一组仅宽度不同的模型序列，每个模型使用MUP计算相应的最优值（学习率、初始化方差、乘数）。

(3) 按上述顺序训练几个小宽度模型，拟合幂律并预测大宽度的损失。

（4）对所有模型设计重复步骤（1）至（3），横向比较，找到大宽度损失最小的模型。

在上述过程中，训练宽幅模型并不是必须的，只是计算能力足够的情况下的一种选择。阅读原文以了解更多详细信息。

我们希望这项工作能够启发新的科研范式的建立，减少因小模型和大模型之间无法泛化科研结论而造成的资源浪费，从而建立学术界和工业界的有效迭代和协作。

参考文献

[1] OpenAI。 2023.Gpt-4 技术报告。 arXiv 预印本 arXiv:2303.08774.

[2] Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu 和 Dario Amodei。 2020。神经语言模型的缩放定律。 arXiv 预印本 arXiv:2001.08361.

[3] Greg Yang、Edward J Hu、Igor Babuschkin、Szymon Sidor、Xiaodong Liu、David Farhi、Nick Ryder、Jakub Pachocki、Weizhu Chen 和剑峰高。 2021.使用零点超参数传输调整大型神经网络。神经信息处理系统的进展。