您当前所在位置：首页攻略算法优化与并行注意力机制

算法优化与并行注意力机制

更新：2024-06-29 18:48:51编辑：游戏资讯归类：攻略

算法优化是人工智能领域中的重要议题。本文将介绍并行注意力机制、滑动窗口Attention、AdamW优化、3D并行优化、数据加载优化、网络通信优化和集群容错等方面的优化方法。

并行注意力机制

在并行注意力机制中，通过将mlp融合到attention里，可以实现在62B模型上性能没有下降。主要对应的是网络结构的并行化改造。

滑动窗口Attention

滑动窗口Attention的原理是通过堆叠不同大小的窗口来捕获句子中的信息，从而减小所需的计算量。随着层级越高，理论上每个位置注意到的区域就越大，所能存储的信息就越接近全局attention时的状态。

AdamW优化(LAMB)

AdamW相比于adam的优化在于将权重衰减项从梯度的计算中拿出来直接加在了最后的权重更新步骤上，从而提升优化效果。新增的截断函数的主要目的是为了防止batch_size太大的时候导致优化过程中动量出现极端值影响bp。

这里做的优化是新增了一个 \(\phi\) 截断函数，主要目的是为了防止batch_size太大的时候导致优化过程中动量出现极端值影响bp。这个方法可以将batch_size增大4倍从而加速训练。

3D并行优化

张量并行优化

序列并行(SP)主要有两个目的：平摊LayerNorm和Dropout的计算开销，以及平摊Activation占用显存。另外，对矩阵做切片后再进行矩阵乘法，计算效率要也比两个超大的矩阵乘法要高。

AllGather优化

序列并行(SP)后，在进行张量并行(TP)前需要在fp的时候需要先通过gather把之前层的切片从其他节点copy汇聚过来。为了尽量隐藏通信，可以优化成每通信完成一个切片后，进行这个切片的MLP列切分计算，同时直接把gather结果送给attention并行计算，最后再把切片计算结果concat到一起。