网易开源的针对transformer-based模型的推理加速框架,支持在中低端Ampere架构上单卡高性能推理百亿级模型。
项目背景
基于变压器的大规模模型已被证明在许多领域的各种任务中都是有效的。然而,将它们应用于工业生产需要繁重的工作来降低推理成本。为了填补这一空白,我们引入了一个可扩展的推理解决方案:Easy and Efficient Transformer (EET),包括算法和实现层面的一系列 Transformer 推理优化。
首先,我们为长输入和大隐藏尺寸设计了高度优化的内核。
其次,我们提出了一个灵活的 CUDA 内存管理器,以减少部署大型模型时的内存占用。与最先进的 Transformer 推理库(Faster Transformer v4.0)相比,EET 在 A100 GPU 的 Transformer 解码层上可以实现平均 1.40-4.20 倍的加速。
论文地址
https://arxiv.org/abs/2104.12470
Github地址
https://github.com/NetEase-FuXi/EET