论文介绍
基于GPT-3的超大模型在算法性能上有着惊艳的表现,但其推理时的庞大显存和密集计算使得其无法满足生产环境下的高吞吐、低延迟、低成本需求,因此,研究生产环境可容忍的大模型推理技术十分必要。网易开源的Easy and Efficient Transformer 通过手工优化的CUDA算子,可支持大模型和长序列的模型推理,并通过极致的显存压缩,扩充单卡的模型容纳能力。目前,EET的性能是NVIDIA Faster Transformer的1.4倍到4.2倍,模型承载能力是pytorch的1.8倍。
落地场景及效果
EET应用于雷火多款旗舰游戏,如逆水寒、忘川风华路等;
EET也应用于网易内部多种互联网场景,如网易云音乐、Lofter等。
开源地址
https://github.com/NetEase-FuXi/EET
论文地址
https://arxiv.org/abs/2104.12470