Transformer 算子

DeepSpeed 中的 Transformer 算子 API 可用于创建 BERT Transformer 层,以实现更高效的预训练和微调,它包括 Transformer 层的配置和 Transformer 层模块的初始化。

在此我们介绍 Transformer 算子 API。有关使用详情,请参阅 BERT 预训练教程

DeepSpeed Transformer 配置

DeepSpeed Transformer 层