Transformer 算子

DeepSpeed 中的 Transformer 算子 API 可用于创建 BERT Transformer 层，以实现更高效的预训练和微调，它包括 Transformer 层的配置和 Transformer 层模块的初始化。

在此我们介绍 Transformer 算子 API。有关使用详情，请参阅 BERT 预训练教程。