监控
DeepSpeed 的监控模块可以将训练细节记录到与 Tensorboard 兼容的文件、WandB 或简单的 CSV 文件中。以下是 DeepSpeed 将自动记录的内容概述。
TensorBoard
WandB
Comet
- class deepspeed.monitor.config.CometConfig[source]
设置 Comet 监控的参数。为了记录数据,Comet 使用实验对象。https://www.comet.com/docs/v2/api-and-sdk/python-sdk/reference/Experiment/
- enabled: bool = False
是否启用 Comet 日志记录。需要安装 comet_ml 包。
- samples_log_interval: int = 100
处理每 samples_log_intervas 个样本后,指标将提交到 Comet
- project: Optional[str] = None
Comet 项目名称。可以通过 .comet.config 文件或环境变量 COMET_PROJECT_NAME 设置 https://www.comet.com/docs/v2/guides/experiment-management/configure-sdk/#explore-comet-configuration-options
- workspace: Optional[str] = None
Comet 工作区名称。可以通过 .comet.config 文件或环境变量 COMET_WORKSPACE 设置 https://www.comet.com/docs/v2/guides/experiment-management/configure-sdk/#explore-comet-configuration-options
- api_key: Optional[str] = None
Comet API 密钥。可以通过 .comet.config 文件或环境变量 COMET_API_KEY 设置 https://www.comet.com/docs/v2/guides/experiment-management/configure-sdk/#explore-comet-configuration-options
- experiment_name: Optional[str] = None
用于日志记录的 comet 实验的名称。可以通过 .comet.config 文件或环境变量 COMET_EXPERIMENT_NAME 设置 https://www.comet.com/docs/v2/guides/experiment-management/configure-sdk/#explore-comet-configuration-options
- experiment_key: Optional[str] = None
用于日志记录的 comet 实验的密钥。必须是长度在 32 到 50 个字符之间的字母数字字符串。可以通过 .comet.config 或环境变量 COMET_EXPERIMENT_KEY 设置 https://www.comet.com/docs/v2/guides/experiment-management/configure-sdk/#explore-comet-configuration-options
- online: Optional[bool] = None
如果为 True,则数据将记录到 Comet 服务器,否则将存储在本地离线实验中。默认为 True。
- mode: Optional[str] = None
- 控制 Comet 实验的启动方式,有 3 种选择。
“get”: 继续记录到由 experiment_key 值标识的现有实验。
“create”: 始终创建一个新实验,对于 HPO 扫描很有用。
“get_or_create”(默认):如果需要,则启动一个新的实验,或者持续记录到现有的实验。