腾讯云TI-ONE训练平台训练加速类/函数说明_AI解决方案_同尘科技

TI-ONE 训练平台 2年前 (2022-07-08) 浏览 32

tiacc_training.torch.distributed.launch 函数

初始化 DDP 通信加速优化,会默认将原生 DDP 相关的函数调整为调用 TI-ACC 通信加速能力,原生 DDP 相关的主要模块/类包括:torch.distributed和 torch.nn.parallel.DistributedDataParallel()。

adaptfp16.MixedPrecision_TrainingPolicy 类

实现对训练过程中自动混合精度自适应策略的实例化,自适应策略包括时间混合精度、时间学习率混合精度策略、损失函数混合精度策略。n初始化参数:

参数 类型 是否必填 参数说明 示例 默认值
policy INT 自适应混合精度策略,0:时间混合精度,适用于通用自适应情况;1:时间学习率混合精度策略,适用于训练过程中某一阶段 loss 波动出现异常的情况;2:损失函数混合精度策略,适用于训练过程中 loss 下降过快或过慢情况。 0
start_time INT 开启自适应混合精度的开始时间,一般建议设为10。策略为0和1时必填,为2时非必填。 10 10
end_time INT 开启自适应混合精度的结束时间,一般建议设为最后一个 epoch 时间。策略为0和1时必填,为2时非必填。 1000 None
hold_time INT 开启策略1时的保持时间,在保持时间内采用统一策略:开启或者不开启。一般建议为训练过程中 loss 异常波动的持续时间。策略为1时必填,为0和2时非必填。 20 None
interval_time INT 开启策略2的间隔时间,默认值为1000,即每间隔1000轮 epoch 开启策略2。策略为2时需要填写,为0和1时无需必填。 1000 1000
interval_hold_time INT 在 interval_time 间隔时间开启策略2后的保持时间,默认值为100,如 interval_time 为1000,即在1000-1100,2000-2100…开启策略2。策略为2时需要填写,为0和1时无需必填。 100 100

实例化对象:

对象 类型 对象说明
policy MixedPrecision_TrainingPolicy 类 训练过程中自动混合精度自适应策略的实例化对象

enable_mixed_precision 函数方法

属于 MixedPrecision_TrainingPolicy 类,根据输入的参数得到当前 epoch 是否需要开启自动混合精度。n输入参数:

参数 类型 是否必填 参数说明 示例 默认值
epoch INT 当前的 epoch 20
scaler torch.cuda.amp.GradScaler 梯度缩放实例化对象 scaler
lr float lr 是当前 epoch 的学习率 0.01 None
loss float loss 是上一轮 epoch 的损失值 0.1 None

输出参数:

输出参数 类型 参数说明
mixed_precision BOOL 输入的参数得到当前 epoch 是否需要开启自动混合精度,是返回 TRUE,否则返回 FLASE。



对解决方案有疑惑?想了解解决方案收费? 联系解决方案专家

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心,购买腾讯云享受折上折,更有现金返利:同意关联,立享优惠

阿里云解决方案也看看?: 点击对比阿里云的解决方案

- 0人点赞 -

发表点评 (0条)

not found

暂无评论,你要说点什么吗?