腾讯云TI-ONE训练平台训练加速功能介绍_AI解决方案_同尘科技

TI-ONE 训练平台 1年前 (2023-08-02) 浏览 52

训练加速中的通信加速能力通过兼容原生的 DDP、PS 工具提供,用户无需修改原生的使用代码可直接进行使用,数据 IO 优化、自适应 FP16 都通过封装好的简单函数/类进行提供,用户仅需增加几行代码便可使用。

使用 DDP 分布式训练通信优化(PyTorch+DPP)

以兼容原生 DDP 的方式启动训练脚本,无需进行训练代码的修改,启动命令参考示例如下:

python3 -u -m tiacc_training.torch.distributed.launch --nproc_per_node $GPUS_PER_NODE --nnodes $NNODES --node_rank $NODE_RANK --master_addr $MASTER_ADDR --master_port $MASTER_PORT main.py

DDP 分布式训练通信优化实测效果:n(加速效果在多机多卡场景方有体现,单机多卡场景与原生 DDP 性能无异。)

硬件环境 模型 GPU 卡数 原生DDP(examples/sec per V100) TI-ACC通信优化(examples/sec per V100)
腾讯云GN10Xp.20XLARGE320 resnext50_32x4d 1(单机) 227 227
8(单机) 215 215
16(双机) 116 158.6

使用自适应混合精度优化(PyTorch)

import torch.cuda.amp as amp import tiacc_training.torchscaler = amp.GradScaler() #实例化自适应混合精度策略类的对象policy = tiacc_training.torch .tiacc_torch_warp.MixedPrecision_TrainingPolicy(policy,start_step,hold_step,end_step,interval_time,interval_hold_time)#根据输入的参数得到当前epoch是否需要开启混合精度mixed_precision = policy.enable_mixed_precision(epoch,lr=lr,loss=loss,scaler=scaler)with amp.autocast(enabled=mixed_precision):     outputs = model(inputs)     loss = criterion(outputs, targets)scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()

自适应混合精度优化实测效果:

硬件环境 模型 GPU 卡数 原生PyTorch(examples/sec per V100) TI-ACC 数据 IO 优化(examples/sec per V100) TI-ACC 数据 IO+自适应混合精度优化(examples/sec per V100)
腾讯云GN10Xp.20XLARGE320 resnet50 mmcls 8(单机) 70.8 350.5 379.2
centernet mmdet 8(单机) 26.4 28.6 30.6

使用优化后的 embedding 变量构造(TensorFlow+PS)

# 启动容器docker run -itd --name tiacc-rec-fm --network=host --ipc=host ccr.ccs.tencentyun.com/ti-platform/tensorflow:1.15.5-py3-rec-0121# 进入容器docker exec -it tiacc-rec-fm bash# 原生tensorflow embedding使用方法cd wideanddeep && bash start_all.sh --fm# tiacc lookup优化使用方法cd wideanddeep && bash start_all.sh --tiacc --fm

embedding 变量构造+lookup 计算优化实测效果:

硬件环境 模型 GPU 卡数 原生 TensorFlow(global_steps/sec per V100) TI-ACC 优化后(global_steps/sec per V100)
腾讯云GN10Xp.20XLARGE320 DeepFM 16(双机) 41.9 – 56 96.1 – 103.3
Wide & Deep 16(双机) 49.9 – 69 120 – 128



对解决方案有疑惑?想了解解决方案收费? 联系解决方案专家

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心,购买腾讯云享受折上折,更有现金返利:同意关联,立享优惠

阿里云解决方案也看看?: 点击对比阿里云的解决方案

- 0人点赞 -

发表点评 (0条)

not found

暂无评论,你要说点什么吗?