腾讯云TI-ACC加速工具产品优势_AI解决方案_同尘科技
性能优越
基于业界领先的 AI 加速技术,提供高性能模型训练、推理加速服务,可显著提升性能,其中训练加速能力基于腾讯云帆 Light 在内部游戏 AI、小红书、虎牙等多个项目验证,推理加速能力基于腾讯云帆 TNN 在手Q、微视等多个项目落地。
推理加速实测数据
硬件环境 | 模型 | Batchsize | torchscript(ms) | TI-ACC(ms) | 加速比 |
腾讯云TI 平台 32C128G T4 * 1 | resnet50(torchvision)224×224 | 1 | 5.4622 | 1.1482 | 4.8x |
| | 8 | 27.062 | 4.5707 | 5.9x |
| resnet50(mmcls)224×224 | 1 | 7.7667 | 4.3958 | 1.8x |
| | 8 | 36.806 | 14.1152 | 2.6x |
| centernet640x640 | 1 | 20.9992 | 4.7775 | 4.4x |
| | 8 | 170.5488 | 34.3523 | 5.0x |
| yolov3(ultralytics)640×640 | 1 | 47.19 | 10.3671 | 4.5x |
| | 8 | 302.983 | 82.6971 | 3.7x |
| Cascade Mask R-CNN(mmdet)2016×3008 | 1 | 600.0671 | 165.8467 | 3.6x |
| Faster R-CNN(mmdet)1088×800 | 1 | 107.3483 | 35.5021 | 3.0x |
| Vision Transformer224x224 | 8 | 28.887 | 10.53 | 2.7x |
| Wide & Deep(NVIDIA DeepLearningExamples) | 512 | 15.7 | 4.436 | 3.5x |
| DeepFM(NVIDIA DeepLearningExamples) | 512 | 12.91 | 4.51 | 2.9x |
训练加速-DDP 通信优化实测效果
硬件环境 | 模型 | GPU 卡数 | 原生 DDP(examples/sec per V100) | TI-ACC 通信优化(examples/sec per V100) |
腾讯云 TI 平台80C320G V100 * 8 | resnext50_32x4d | 1(单机) | 227 | 227 |
| | 8(单机) | 215 | 215 |
| | 16(双机) | 116 | 158.6 |
训练加速-数据 IO 优化实测效果
硬件环境 | 模型 | GPU 卡数 | 原生 DDP(examples/sec per V100) | TI-ACC 数据 IO 优化(examples/sec per V100) |
腾讯云 TI 平台80C320G V100 * 8 | resnet50mmcls | 8(单机) | 70.8 | 350.5 |
| centernetmmdet | 8(单机) | 26.4 | 28.6 |
训练加速-自适应混合精度优化实测效果
硬件环境 | 模型 | GPU 卡数 | 原生 DDP(examples/sec per V100) | TI-ACC 数据 IO 优化(examples/sec per V100) | TI-ACC 数据 IO + 自适应混合精度优化(examples/sec per V100) |
腾讯云 TI 平台80C320G V100 * 8 | resnet50mmcls | 8(单机) | 70.8 | 350.5 | 379.2 |
| centernetmmdet | 8(单机) | 26.4 | 28.6 | 30.6 |
训练加速-PS 相关优化实测效果
硬件环境 | 模型 | GPU 卡数 | 原生 TensorFlow(global_step/sec) | TI-ACC 优化后(global_step/sec) |
腾讯云 TI平台80C320G V100 * 8 | DeepFM | 16(双机) | 41.9-56 | 96.1-103.3 |
| Wide & Deep | 16(双机) | 49.9-69 | 120-128 |
功能丰富
训练加速底层通过接口提供数据 IO 优化、自适应FP16、通信加速等功能。推理加速底层通过接口支持多种模型输入格式、多种优化级别、固定&动态输入维度、自定义测试数据输出测试报告以及对模型进行保存输出等功能。
接入方便
训练加速和推理加速已支持原生的 Pytorch 框架等框架,支持 TensorFlow 等框架,用户可直接在原生框架下使用 TI-ACC 的加速能力,无需进行额外的模型格式转换等适配工作。训练加速中的通信加速能力通过兼容原生的 DDP 工具提供,用户无需修改原生的使用代码可直接进行使用,数据 IO 优化、自适应 FP16 都通过封装好的简单函数/类进行提供,用户仅需增加几行代码便可使用。推理加速整体能力通过一个函数提供,用户可通过这个函数使用到所有推理加速的能力。推理加速整体能力通过一个新建优化任务使用,用户即可使用到所有推理加速的能力。
技术强大
TI-ACC 训练加速基于腾讯云帆 Light 常年内外部项目打磨验证,底层提供数据 IO 优化、计算优化、通信加速、并行训练、显存优化等能力;TI-ACC 推理加速基于腾讯云帆 TNN 常年内外部项目打磨验证,底层提供计算优化、低精度加速、内存优化等能力。
推理加速技术架构图
训练加速技术架构图
对解决方案有疑惑?想了解解决方案收费? 联系解决方案专家
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心,购买腾讯云享受折上折,更有现金返利:同意关联,立享优惠
阿里云解决方案也看看?: 点击对比阿里云的解决方案
暂无评论,你要说点什么吗?