腾讯云TI-ACC加速工具产品优势_AI解决方案_同尘科技

TI-ACC 加速工具 3年前 (2022-06-27) 浏览 109

性能优越

基于业界领先的 AI 加速技术，提供高性能模型训练、推理加速服务，可显著提升性能，其中训练加速能力基于腾讯云帆 Light 在内部游戏 AI、小红书、虎牙等多个项目验证，推理加速能力基于腾讯云帆 TNN 在手Q、微视等多个项目落地。

推理加速实测数据

硬件环境	模型	Batchsize	torchscript（ms）	TI-ACC（ms）	加速比
腾讯云TI 平台 32C128G T4 * 1	resnet50(torchvision)224×224	1	5.4622	1.1482	4.8x
	resnet50(torchvision)224×224			8	27.062	4.5707	5.9x
		resnet50(mmcls)224×224	1	7.7667	4.3958	1.8x
		resnet50(mmcls)224×224		8	36.806	14.1152	2.6x
		centernet640x640	1	20.9992	4.7775	4.4x
		centernet640x640		8	170.5488	34.3523	5.0x
		yolov3(ultralytics)640×640	1	47.19	10.3671	4.5x
		yolov3(ultralytics)640×640		8	302.983	82.6971	3.7x
		Cascade Mask R-CNN(mmdet)2016×3008	1	600.0671	165.8467	3.6x
		Faster R-CNN(mmdet)1088×800	1	107.3483	35.5021	3.0x
		Vision Transformer224x224	8	28.887	10.53	2.7x
		Wide & Deep(NVIDIA DeepLearningExamples)	512	15.7	4.436	3.5x
		DeepFM(NVIDIA DeepLearningExamples)	512	12.91	4.51	2.9x

训练加速-DDP 通信优化实测效果

硬件环境	模型	GPU 卡数	原生 DDP(examples/sec per V100)	TI-ACC 通信优化(examples/sec per V100)
腾讯云 TI 平台80C320G V100 * 8	resnext50_32x4d	1（单机）	227	227
				8（单机）	215	215
				16（双机）	116	158.6

训练加速-数据 IO 优化实测效果

硬件环境	模型	GPU 卡数	原生 DDP（examples/sec per V100）	TI-ACC 数据 IO 优化（examples/sec per V100）
腾讯云 TI 平台80C320G V100 * 8	resnet50mmcls	8（单机）	70.8	350.5
腾讯云 TI 平台80C320G V100 * 8		centernetmmdet	8（单机）	26.4	28.6

训练加速-自适应混合精度优化实测效果

硬件环境	模型	GPU 卡数	原生 DDP（examples/sec per V100）	TI-ACC 数据 IO 优化（examples/sec per V100）	TI-ACC 数据 IO + 自适应混合精度优化（examples/sec per V100）
腾讯云 TI 平台80C320G V100 * 8	resnet50mmcls	8（单机）	70.8	350.5	379.2
腾讯云 TI 平台80C320G V100 * 8		centernetmmdet	8（单机）	26.4	28.6	30.6

训练加速-PS 相关优化实测效果

硬件环境	模型	GPU 卡数	原生 TensorFlow(global_step/sec)	TI-ACC 优化后(global_step/sec)
腾讯云 TI平台80C320G V100 * 8	DeepFM	16（双机）	41.9-56	96.1-103.3
腾讯云 TI平台80C320G V100 * 8		Wide & Deep	16（双机）	49.9-69	120-128

功能丰富

训练加速底层通过接口提供数据 IO 优化、自适应FP16、通信加速等功能。推理加速底层通过接口支持多种模型输入格式、多种优化级别、固定&动态输入维度、自定义测试数据输出测试报告以及对模型进行保存输出等功能。

接入方便

训练加速和推理加速已支持原生的 Pytorch 框架等框架，支持 TensorFlow 等框架，用户可直接在原生框架下使用 TI-ACC 的加速能力，无需进行额外的模型格式转换等适配工作。训练加速中的通信加速能力通过兼容原生的 DDP 工具提供，用户无需修改原生的使用代码可直接进行使用，数据 IO 优化、自适应 FP16 都通过封装好的简单函数/类进行提供，用户仅需增加几行代码便可使用。推理加速整体能力通过一个函数提供，用户可通过这个函数使用到所有推理加速的能力。推理加速整体能力通过一个新建优化任务使用，用户即可使用到所有推理加速的能力。

技术强大

TI-ACC 训练加速基于腾讯云帆 Light 常年内外部项目打磨验证，底层提供数据 IO 优化、计算优化、通信加速、并行训练、显存优化等能力；TI-ACC 推理加速基于腾讯云帆 TNN 常年内外部项目打磨验证，底层提供计算优化、低精度加速、内存优化等能力。

推理加速技术架构图

训练加速技术架构图

对解决方案有疑惑？想了解解决方案收费？联系解决方案专家

腾讯云限时活动1折起，即将结束：马上收藏

同尘科技为腾讯云授权服务中心，购买腾讯云享受折上折，更有现金返利:同意关联，立享优惠

阿里云解决方案也看看？：点击对比阿里云的解决方案

tongchenkeji

这个用户有点懒，什么都没写~

- 0人点赞 -

腾讯云TI-ACC加速工具产品概述_AI解决方案_同尘科技

发表点评（0条）

回复：取消回复

提交

暂无评论，你要说点什么吗？

腾讯云TI-ACC加速工具产品优势_AI解决方案_同尘科技

性能优越

推理加速实测数据

训练加速-DDP 通信优化实测效果

训练加速-数据 IO 优化实测效果

训练加速-自适应混合精度优化实测效果

训练加速-PS 相关优化实测效果

功能丰富

接入方便

技术强大

推理加速技术架构图

训练加速技术架构图

- END -

tongchenkeji

- 0人点赞 -

腾讯云TI-ACC加速工具产品概述_AI解决方案_同尘科技

腾讯云TI-ACC加速工具应用场景_AI解决方案_同尘科技

发表点评（0条）

回复：取消回复

微信扫码登录

账号注册

找回密码

腾讯云TI-ACC加速工具产品优势_AI解决方案_同尘科技

性能优越

推理加速实测数据

训练加速-DDP 通信优化实测效果

训练加速-数据 IO 优化实测效果

训练加速-自适应混合精度优化实测效果

训练加速-PS 相关优化实测效果

功能丰富

接入方便

技术强大

推理加速技术架构图

训练加速技术架构图

- END -

tongchenkeji

- 0人点赞 -

腾讯云TI-ACC加速工具产品概述_AI解决方案_同尘科技

腾讯云TI-ACC加速工具应用场景_AI解决方案_同尘科技

相关推荐

腾讯云实时互动教育版产品动态_音视频解决方案_同尘科技

腾讯云多人音视频房间SDKSDK2.0版本升级指引_音视频解决方案_同尘科技

腾讯云多人音视频房间SDK多人音视频房间 SDK 2.0版本发布和推荐升级公告_音视频解决方案_同尘科技

腾讯云实时音视频多人音视频（TUIRoomKit）发布2.0版本 SDK 和推荐升级公告_音视频解决方案_同尘科技

发表点评 （0条） 回复： 取消回复

账号登录

微信扫码登录

账号注册

找回密码

发表点评（0条）

回复：取消回复