腾讯云TI-ONE训练平台TensorFlow 组件说明_AI解决方案_同尘科技

TI-ONE 训练平台 2年前 (2023-04-28) 浏览 40

TensorFlow 组件为用户提供了基于 Python API 的 TensorFlow 运行环境,用户可将编写好的脚本及依赖文件上传至组件进行算法训练。可视化建模中有 TensorFlow / TensorFlow_PsWorker / TensorFlow_TI_ACC 三个版本的组件,分别为原版,PS-Worker 架构版,PS-Worker + TI-ACC 加速版。

操作步骤

1. 添加组件从左侧菜单栏中,选择组件算子 > 深度学习列表下的 TensorFlow / TensorFlow_PsWorker / TensorFlow_TI_ACC 节点,将其拖拽至画布中。2. 算法 IO 参数高级设置内,主要包含输入数据和输出数据的设置,您可以通过自定义路径设定或通过拖拽数据源、输出算子连接到组件算子上进行设置。请注意本地路径,您的程序可能需要在对应路径进行读写。3. 算法参数TensorFlow :*代码包:从指定对象存储 cos 存储桶中选择文件夹。启动命令:算子启动时执行的命令,默认入口为 start.sh 。调优参数:填写的超参数 JSON 会保存为 /opt/ml/input/config/hyperparameters.json 文件,您的代码需自行解析。TensorFlow_PsWorker / TensorFlow_TI_ACC :*代码包:从指定对象存储 cos 存储桶中选择相应的文件夹。PS 启动命令: PS 节点启动时执行的命令,默认为 start.sh 。Worker 启动命令: Worker 节点启动时执行的命令,默认为 start.sh 。调优参数:填写的超参数 JSON 会保存为 /opt/ml/input/config/hyperparameters.json 文件,您的代码需自行解析。4. 资源参数TensorFlow :*框架版本:使用的 TensorFlow 框架版本。*训练模式:可选 MPI 或 HOROVOD 。*计费模式:可选按量付费或包年包月。*算力规格。*节点数量。TensorFlow_PS_Worker / TensorFlow_TI_ACC :*框架版本:使用的 TensorFlow 框架版本。*训练模式:默认为 PS_WORKER 。*计费模式:可选按量计费或包年包月。*PS 资源申请:*算力规格*节点数量*Worker 资源申请:*算力规格*节点数量5. 运行单击保存并运行工作流。6. 查看 Tensorflow 日志在 Tensorflow 节点上单击右键菜单可查看详细日志。

Demo

下面演示如何通过 TensorFlow 组件算子在 HOROVOD 训练模式下训练卷积神经网络识别 MNIST 数据集。1. 准备好代码包和数据集,您可以点击 代码包 、 数据集 下载。解压后将文件夹上传到您的 COS 存储桶中,使其可以在组件算子中被导入。2. 进行参数配置,首先是算法 IO 参数的高级设置(为了方便修改本地路径,使用自定义路径)。输入数据 0 使用自定义路径,数据源类型使用 COS ,点击选择文件选择数据所在的文件夹,由于要与代码中所设定的数据路径对齐,本地路径名改为 mnist :算法参数:点击选择文件,选择代码所在文件夹。启动命令为 /bin/bash start.sh 10000 128 2 以指定训练 step 数、 batch size 和节点数量。资源参数:*框架版本:tf2.4-py3.8-cuda11.1-gpu*训练模式:HOROVOD*计费模式:按量付费*算力规格:8C32G T4*1*节点数量:23. 等待运行结束后,查看日志,可以看到训练过程的输出,以及最后的耗时,在 80~90s 左右:

对解决方案有疑惑?想了解解决方案收费? 联系解决方案专家

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心,购买腾讯云享受折上折,更有现金返利:同意关联,立享优惠

阿里云解决方案也看看?: 点击对比阿里云的解决方案

- 0人点赞 -

发表点评 (0条)

not found

暂无评论,你要说点什么吗?