腾讯云计算加速套件TACO Kit配置 HARP 分布式训练环境

计算加速套件 TACO Kit 12个月前 (12-11) 浏览 47

操作场景

本文介绍如何通过云服务器控制台,为实例配置 HARP 分布式训练环境。

操作步骤

绑定弹性网卡

弹性网卡数量等于 GPU 卡的数量,例如8卡训练机器则需要绑定8张弹性网卡(加主网卡共9张网卡)。具体步骤如下:1. 登录 云服务器控制台,选择实例 ID 进入详情页面。2. 在实例详情页中,选择弹性网卡页签,并单击绑定弹性网卡。如下图所示:

3. 在弹出的绑定弹性网卡窗口中,选择弹性网卡,单击确认即可。

配置并验证环境

1. 参见 使用标准登录方式登录 Linux 实例,登录实例。2. 执行以下命令,执行配置脚本。

curl -s -L http://mirrors.tencent.com/install/GPU/taco/taco_setup.sh | sudo bash

返回结果如下图所示:


3. 执行以下命令,重启实例。

sudo reboot

4. 依次执行以下命令,检查是否配置成功。检查大页内存是否配置成功:

cat /proc/meminfo | grep HugePages_Total

返回如下结果,表示配置成功。

HugePages_Total:      50

检查是否产生了配置文件:

ls -l /usr/local/tfabric/tools/config/ztcp*.conf

返回结果如下图所示,表示已产生配置文件。


官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

- 0人点赞 -

发表点评 (0条)

not found

暂无评论,你要说点什么吗?