腾讯云计算加速套件TACO Kit配置 HARP 分布式训练环境
操作场景
本文介绍如何通过云服务器控制台,为实例配置 HARP 分布式训练环境。
操作步骤
绑定弹性网卡
弹性网卡数量等于 GPU 卡的数量,例如8卡训练机器则需要绑定8张弹性网卡(加主网卡共9张网卡)。具体步骤如下:1. 登录 云服务器控制台,选择实例 ID 进入详情页面。2. 在实例详情页中,选择弹性网卡页签,并单击绑定弹性网卡。如下图所示:
3. 在弹出的绑定弹性网卡窗口中,选择弹性网卡,单击确认即可。
配置并验证环境
1. 参见 使用标准登录方式登录 Linux 实例,登录实例。2. 执行以下命令,执行配置脚本。
curl -s -L http://mirrors.tencent.com/install/GPU/taco/taco_setup.sh | sudo bash
返回结果如下图所示:
3. 执行以下命令,重启实例。
sudo reboot
4. 依次执行以下命令,检查是否配置成功。检查大页内存是否配置成功:
cat /proc/meminfo | grep HugePages_Total
返回如下结果,表示配置成功。
HugePages_Total: 50
检查是否产生了配置文件:
ls -l /usr/local/tfabric/tools/config/ztcp*.conf
返回结果如下图所示,表示已产生配置文件。
官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠
暂无评论,你要说点什么吗?