腾讯云专用宿主机安装 Tesla 驱动

专用宿主机 1年前 (2023-12-11) 浏览 55

操作场景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有以下两个层次的软件包需要安装:驱动 GPU 工作的硬件驱动程序。上层应用程序所需要的库。若把 NVIDIA GPU 用作通用计算,则需安装 Tesla Driver + CUDA。本文介绍如何安装 Tesla Driver,如何安装 CUDA 请参见 安装 CUDA 指引说明为方便用户,用户可以在创建 GPU 云服务器时,在服务市场里选择预装特定版本驱动和 CUDA 的镜像。详情请参见 驱动安装方式推荐

操作步骤

Linux 驱动安装

Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。本文提供 CentOS 及 Ubuntu 系统操作步骤,请您按需选择:CentOSUbuntu1. 执行以下命令,检查当前系统中是否已安装 dkms。

rpm -qa | grep -i dkms

返回结果如下图,则表示已安装 dkms。


如未安装 dkms,则执行以下命令进行安装。

sudo yum install -y dkms

2. 登录 NVIDIA 驱动下载 或访问 http://www.nvidia.com/Download/Find.aspx3. 根据实例操作系统及 GPU 规格,选择操作系统和安装包。GPU 规格信息请参见 实例类型4. 单击 SEARCH 搜寻驱动,选择要下载的驱动版本。本文以 V100 为例,如下图所示:注意操作系统(Operating System)选择 Linux 64-bit 即表示下载 shell 安装文件。如果选择具体的发行版,则下载的文件是对应的包安装文件。


5. 选择特定的版本进入下载页面,单击 DOWNLOAD。如下图所示:


6. 如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示:



7. 参见 使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。您也可以根据实际操作习惯,选择其他不同的登录方式:使用远程登录软件登录 Linux 实例使用 SSH 登录 Linux 实例8. 使用 wget 命令, 粘贴 步骤6 中已获取的链接地址,下载安装包。如下图所示:


或者您可在本地系统下载 NVIDIA 安装包,再上传到 GPU 实例的服务器。9. 执行以下命令,对安装包添加执行权限。 例如,对文件名为 NVIDIA-Linux-x86_64-418.126.02.run 添加执行权限。

chmod +x NVIDIA-Linux-x86_64-418.126.02.run

10. 依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。

rpm -qa | grep kernel-devel
rpm -qa | grep gcc

返回结果如下,则表示已安装 gcc 和 kernel-devel。


如未安装,则请执行以下命令进行安装。

sudo yum install -y gcc kernel-devel

注意如升级了 kernel 版本,则需要将 kernel-devel 升级至与 kernel 相同的版本。11. 执行以下命令,运行驱动安装程序,并按提示进行后续操作。

sudo sh NVIDIA-Linux-x86_64-418.126.02.run  --disable-nouveau

12. 安装完成后,执行以下命令进行验证。

nvidia-smi

如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。

说明以下步骤适用于直通卡型(GPU 卡数 ≥ 1)Ubuntu 系统 Tesla 驱动和 GRID 驱动安装,若您使用 GRID 驱动,请参考文档申请和配置 GRID license,详情请参见 安装 NVIDIA GRID 驱动1. 执行以下命令,并输入 root 用户密码,切换至 root 用户。

su

若您需重置 root 用户密码,请参见 Ubuntu 系统如何使用 root 用户登录实例?2. 执行以下命令,查看当前系统中是否已安装 dkms。

dpkg -l | grep -i dkms

返回结果如下图,则表示已安装 dkms。


若返回结果为空,则表明未安装 dkms,执行以下命令进行安装。

apt-get install dkms

3. 前往 Official Drivers 页面,根据实例操作系统及 GPU 型号,按需选择 GRID 驱动类型。4. 选择特定的版本进入下载页面,单击 DOWNLOAD。如下图所示:


5. 如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示:

6. 参考 使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。7. 使用 wget 命令,粘贴 步骤5 中复制的链接地址,下载安装包。如下图所示:

8. 执行以下命令,修改安装包权限。请将命令中的 xxx 替换为您实际的驱动版本号。

chmod +x NVIDIA-Linux-x86_64-xxxx.run

9. 由于 NVIDIA 动的安装需要依赖 gcc 和 linux-kernel-headers,请依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。

dpkg -l | grep -i gcc
dpkg -l | grep -i linux-headers

返回结果如下,则表示已安装 gcc 和 kernel-devel。

若返回结果为空,则表明未安装,执行以下命令进行安装。

sudo apt-get install gcc linux-kernel-headers

10. 执行命令安装驱动程序,根据提示进行后续操作。请将命令中的 xxx 替换为您实际的驱动版本号。

sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s

11. 安装完成后,执行以下命令进行验证。

nvidia-smi

如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。



Windows 驱动安装

1. 参见 使用 RDP 文件登录 Windows 实例(推荐),登录 GPU 实例。2. 访问 NVIDIA 驱动下载 官网。3. 根据实例操作系统及 GPU 规格,选择操作系统和安装包。GPU 规格信息请参见 实例类型
本文以 V100 为例,如下图所示:

4. 打开下载驱动程序所在的文件夹,双击安装文件开始安装,按照界面上的提示安装驱动程序并根据需要重启实例。
安装完成后,如需验证 GPU 是否正常工作,请查看设备管理器。

安装失败原因

Linux 系统驱动安装失败表现为 nvidia-smi 无法工作,通常原因如下:1. 系统缺乏编译 kernel module 所需要的包,如 gcc,kernel-devel-xxx 等,导致无法编译,最终安装失败。2. 系统里面存在多个版本的 kernel,由于 DKMS 的不正确配置,导致驱动编译为非当前版本 kernel 的 kernel module,导致 kernel module 安装失败。3. 安装驱动后,升级了 kernel 版本导致原来的安装失效。
官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

- 0人点赞 -

发表点评 (0条)

not found

暂无评论,你要说点什么吗?