腾讯云GPU云服务器使用 GPU 监控
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通云监控。您可通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。您也可以在 腾讯云可观测平台 分析监控指标和实施告警,更多详细内容可参见 腾讯云可观测平台告警管理。
GPU 监控工作条件
GPU 监控是通过在 GPU 云服务上部署安装相关 GPU 驱动 和 云服务器监控组件 来实现的,使用不同的镜像需要不同的处理方式:使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。使用镜像市场GPU驱动预装镜像:无需任何安装。使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。
查看 GPU 工作参数
单击 GPU 列表中的
监控图标, 访问 控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF 和监控数据。如下图所示:
参数说明:
指标名称 | 含义 | 单位 | 维度 |
GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GPU 显存使用量 | 评估负载对显存占用 | MBytes | per-GPU |
GPU 功耗 | 评估 GPU 耗电情况 | W | per-GPU |
GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
无监控数据原因
只支持 NVIDIA GPU 实例。没有安装 GPU 驱动或监控组件。其他原因分析可参见 云服务器无监控数据。
官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠
暂无评论,你要说点什么吗?