漫辰夕BLOG
🏠 首页 📚 归档 🗂️ 分类 🔗 友链
GPU 压测神器 fieldiag 全解析——从显存到温度,15 分钟入门
Linux相关 fieldiag

GPU 压测神器 fieldiag 全解析——从显存到温度,15 分钟入门

✍️ 漫辰夕 📅 2025/10/1 👁️ 26 次阅读

如果你手里有一张 A100/H100,或者即将接手一台 8-GPU 的 HGX 模组,“跑个 fieldiag 先” 一定是工程师挂在嘴边的一句话。它就像体检表:血压、心电图、B 超一次做完,GPU 能不能扛住 7×24 的 AI 训练,全看这张“成绩单”。

今天这篇,把 fieldiag 到底在跑什么、怎么看报告、以及常见翻车点,一次性讲清。看完你能:

  • 5 分钟给同事讲明白 fieldiag 是干啥的
  • 30 秒定位“哪颗 GPU 挂了”
  • 避免“测完温度才发现电源线松了”的尴尬


1. fieldiag 是什么?

一句话:NV 官方 RMA 的“体检表”

  • 支持全系列 GPU:从 PCIe 单卡到 8-GPU HGX 模组
  • 输出三种结果:PASS / FAIL / RETEST
  • 生成日志:logs-yyyymmdd-hhnnss.tgz,售后工程师第一眼就看它


2. 三步起跑——先把环境搭好

  1. 做个启动 U 盘(Ubuntu 20.04 + 官方 fieldiag 包)
  2. 插到目标机器,U 盘启动
  3. 一行命令开跑:

bash
./fieldiag.sh --level2 # 最常用,2 小时完事

小贴士:远程客户现场,让值班小哥拍个屏幕照片就行,日志回头再收。


3. 测试项目全景图

模块耗时测什么翻车现场
skucheck15 minGPU 基本配置、电源、PCIe 速率电源线少插一根,直接 FAIL
connectivity16 minNVLink 物理链路、PCIe 速率/宽度某槽位只跑 ×8,原来是转接卡坏了
gpumem5 min显存颗粒 + FBIO 接口显存坏块,训练到 3% 直接崩
cudacores9 minCUDA Core 指令正确性核心掩码错误,算子跑不出结果
pcie13 min眼图、速率切换信号完整性差,降到 ×8 才能稳
nvlink24 minNVLink 带宽 + 眼图链路重传率 >1%,多卡训练掉速
nvswitch13 minSwitch 芯片眼图8-GPU 拓扑里 Switch 挂了,全网瘫痪
gpustress7 min满载 GPU 核心频率飙到 97℃ 降频,风扇曲线没调好
power24 minGPU + NVSwitch 供电压力电源瞬载跌落,触发 PSU OCP
thermal2 h 16 min持续高温 85℃+风道被网线挡住,热点死机


4. 报告长啥样?

测完会蹦出三选一的“表情包”:

  • PASS:放心上线,该吃吃该睡睡
  • FAIL:日志里会精确到“GPU-2 nvlink 眼图失败”,按图索骥换卡
  • 🔄 RETEST:环境异常(U 盘掉了、PCIe 降速了),擦干净重来
    日志包解压后重点关注:

result.xml # 一眼看结果
nvlink-eye/*.png # 眼图照片,波浪线越干净越好
gpumem.log # 显存错误比特数 >0 就完蛋



5. 个人踩坑 Top 3

  1. “测完 thermal 才想起风扇没插”
    现场吵得要死,一看转速 0,当场社死。
  2. “电源线看似插紧,其实卡扣没合”
    power 测试随机 FAIL,轻轻一推就好了,客户看你眼神都变了。
  3. “日志太大,U 盘满了”
    建议 16G 起步,测完即刻把日志拷走,别等第二天现场小哥把 U 盘弄丢。


6. 一句话速记版

skucheck 看“有没有”,connectivity 看“通不通”,gpumem 看“错没错”,thermal 看“热不热”;四关全绿,GPU 才能“毕业”。

‹ 上一篇 iptables 实战指南:从原理到生产环境防火墙配置
下一篇 › Redis详解(1):初步认识Redis