实验室去年到今年断了几次电,然后服务器上的2080Ti一直就感觉有点小毛病。属于是被折磨了几个月了。
然后前两周断电后,显卡就基本上完全用不了了,经常服务器开机都会失败。并且就算服务器开机成功过后,没有几分钟显卡就会自己关掉
刚刚开机一切都很正常
但是没过几分钟显卡就会突然用不了了:
nvidia-smi Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error 然后查看是不是有显卡
lspci| grep -i nvidia 02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff) 很奇怪啊,显卡是在的,但是rev ff就是显卡关闭了。
重启多次过后一直都是这样。
在网上疯狂找,觉得可能存在以下问题
我是服务器的电源线在前几次的断电中出现了问题,所以会出现开机的问题,并且显卡毕竟是大功率电器,而且好像有保护机制,电源有问题就自己断电了。
最后换了一根电源线就解决问题了。
这个太麻烦,而且一般不好解决也不好发现,所以先不管
这个方案执行最简单,所以第一个试一下。
然后,使用了sudo nvidia-smi -pm 1没有用,写到/etc/rc.local里面,也没有用。
退diver版本,更新版本,都没有用
更新cuda也没有用。
个人感觉这个报错一般不会是驱动的问题
开机运行就几分钟,感觉也不太像过热的问题。但是还是抬了个风扇到机房对着吹,最后发现确实不是这个问题。
最后实在是受不了了,想着把显卡卸下来。然后先是把服务器抬到实验室,给老板表演一下显卡自己掉线,结果等了半天一点问题都没有,非常平稳。
然后灰溜溜地把服务器弄回去,结果插电源的时候,pa地一下电源的位置闪了一下火花。突然才想到电源的问题还没有排查。。。
然后随便换了个根电源线,现在一两天了,都没有出问题。。。
上一篇:搭建LNMP服务器