GPU 0000:3D:00.0 unknown error GPU is lost!! 问题解决
之前上一篇重新配置了系统驱动cuda后还是会报错,怀疑是硬件的问题
从网络到英伟达官网,再到联想客服,一般都是两种答案
电源供电不足,或者过热
由于实验室配置的是两块Tesla M60,只有被动散热,而且在程序运行中使用英伟达的显卡监测
nvidia-smi -l
发现,一旦温度超过91°就会显示
GPU is lost ! ! !
且温度上升程序运行明显减慢
基本确定是温度的问题,给两块M60单独加装了小风扇
温度最高基本保持在60°左右,也暂时没有报出相同的问题,且程序运行速度也能保持稳定