您当前位置: 首页 » GPU相关 » 【英伟达】显卡无法正常工作的线索

【英伟达】显卡无法正常工作的线索

2020-10-09 |

前提条件

显卡类型:专业显卡

特征:具备内存ECC,和一些特定的纠错能力,其他暂时不清楚。

SRAM报ECC错误,导致申请显卡资源失败。

该问题是使用ffmpeg通过cuda api进行申请显卡资源出现报错,或出现长期卡顿不动的情况。出现该问题时,一般均为向驱动产生较高的并发请求,并伴随着相对高一些的负载情况下。

透过nvidia-smi可以看到相应错误为:

可以看到SRAM的错误计数器已经很大,并且是无法纠错的部分。sram又常常被用于寄存器,所以出现这类错误时,gpu状态已经出现异常了,且nvidia官方仅仅提供了显存页的重定向(“退休”),并没有相应寄存器的不可纠错异常处理,因此再这样的情况下时,只有通过重启硬件来尝试解决,并通过nvidia-smi重置显卡。

不过在官方的文档里,如果30天出现5次以上的SBE,基本就可以考虑返修。对于SRAM错误,估计也是离返修不远了,除非是纯vbios或其他软件部分的问题。

参考信息:https://docs.nvidia.com/deploy/dynamic-page-retirement/index.html

分类:

GPU相关

| 标签: