安装 nvidia 显卡驱动及故障排查

admin管理员组
文章数量:1794759

安装 nvidia 显卡驱动及故障排查

引言

在一台旧一点的服务器 (CentOS 8.5.2111) 上安装 NVIDIA 显卡驱动及 CUDA 工具包。

如果是 ubuntu 系统，用apt安装，基本上把yum换成apt即可。

过程

一定注意，一定要先查看 PyTorch 和 cuda 的对应关系，避免重装。

PyTorch 和 cuda 的对应关系在PyTorch 官网查看。

而 cuda 和 nvidia-driver 的版本对应关系在CUDA 12.6 Update 2 Release Notes查看。

安装顺序：显卡驱动 → CUDA → CUDA Toolkit → cuDNN → Pytorch

以这台服务器的显卡型号为 Tesla V100 PCIe 32GB 为例，PyTorch 可以和 cuda 12.4 对应，所以安装 cuda 12.4.1, 对应的 nvidia-driver 是 550.54.15。

检查显卡型号

打开终端并运行以下命令，查看显卡型号：

代码语言：bash复制

lspci | grep -i nvidia

若显卡支持 CUDA 加速，可以看到 NVIDIA 显卡的型号（如 NVIDIA GeForce GTX 1080）。

安装 NVIDIA 驱动

准备环境：

代码语言：bash复制

sudo yum -y install kernel-devel
sudo yum -y install epel-release
sudo yum -y install gcc

在 CentOS 上，如果找不到 nvidia-driver-latest-dkms，可以尝试以下步骤来手动安装 NVIDIA 驱动和 CUDA。

手动下载并安装 NVIDIA 驱动

前往 NVIDIA 官方网站：

NVIDIA 驱动下载。

选择你的显卡型号和操作系统，然后下载对应的驱动程序。

安装 NVIDIA 驱动：

下载驱动后，将安装包下载到某个目录，然后通过终端进入该目录。
为驱动程序添加执行权限并运行安装程序：

这时候有两种选择，一种是下载可执行文件 (run), 一种是下载打包好的程序 (deb, rpm), 这里先实验了程序，重启后无效，所以选择下载可执行文件：

前面说过，以这台服务器的显卡型号为 Tesla V100 PCIe 32GB 为例，对应的 nvidia-driver 是 550.54.15。

代码语言：bash复制

wget .54.15/NVIDIA-Linux-x86_64-550.54.15.run
sudo chmod +x NVIDIA-Linux-x86_64-*.run
sudo ./NVIDIA-Linux-x86_64-*.run

交互界面选择默认即可。

程序方法：

代码语言：bash复制

wget .127.05/nvidia-driver-local-repo-rhel8-550.127.05-1.0-1.x86_64.rpm
sudo chmod +x ./nvidia-driver-local-repo-rhel8-*.rpm
sudo yum install ./nvidia-driver-local-repo-rhel8-*.rpm

但是事实上提示安装成功了，但是重启后无效，所以还是选择下载可执行文件。

按照提示完成安装，确保在安装时禁用 nouveau 驱动（如有提示），然后重启系统。

代码语言：bash复制

sudo reboot

验证安装：

重启后，运行以下命令验证驱动是否成功安装：

代码语言：bash复制

nvidia-smi

若显示 NVIDIA 驱动信息，即表明安装成功。

安装 CUDA

添加 CUDA 存储库：

代码语言：bash复制

sudo yum-config-manager --add-repo=.repo

安装 CUDA 工具包：

在nvidia-smi显示的信息中，右上角有对应的 CUDA 版本，以 CUDA 12.4 为例，运行以下命令：

手动安装：

首先在CUDA Toolkit Archive | NVIDIA Developer找到对应的版本，然后下载。

代码语言：bash复制

sudo yum install -y libXi-devel libXmu-devel libXt-devel libXext-devel libX11-devel gcc-c++

wget .4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
sudo sh cuda_12.4.1_550.54.15_linux.run
# sudo TMPDIR=/dev/sda1/home/tmp sh cuda_12.4.1_550.54.15_linux.run

如果提示下面的错误，可以通过设置 TMPDIR 环境变量，将临时文件存储在空间充足的目录中，例如 /home/tmp

代码语言：bash复制

Extraction failed.
Ensure there is enough space in /tmp and that the installation package is not corrupt
Signal caught, cleaning up

如果有另一个分区空间足够大，可以将 /tmp 挂载到那个分区。例如，如果 /home 有足够空间，可以创建一个临时目录并挂载：

创建新的临时目录：

代码语言：bash复制

sudo mkdir /dev/sda1/home/tmp

将 /tmp 挂载到新的目录，并重新运行安装程序：

代码语言：bash复制

sudo mount --bind /dev/sda1/home/tmp /tmp

运行安装完成后，再恢复原有设置：

代码语言：bash复制

sudo umount /tmp

自动安装 (依旧可以跑但是实际跑不完)：

代码语言：bash复制

sudo yum install cuda-12-4 -y

配置环境变量：

将 CUDA 的路径添加到环境变量中：

代码语言：bash复制

ls /usr/local/cuda-*
echo 'export PATH=/usr/local/cuda-12.4/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证 CUDA 安装：

运行以下命令检查 CUDA 安装是否成功：

代码语言：bash复制

nvcc -V

正确显示 CUDA 版本信息说明安装成功。

结论

不得不说，折腾了很久，在网络文章和官方文档的帮助下，终于成功了。今天的吃一堑就到此为止吧...

篇外

这里特别说明一点，我也不知道为什么反正阿里云的镜像是不能用的，但是清华镜像可以用，所以特别说明如何切换清华镜像。

比如阿里的镜像源是/，清华镜像源是/，只需要把/换成/即可，按官网的命令是使用sed。

既是说，把/etc/yum.repos.d/目录下的CentOS-Base.repo文件中的都替换成清华镜像源，而我这里已经用了阿里源，所以我应该是把替换成。

代码语言：bash复制

sed -e "s|^mirrorlist=|#mirrorlist=|g" \
    -e "s|^#baseurl=/\$releasever|baseurl=.5.2111|g" \
    -e "s|^#baseurl=/\$contentdir/\$releasever|baseurl=.5.2111|g" \
    -i.bak \
    /etc/yum.repos.d/CentOS-*.repo

然后更新缓存：

代码语言：bash复制

sudo yum makecache
sudo yum install epel-release

如果不小心已经弄坏了原有的原始仓库文件，可以从阿里云镜像的下载地址下载：

repo:

.5.2111.repo

epel:

.repo

引用

240107-RHEL8+RHEL9 配置安装：NVIDIA 驱动（15 步）+CUDA（4 步）+CUDNN（5 步）+GPU 压力测试_rhel9 安装 n 卡驱动-CSDN 博客
Download The Official NVIDIA Drivers | NVIDIA
CUDA 12.6 Update 2 Release Notes
CUDA Toolkit Archive | NVIDIA Developer
CentOS8 修改国内镜像源 - 吕金林 - 博客园
centos-vault | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
epel | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

本文标签：安装 nvidia 显卡驱动及故障排查

版权声明：本文标题：安装 nvidia 显卡驱动及故障排查内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1754619465a1704450.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

写会百科网

安装 nvidia 显卡驱动及故障排查

安装 nvidia 显卡驱动及故障排查

引言

过程

检查显卡型号

安装 NVIDIA 驱动

手动下载并安装 NVIDIA 驱动

安装 CUDA

结论

篇外

引用

更多相关文章

安装 nvidia 显卡驱动及故障排查

发表评论

推荐文章

高效管理电子书籍：如何在Windows上安装和使用Koodo Reader

数据结构·栈和队列

C#基数排序算法

Spring之FactoryBean的处理底层源码分析

【愚公系列】《AI智能化办公：ChatGPT使用方法与技巧从入门到精通》 018

热门文章

高德开放平台——实时路径规划优化指南

通讯录进阶，支持动态内存与数据存储的通讯录

Wp用户行为回放插件，精准捕捉用户行为的每一步

如何确保云原生架构的弹性和安全性

单元测试一篇汇总

拿捏指针（一）

从零开始：实现你的第一个 C++ Vector

折叠卡片展开收回动画优化

AI换脸技术新纪元：直播与视频创作的新利器

WordPress 性能优化：使用 Redis 让 MySQL 性能提升

最新文章

Linux系统之jobs命令的基本使用

手把手教学！简单上手“AI复活”技术

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

JVM专题

学会5个图表，让数据分析简洁高效

写“藤”的作文1200字

有关于进步的作文

幼儿园见习报告

语数英寒假作业上册答案五年级

伊索寓言经典语词句摘抄