在 Ubuntu 18.04 上安裝 CUDA 和 Pytorch

目標

發生了不幸的事件,於是要重裝某個 GTX 1070 Ti 的電腦,安裝了 Ubuntu Server 18.04 之後我對於如何安裝 CUDA 有些混亂了,於是做個記錄方便之後參考。

其實安裝步驟很簡單,但是文檔就好像很詳細、很複雜的樣子。

系統要求

  • Ubuntu 16.04 or later
  • NVIDIA GPU(s) that support CUDA

使用 LVM 的溫馨提示

我安裝 Ubuntu Server 18.04 的時候用了 LVM,硬盤瞬間縮水不夠用。原來默認是不放開所有空間給系統用,所以要調整空間大小

1
2
3
4
$ lvm
lvm> lvextend -l +100%FREE /dev/ubuntu-vg/ubuntu-lv
lvm> exit
$ resize2fs /dev/ubuntu-vg/ubuntu-lv

安裝 CUDA

CUDA 的版本其實不用管,詳細安裝文檔可以參考鏈接.

我已經安裝好最新的 Ubuntu Server LTS 版本,我知道它肯定支援 CUDA。而 GTX 1070 Ti也當然支援 CUDA。那就只有兩個編譯工具需要確認一下

我很懶惰,所以直接一鍵安裝所有編譯工具

1
$ sudo apt-get install build-essential

然後安裝適合當前內核的 kernel headers 以供安裝 CUDA

1
$ sudo apt-get install linux-headers-$(uname -r)

如果有自帶的驅動要先卸載,圖形化桌面要暫時關閉

1
2
sudo apt-get purge nvidia-cuda*
sudo apt-get purge nvidia-*

參見

然後去 CUDA Toolkit Download Page 下載安裝包,然後跟著網頁上的說明輸入指令。

Screen capture for downloading installation package

我選擇自動安裝腳本來安裝,中間要輸入同意用戶協議之類的。

將項目放到 Docker 容器裏

這樣更容易管理資源和系統依賴的各種版本,如果全都放在本地系統就容易互相污染。學學如何用 Docker 和 NVIDIA GPU 進行深度學習項目一鍵傳送.

1
$ docker run --gpus all nvidia/cuda:10.0-base nvidia-smi

安裝 Pytorch

你要有 Python 的軟件包管理器 pip,沒有就裝

1
$ sudo apt-get install python3-pip

然後安裝 Pytorch

1
$ pip3 install torch torchvision

如果你的環境和我不一樣,你需要 Pytorch 的官方指令生成器