ひとこと思ったこと

だいたいひとこと。思いつき。日々の感想ほか

EC2にGPU環境をつくるメモ【2/3】

環境構築の部分を一応メモ。【2/3】



前回
hitkoto.hatenablog.com


NVIDIA GPUドライバー
  • 以下手順にてインストール
# gcc make のインストール
sudo yum install gcc make
sudo yum update -y
gcc --version
make --version

# 不足しているカーネルモジュールのインストール
sudo dnf install kernel-modules-extra.x86_64

# インスタンスを再起動
sudo reboot

# 再起動後にSSH接続、実行中カーネルのバージョン用の gcc コンパイラおよびカーネルヘッダーパッケージをインストール
sudo yum install -y gcc kernel-devel-$(uname -r)


# 実行
cd ~/
BASE_URL=https://us.download.nvidia.com/tesla
DRIVER_VERSION=515.105.01
curl -fSsl -O $BASE_URL/$DRIVER_VERSION/NVIDIA-Linux-x86_64-$DRIVER_VERSION.run
chmod +x NVIDIA-Linux-x86_64-515.105.01.run
sudo sh NVIDIA-Linux-x86_64-$DRIVER_VERSION.run  --silent

# GPU情報が表示されること確認
nvidia-smi


実行環境に合わせてドライバーのバージョンを選択する。CUDA Toolkitの都合により、今回は上記バージョンで。

以下NVIDIAのサイトからバージョンを選択
www.nvidia.co.jp

以下は手順整理の際の参考にしたサイト
Linux インスタンスへの NVIDIA ドライバーのインストール - Amazon Elastic Compute Cloud

カーネルモジュールの参考
Amazon Linux 2023 標準 AMI にインストールされているパッケージと AL2023 KVM イメージの比較 - Amazon Linux 2023

CUDA install fail on Amazon Linux: "NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver." - #4 by generix - Linux - NVIDIA Developer Forums

amazon-linux-extras」をインストールするよう紹介されているサイト様もあったが、Amazon Linux 2023 にはextrasは無い模様… よって不要
sudo amazon-linux-extras install epel

CUDA
  • 以下手順にてインストール
# 実行
cd ~/
wget -P ~/ https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
chmod +x ~/cuda_11.7.1_515.65.01_linux.run
sudo sh cuda_11.7.1_515.65.01_linux.run --silent --override --toolkit --samples --toolkitpath=/usr/local/cuda-11.7.1 --samplespath=/usr/local/cuda --no-opengl-libs

# パスの設定
echo 'export PATH=/usr/local/cuda-11.7.1/bin:$PATH' >> .zshrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.7.1/lib64:$LD_LIBRARY_PATH' >> .zshrc

# インストールできていること確認
nvcc --version


NVIDIAのドライバーに合わせてバージョンを選択
developer.nvidia.com

以下は手順整理の際の参考にしたサイト
AWS EC2インスタンス(g4dn.xlarge)でCUDA, cuDNNのセットアップ|Koji Iino

CUDAでエラー nvcc: command not found | cocoinit23

Amazon Linux2 CUDA driver install チャレンジ

Linux インスタンスへの NVIDIA ドライバーのインストール - Amazon Elastic Compute Cloud

NVIDIA Container Toolkit
  • 以下手順にてインストール
# 実行
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
 sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
sudo yum install -y nvidia-container-toolkit

# デーモンを再起動
sudo systemctl restart docker

# インストールできていること確認
nvidia-container-cli --version


以下は手順整理の際の参考にしたサイト
Installing the NVIDIA Container Toolkit — NVIDIA Container Toolkit 1.14.5 documentation

NVIDIA Docker って今どうなってるの? (19.11版) #Docker - Qiita

以上。



機械学習環境構築メモ

【1/3】【終】docker環境
hitkoto.hatenablog.com

【2/3】【終】GPU環境
hitkoto.hatenablog.com

【3/3】jupyterセットアップ
hitkoto.hatenablog.com