環境構築の部分を一応メモ。【2/3】
NVIDIA GPUドライバー
- 以下手順にてインストール
# gcc make のインストール sudo yum install gcc make sudo yum update -y gcc --version make --version # 不足しているカーネルモジュールのインストール sudo dnf install kernel-modules-extra.x86_64 # インスタンスを再起動 sudo reboot # 再起動後にSSH接続、実行中カーネルのバージョン用の gcc コンパイラおよびカーネルヘッダーパッケージをインストール sudo yum install -y gcc kernel-devel-$(uname -r) # 実行 cd ~/ BASE_URL=https://us.download.nvidia.com/tesla DRIVER_VERSION=515.105.01 curl -fSsl -O $BASE_URL/$DRIVER_VERSION/NVIDIA-Linux-x86_64-$DRIVER_VERSION.run chmod +x NVIDIA-Linux-x86_64-515.105.01.run sudo sh NVIDIA-Linux-x86_64-$DRIVER_VERSION.run --silent # GPU情報が表示されること確認 nvidia-smi
実行環境に合わせてドライバーのバージョンを選択する。CUDA Toolkitの都合により、今回は上記バージョンで。
以下NVIDIAのサイトからバージョンを選択 www.nvidia.co.jp
以下は手順整理の際の参考にしたサイト Linux インスタンスへの NVIDIA ドライバーのインストール - Amazon Elastic Compute Cloud
カーネルモジュールの参考 Amazon Linux 2023 標準 AMI にインストールされているパッケージと AL2023 KVM イメージの比較 - Amazon Linux 2023
「amazon-linux-extras」をインストールするよう紹介されているサイト様もあったが、Amazon Linux 2023 にはextrasは無い模様… よって不要
sudo amazon-linux-extras install epel
CUDA
- 以下手順にてインストール
# 実行 cd ~/ wget -P ~/ https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run chmod +x ~/cuda_11.7.1_515.65.01_linux.run sudo sh cuda_11.7.1_515.65.01_linux.run --silent --override --toolkit --samples --toolkitpath=/usr/local/cuda-11.7.1 --samplespath=/usr/local/cuda --no-opengl-libs # パスの設定 echo 'export PATH=/usr/local/cuda-11.7.1/bin:$PATH' >> .zshrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.7.1/lib64:$LD_LIBRARY_PATH' >> .zshrc # インストールできていること確認 nvcc --version
NVIDIAのドライバーに合わせてバージョンを選択 developer.nvidia.com
以下は手順整理の際の参考にしたサイト AWS EC2インスタンス(g4dn.xlarge)でCUDA, cuDNNのセットアップ|Koji Iino
CUDAでエラー nvcc: command not found | cocoinit23
Amazon Linux2 CUDA driver install チャレンジ
Linux インスタンスへの NVIDIA ドライバーのインストール - Amazon Elastic Compute Cloud
NVIDIA Container Toolkit
- 以下手順にてインストール
# 実行 curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \ sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo sudo yum install -y nvidia-container-toolkit # デーモンを再起動 sudo systemctl restart docker # インストールできていること確認 nvidia-container-cli --version
以下は手順整理の際の参考にしたサイト Installing the NVIDIA Container Toolkit — NVIDIA Container Toolkit 1.14.5 documentation
NVIDIA Docker って今どうなってるの? (19.11版) #Docker - Qiita
以上。
機械学習環境構築メモ
【1/3】【終】docker環境 hitkoto.hatenablog.com
【2/3】【終】GPU環境 hitkoto.hatenablog.com
【3/3】jupyterセットアップ hitkoto.hatenablog.com