- manager 用户为显卡服务器本地用户,有 sudoer 权限
- 显卡服务器的 root、manager 账号和 NAS 的 admin 账号共用密码
- 安装 ubuntu 18 系统
- 系统语言设为英语
- 计算机名(computer name)为 LSC-GPU{n=01,02, ...}
- 名称(your name)为 manager,用户名(username)为 manager
- 将脚本 initserver.sh 复制到服务器并以 root 账户运行
bash initserver.sh
,运行结束后自动打开交互式界面(dpkg-reconfigure ldap-auth-config),手动设置以下参数(其他参数已通过脚本设置,按回车键跳过):- Does the LDAP database require login?: no
- LDAP root account password: 输入 NAS 上设置的 LDAP root 账户密码
- Local crypt to use when changing passwords: exop
- 通过 GUI 设置网络参数
- 通过 GUI 登录 ubuntu 桌面,点击右上角网络图标 - Connection Information,查看当前网络 IP
- 点击右上角网络图标 - Edit Connetctions,选择当前网络 - Edit
- 点击 IPv4 Settings 选项卡,按如下设置
- Method: Manual
- Addresses - Add: Address 填写上面查到的 IP,Netmask 24,Gateway 填写路由器 IP(192.168.1.2)
- DNS Server: 填写路由器 IP(192.168.1.2)
- 点击 Save 保存设置
- 重置网络连接:点击右上角网络图标 - 单击当前网络名称
- 在 NAS 管理页面设置 NFS 挂载权限(NAS 管理员说明 - 管理 - 新增显卡服务器)
- 安装显卡驱动、cuda、cudnn
-
Nividia 驱动安装(升级一样)
sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update ubuntu-drivers devices sudo apt install nvidia-driver-*** # 安装指定驱动(这里挑选自己需要的驱动,然后安装即可,不必卸载之前装过的驱动,注意Ubuntu 16最高支持418 sudo reboot # 重启
-
cuda安装
到 CUDA Toolkit Download 下载所需版本 .run文件,以 cuda_9.0.176_384.81_linux.run为例
sudo chmod +x cuda_9.0.176_384.81_linux.run ./cuda_9.0.176_384.81_linux.run Do you accept the previously read EULA? accept/decline/quit: accept Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 384.81? (y)es/(n)o/(q)uit: n # 如果在这之前已经安装好更高版本的显卡驱动就不需要再重复安装,如果需要重复安装就选择 yes,此外还需要关闭图形界面。 Install the CUDA 9.0 Toolkit? (y)es/(n)o/(q)uit: y Enter Toolkit Location [ default is /usr/local/cuda-9.0 ]: # 一般选择默认即可,也可以选择安装在其他目录,在需要用的时候指向该目录或者使用软连接 link 到 /usr/local/cuda。 /usr/local/cuda-9.0 is not writable. Do you wish to run the installation with 'sudo'? (y)es/(n)o: y Please enter your password: Do you want to install a symbolic link at /usr/local/cuda? # 是否将安装目录通过软连接的方式 link 到 /usr/local/cuda,yes or no 都可以,取决于你是否使用 /usr/local/cuda 为默认的 cuda 目录。 (y)es/(n)o/(q)uit: n Install the CUDA 9.0 Samples? (y)es/(n)o/(q)uit: n sudo ln -s /usr/local/cuda-9.0/ /usr/local/cuda/ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 export PATH=$PATH:/usr/local/cuda/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda source ~/.bashrc nvcc --version
-
对应cudnn安装
对应cuda下载cudnn的安装文件:https://developer.nvidia.com/rdp/cudnn-archive
# 解压下载的文件,可以看到cuda文件夹 sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ sudo chmod a+r /usr/local/cuda/include/cudnn.h sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
-
cuda版本切换
# 在切换cuda版本时 rm -rf /usr/local/cuda # 删除之前创建的软链接 sudo ln -s /usr/local/cuda-*/ /usr/local/cuda/ nvcc --version #查看当前 cuda 版本
-
- 显卡服务器安装脚本:initserver.sh, 重装系统后以 root 账户运行,具体功能参考注释
- 用户初始化脚本:.profile, 复制到每个用户 home 文件夹,用户每次登陆运行
- 用户初始化脚本:.inituser, 由 .profile 自动复制到各用户 home 文件夹,第一次登陆运行