Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤
第1步 安装依赖包
安装后续步骤或环境必需的依赖包,依次输入以下命令:
sudo apt-get update
sudo apt-get upgrade
sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends libboost-all-dev
sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev
sudo apt-get install git cmake build-essential
sudo apt-get install python-numpy
sudo apt install python-pip
pip install -U scikit-image
有一定几率安装失败而导致后续步骤出现问题,所以要确保以上依赖包都已安装成功,验证方法就是重新运行安装命令,如验证 git cmake build-essential是否安装成功共则再次运行以下命令:
sudo apt-get install git cmake build-essential
界面提示如下则说明已成功安装依赖包,否则继续安装直到安装成功。
第2步 禁用 nouveau(如果装了显卡驱动忽略这一步)
安装好依赖包后需要禁用 nouveau,只有在禁用掉 nouveau 后才能顺利安装 NVIDIA 显卡驱动,禁用方法就是在 /etc/modprobe.d/blacklist.conf 文件中添加一条禁用命令,首先需要打开该文件,通过以下命令打开:
sudo gedit /etc/modprobe.d/blacklist.conf
打开后的最后一行加入:
blacklist nouveau option nouveau modeset=0
保存后关闭文件,注意此时还需执行以下命令使禁用 nouveau 真正生效:
sudo update-initramfs -u
重启执行lsmod |grep nouveau 没有提示说明禁用成功。
附加说明:如装完显卡驱动有出现如下错误
解决办法:1:按Ctrl+Alt+f1进入TTY1,
2:输入用户名、密码,就是你的开机用户名、密码,PS:输入密码时,Ubuntu系统不显示密码,只管继续输入,然后回车。
3:cd /etc/X11
4:sudo cp xorg.conf.failsafe xorg.conf
5:sudo reboot
这样就好了。
还有一个办法就是:sudo apt-get update
第3步 配置环境变量
使用 gedit 命令打开配置文件:
sudo gedit /etc/profile
打开后在文件最后加入以下两行内容:
export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
保存退出。
source /etc/profile使环境变量生效
第4步 下载 CUDA 8.0
进入 https://developer.nvidia.com/cuda-downloads ,依次选择 CUDA 类型然后下载即可。如下图:
第5步 安装 CUDA 8.0
如已经安装正确的 nvidia 显卡驱动,则直接开始安装 CUDA 8.0,在安装过程中选择不再安装 nvidia 显卡驱动。如要卸载重装指定驱动,命令如下:
卸载命令位置/usr/bin/nvidia-uninstall,以下命令即可卸载。
sudo /usr/bin/nvidia-uninstall
不找这个命令的位置,也可以
sudo apt-get install autoremove --purge nvidia*
为了方便开始安装过程的路径查找,把下载的 CUDA 安装文件移动到 HOME 路径下,然后通过 Ctrl + Alt + F1 进入文本模式,输入帐号密码登录,通过 Ctrl + Alt + F7 可返回图形化模式,在文本模式登录后首先关闭桌面服务:
sudo service lightdm stop
然后通过 Ctrl + Alt + F7 发现已无法成功返回图形化模式,说明桌面服务已成功关闭.
然后运行 CUDA 安装文件进行安装,之前我们已经把 CUDA 安装文件移动至 HOME,直接通过 sh 命令运行安装文件即可:
sudo chmod a+x cuda_8.0.61_375.26_linux.run
sudo ./cuda_8.0.61_375.26_linux.run –-no-opengl-libs
其中 cuda_8.0.61_375.26_linux.run 是我的 CUDA 安装文件名,而你需替换为自己的 CUDA 安装文件名,若此时忘记可直接通过 ls 文件查看文件名,这也是我建议把 CUDA 安装文件移动到 HOME 下的另一个原因。
执行此命令约1分钟后会出现 1%信息,此时出现如下画面按q:
先输入 accept ,然后让选择是否安装 nvidia 驱动,这里我们之前装过了,所以选择n
然后按照提示操作即可,输入“y”确认安装或确认默认路径安装,开始安装,如下图:
安装完成后输入重启命令重启:
reboot
重启后登录进入系统,配置 CUDA 环境变量,与第2步相同,使用 gedit 命令打开配置文件:
使用 gedit 命令打开配置文件:
sudo gedit /etc/profile
打开后在文件最后加入以下三行内容:(注意cuda版本)
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
export CUDA_HOME="/usr/local/cuda-8.0:$CUDA_HOME"
保存退出。
source /etc/profile使环境变量生效
第6步 验证 CUDA 8.0 是否安装成功
分别执行以下命令:
cd /usr/local/cuda-8.0/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
若看到类似以下信息则说明 cuda 已安装成功:
第7步 安装 cudnn
cuDNN是GPU加速计算深层神经网络的库
登录官网:https://developer.nvidia.com/rdp/cudnn-download ,下载对应 cuda 版本且 linux 系统的 cudnn 压缩包,注意官网下载 cudnn 需要注册帐号并登录。
下载完成后解压,得到一个 cuda 文件夹,该文件夹下include 和 lib64 两个文件夹,然后进行以下操作:
sudo tar -xzf cudnn-8.0-linux-x64-v5.1.tgz -C /usr/local
cd /usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.5 #删除原有动态文件
sudo ln -s libcudnn.so.5.1.10 libcudnn.so.5 #生成软衔接
sudo ln -s libcudnn.so.5 libcudnn.so #生成软链接
这里需要注意 我下的是libcudnn.so.5.1.10,选择对应的版本
安装完成后可用 nvcc -V 命令验证是否安装成功,若出现以下信息则表示安装成功:
第8步 安装 opencv3.1
进入官网 : http://opencv.org/releases.html , 选择 3.1.0 版本的 source , 下载 opencv-3.1.0.zip (版本根据客户要求选择下载)
解压到你要安装的位置,这是在home目录,命令行进入已解压的文件夹 opencv-3.1.0 目录下
由于opecv3.1与cuda8.0不兼容。解决办法:
修改 /opencv-3.1.0/modules/cudalegacy/src/graphcuts.cpp 文件内容,如图:
sudo gedit graphcuts.cpp
返回opencv-3.1.0 目录
mkdir build # 创建编译的文件目录
cd build
sudo cmake -D CMAKE_BUILD_TYPE=Release -D CMAKE_INSTALL_PREFIX=/usr/local .. # ..前有空格
如出现-- ICV: Downloading ippicv_linux_20151201.tgz...
之后就会提示很多错误。
则需要自己下载ippicv_linux_20151201.tgz
然后复制到opencv-3.1.0/3rdparty/ippicv/downloads/linux-808b791a6eac9ed78d32a7666804320e目录下
sudo make -j8 #编译,8代表CPU核数,不加也可以
编译成功后安装:
sudo make install #安装
安装完成后通过查看 opencv 版本验证是否安装成功:
pkg-config --modversion opencv
第9步 安装 caffe
首先在你要安装的路径下 clone :
git clone https://github.com/BVLC/caffe.git
进入 caffe ,将 Makefile.config.example 文件复制一份并更名为 Makefile.config ,也可以在 caffe 目录下直接调用以下命令完成复制操作 :
sudo cp Makefile.config.example Makefile.config
复制一份的原因是编译 caffe 时需要的是 Makefile.config 文件,而Makefile.config.example 只是caffe 给出的配置文件例子,不能用来编译 caffe。
然后修改 Makefile.config 文件,在 caffe 目录下打开该文件:
sudo gedit Makefile.config
修改 Makefile.config 文件内容:
- 应用 cudnn
将 #USE_CUDNN := 1 修改成: USE_CUDNN := 1
- 应用 opencv 版本
将 #OPENCV_VERSION := 3 修改为: OPENCV_VERSION := 3
- 使用 python 接口
将 #WITH_PYTHON_LAYER := 1 修改为 WITH_PYTHON_LAYER := 1
- 修改 python 路径
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib
修改为:
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib/x86_64-linux-gnu /usr/lib/x86_64-linux-gnu/hdf5/serial
PYTHON_LIB := /usr/lib
修改为:
PYTHON_LIB := /usr/lib/python2.7/config-x86_64-linux-gnu
然后修改 /usr/local/cuda/include/host_config.h 文件 :
#error-- unsupported GNU version! gcc versions later than 5 are not supported!
改为
//#error-- unsupported GNU version! gcc versions later than 5 are not supported!
可以开始编译了,在 caffe 目录下执行 :
make all -j8
编译成功后可运行测试:
sudo make runtest -j8
显示结果为上图所示,则表示 caffe 已经成功安装。
如出现以下错误:
解决办法是将一些文件复制到/usr/local/lib文件夹下:
#注意自己CUDA的版本号!
sudo cp /usr/local/cuda-8.0/lib64/libcudart.so.8.0 /usr/local/lib/libcudart.so.8.0 && sudo ldconfig
sudo cp /usr/local/cuda-8.0/lib64/libcublas.so.8.0 /usr/local/lib/libcublas.so.8.0 && sudo ldconfig
sudo cp /usr/local/cuda-8.0/lib64/libcurand.so.8.0 /usr/local/lib/libcurand.so.8.0 && sudo ldconfig
sudo cp /usr/local/cuda-8.0/lib64/libcudnn.so.5 /usr/local/lib/libcudnn.so.5 && sudo ldconfig
然后
make clean
再编译,在 caffe 目录下执行 :
make all -j8
编译成功后可运行测试:
sudo make runtest -j8
再运行测试看是否正常
10、安装 pycaffe notebook 接口环境
首先编译 pycaffe :
cd caffe
sudo make pycaffe -j8
编译 pycaffe 成功后,验证一下是否可以在 python 中导入 caffe 包,首先进入 python 环境:
输入python
然后导入 caffe :
输入import caffe
若不报错则表示 caffe 的 python 接口已正确编译
最后一步,配置notebook环境
首先进入 caffe/python 目录下,执行安装代码:
sudo apt-get install gfortran
for req in $(cat requirements.txt); do sudo pip install $req; done
安装完成以后执行:
sudo pip install -r requirements.txt
然后安装 jupyter :
sudo pip install jupyter
安装完成后运行 notebook :
jupyter notebook或ipython notebook
就会在浏览器中打开notebook,点击右上角的New-python2,就可以新建一个网页一样的文件,扩展名为ipynb。在这个网页上,我们就可以像在命令行下面一样运行python代码了。输入代码后,按shift+enter运行,更多的快捷键,可点击上方的help-Keyboard shortcuts查看,或者先按esc退出编辑状态,再按h键查看。
11、安装Torch
第一步:从git上获取安装LuaJIT(C语言编写的Lua的解释器)和Torch所必需的依赖包:
在终端执行:git clone https://github.com/torch/distro.git ~/torch --recursive
在你的根目录下生成一个torch文件夹,安装文件都在里面:
第二步:进入torch目录,执行:bash install-deps
第三步:执行:./install.sh, 这一步最后会出现如下提示,并输入yes
然后修改环境变量
sudo gedit ~/.bashrc 最后一行加入
export TORCH_DIR=$HOME/torch
保存退出后
执行source ~/.bashrc
第五步:输入:th测试是否安装成功,当出现如下标识说明已成功安装:
12、安装 Tensorflow环境
根据自己的情况选择以下命令之一进行安装:
pip install tensorflow==1.2 # Python 2.7; 仅支持CPU
pip3 install tensorflow==1.2 # Python 3.n; 仅支持CPU
pip install tensorflow-gpu==1.2 # Python 2.7; 支持CPU
pip3 install tensorflow-gpu==1.2 # Python 3.n; 支持CPU
注意这里的==1.2.是表示tensorflow的版本,请根据实际情况修改。cuda8.0对应的是1.2
验证tensorflow是否安装成功
启动终端,输入python
输入以下代码:
>>> import tensorflow as tf
>>> hello = tf.constant('Hello, TensorFlow!')
>>> sess = tf.Session()
>>> print(sess.run(hello))
如果输出Hello, TensorFlow!则代表安装成功,如下图。
13、安装digits
digits是caffe的一个可视化工具,可使我们对caffe的操作变得方便容易
1.获取digits安装包
sudo git clone https://github.com/NVIDIA/DIGITS.git digits
2.安装digits及依赖项
cd digits
sudo apt-get install graphviz gunicorn
for req in $(cat requirements.txt); do sudo pip install $req; done
配置环境变量
sudo gedit /etc/profile
export CAFFE_ROOT=/home/你的账户名/caffe/
source /etc/profile
3.打开digits
cd digits
./digits-devserver
在网页上输入http://localhost:5000即可打开界面
14、安装NCCl
在多个 GPU 上运行 Caffe 需要使用 NVIDIA NCCL。可使用以下命令安装 NCCL
git clone https://github.com/NVIDIA/nccl.git
cd nccl
sudo make install -j8