Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

第1步 安装依赖包

安装后续步骤或环境必需的依赖包,依次输入以下命令:

sudo apt-get update

sudo apt-get upgrade

sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler

sudo apt-get install --no-install-recommends libboost-all-dev

sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev

sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev

sudo apt-get install git cmake build-essential

sudo apt-get install python-numpy

sudo apt install python-pip

pip install -U scikit-image

有一定几率安装失败而导致后续步骤出现问题,所以要确保以上依赖包都已安装成功,验证方法就是重新运行安装命令,如验证 git cmake build-essential是否安装成功共则再次运行以下命令:

sudo apt-get install git cmake build-essential

界面提示如下则说明已成功安装依赖包,否则继续安装直到安装成功。

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

第2步 禁用 nouveau(如果装了显卡驱动忽略这一步)

安装好依赖包后需要禁用 nouveau,只有在禁用掉 nouveau 后才能顺利安装 NVIDIA 显卡驱动,禁用方法就是在 /etc/modprobe.d/blacklist.conf 文件中添加一条禁用命令,首先需要打开该文件,通过以下命令打开:

sudo gedit /etc/modprobe.d/blacklist.conf

打开后的最后一行加入:

blacklist nouveau option nouveau modeset=0

保存后关闭文件,注意此时还需执行以下命令使禁用 nouveau 真正生效:

sudo update-initramfs -u

重启执行lsmod |grep nouveau 没有提示说明禁用成功。

附加说明:如装完显卡驱动有出现如下错误

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

解决办法:1:按Ctrl+Alt+f1进入TTY1,

         2:输入用户名、密码,就是你的开机用户名、密码,PS:输入密码时,Ubuntu系统不显示密码,只管继续输入,然后回车。

         3:cd /etc/X11

         4:sudo cp xorg.conf.failsafe xorg.conf

         5:sudo reboot

这样就好了。

还有一个办法就是:sudo apt-get update

 

3步 配置环境变量

使用 gedit 命令打开配置文件:

sudo gedit /etc/profile

打开后在文件最后加入以下两行内容:

export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH

export LD_LIBRARY_PATH=/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH

保存退出。

source /etc/profile使环境变量生效

 

4步 下载 CUDA 8.0

进入 https://developer.nvidia.com/cuda-downloads ,依次选择 CUDA 类型然后下载即可。如下图:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

5步 安装 CUDA 8.0

如已经安装正确的 nvidia 显卡驱动,则直接开始安装 CUDA 8.0,在安装过程中选择不再安装 nvidia 显卡驱动。如要卸载重装指定驱动,命令如下:

卸载命令位置/usr/bin/nvidia-uninstall,以下命令即可卸载。 
sudo /usr/bin/nvidia-uninstall 
不找这个命令的位置,也可以 
sudo apt-get install autoremove --purge nvidia* 

 

为了方便开始安装过程的路径查找,把下载的 CUDA 安装文件移动到 HOME 路径下,然后通过 Ctrl + Alt + F1 进入文本模式,输入帐号密码登录,通过 Ctrl + Alt + F7 可返回图形化模式,在文本模式登录后首先关闭桌面服务:

sudo service lightdm stop

 

然后通过 Ctrl + Alt + F7 发现已无法成功返回图形化模式,说明桌面服务已成功关闭.

然后运行 CUDA 安装文件进行安装,之前我们已经把 CUDA 安装文件移动至 HOME,直接通过 sh 命令运行安装文件即可:

sudo chmod a+x cuda_8.0.61_375.26_linux.run 

sudo ./cuda_8.0.61_375.26_linux.run –-no-opengl-libs

 

其中 cuda_8.0.61_375.26_linux.run 是我的 CUDA 安装文件名,而你需替换为自己的 CUDA 安装文件名,若此时忘记可直接通过 ls 文件查看文件名,这也是我建议把 CUDA 安装文件移动到 HOME 下的另一个原因。

执行此命令约1分钟后会出现 1%信息,此时出现如下画面q:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

先输入 accept ,然后让选择是否安装 nvidia 驱动,这里我们之前装过了,所以选择n

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

然后按照提示操作即可输入“y”确认安装或确认默认路径安装,开始安装,如下图:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

安装完成后输入重启命令重启:

reboot

重启后登录进入系统,配置 CUDA 环境变量,与第2步相同,使用 gedit 命令打开配置文件:

使用 gedit 命令打开配置文件:

sudo gedit /etc/profile

打开后在文件最后加入以下三行内容:(注意cuda版本)

export PATH=/usr/local/cuda-8.0/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

export CUDA_HOME="/usr/local/cuda-8.0:$CUDA_HOME"

保存退出。

source /etc/profile使环境变量生效

 

6步 验证 CUDA 8.0 是否安装成功

分别执行以下命令:

cd /usr/local/cuda-8.0/samples/1_Utilities/deviceQuery

sudo make

./deviceQuery

若看到类似以下信息则说明 cuda 已安装成功:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

 

7步 安装 cudnn

cuDNN是GPU加速计算深层神经网络的库

登录官网:https://developer.nvidia.com/rdp/cudnn-download ,下载对应 cuda 版本且 linux 系统的 cudnn 压缩包,注意官网下载 cudnn 需要注册帐号并登录

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

下载完成后解压,得到一个 cuda 文件夹,该文件夹下include 和 lib64 两个文件夹,然后进行以下操作:

sudo tar -xzf cudnn-8.0-linux-x64-v5.1.tgz -C /usr/local

cd /usr/local/cuda/lib64/

sudo rm -rf libcudnn.so libcudnn.so.5 #删除原有动态文件

sudo ln -s libcudnn.so.5.1.10 libcudnn.so.5 #生成软衔接

sudo ln -s libcudnn.so.5 libcudnn.so #生成软链接

这里需要注意 我下的是libcudnn.so.5.1.10,选择对应的版本  

安装完成后可用 nvcc -V 命令验证是否安装成功,若出现以下信息则表示安装成功:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

 

8步 安装 opencv3.1

进入官网 : http://opencv.org/releases.html , 选择 3.1.0 版本的 source , 下载 opencv-3.1.0.zip 版本根据客户要求选择下载

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

 

解压到你要安装的位置,这是在home目录,命令行进入已解压的文件夹 opencv-3.1.0 目录下

由于opecv3.1与cuda8.0不兼容。解决办法:

修改 /opencv-3.1.0/modules/cudalegacy/src/graphcuts.cpp 文件内容,如图: 

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

sudo gedit graphcuts.cpp

返回opencv-3.1.0 目录

mkdir build # 创建编译的文件目录 

cd build

sudo cmake -D CMAKE_BUILD_TYPE=Release -D CMAKE_INSTALL_PREFIX=/usr/local ..  # ..前有空格

如出现-- ICV: Downloading ippicv_linux_20151201.tgz...

之后就会提示很多错误。

则需要自己下载ippicv_linux_20151201.tgz

然后复制到opencv-3.1.0/3rdparty/ippicv/downloads/linux-808b791a6eac9ed78d32a7666804320e目录下

sudo make -j8 #编译,8代表CPU核数,不加也可以

编译成功后安装:

sudo make install #安装

安装完成后通过查看 opencv 版本验证是否安装成功:

pkg-config --modversion opencv

 

9步 安装 caffe

首先在你要安装的路径下 clone :

git clone https://github.com/BVLC/caffe.git

进入 caffe ,将 Makefile.config.example 文件复制一份并更名为 Makefile.config ,也可以在 caffe 目录下直接调用以下命令完成复制操作 :

sudo cp Makefile.config.example Makefile.config

复制一份的原因是编译 caffe 时需要的是 Makefile.config 文件,而Makefile.config.example 只是caffe 给出的配置文件例子,不能用来编译 caffe。

然后修改 Makefile.config 文件,在 caffe 目录下打开该文件:

sudo gedit Makefile.config

修改 Makefile.config 文件内容:

  1. 应用 cudnn

#USE_CUDNN := 1 修改成: USE_CUDNN := 1

  1. 应用 opencv 版本

#OPENCV_VERSION := 3 修改为: OPENCV_VERSION := 3

  1. 使用 python 接口

#WITH_PYTHON_LAYER := 1 修改为 WITH_PYTHON_LAYER := 1

  1. 修改 python 路径

INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include

LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib

修改为:

INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial

LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib/x86_64-linux-gnu /usr/lib/x86_64-linux-gnu/hdf5/serial

PYTHON_LIB := /usr/lib 

修改为:

PYTHON_LIB := /usr/lib/python2.7/config-x86_64-linux-gnu 

 

然后修改 /usr/local/cuda/include/host_config.h 文件 :

#error-- unsupported GNU version! gcc versions later than 5 are not supported!

改为

//#error-- unsupported GNU version! gcc versions later than 5 are not supported!

 

可以开始编译了,在 caffe 目录下执行 :

make all -j8

编译成功后可运行测试:

sudo make runtest -j8

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

显示结果为上图所示,则表示 caffe 已经成功安装

如出现以下错误:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

解决办法是将一些文件复制到/usr/local/lib文件夹下:

#注意自己CUDA的版本号!

sudo cp /usr/local/cuda-8.0/lib64/libcudart.so.8.0 /usr/local/lib/libcudart.so.8.0 && sudo ldconfig

sudo cp /usr/local/cuda-8.0/lib64/libcublas.so.8.0 /usr/local/lib/libcublas.so.8.0 && sudo ldconfig

sudo cp /usr/local/cuda-8.0/lib64/libcurand.so.8.0 /usr/local/lib/libcurand.so.8.0 && sudo ldconfig

sudo cp /usr/local/cuda-8.0/lib64/libcudnn.so.5 /usr/local/lib/libcudnn.so.5 && sudo ldconfig

然后

make clean

编译,在 caffe 目录下执行 :

make all -j8

编译成功后可运行测试:

sudo make runtest -j8

运行测试看是否正常

 

10、安装 pycaffe notebook 接口环境

首先编译 pycaffe :

cd caffe

sudo make pycaffe -j8

编译 pycaffe 成功后,验证一下是否可以在 python 中导入 caffe 包,首先进入 python 环境:

输入python

然后导入 caffe :

输入import caffe

若不报错则表示 caffe 的 python 接口已正确编译

 

最后一步,配置notebook环境

首先进入 caffe/python 目录下,执行安装代码:

sudo apt-get install gfortran

for req in $(cat requirements.txt); do sudo pip install $req; done

安装完成以后执行:

sudo pip install -r requirements.txt

然后安装 jupyter :

sudo pip install jupyter

安装完成后运行 notebook :

jupyter notebook或ipython notebook

 

就会在浏览器中打开notebook,点击右上角的New-python2,就可以新建一个网页一样的文件,扩展名为ipynb。在这个网页上,我们就可以像在命令行下面一样运行python代码了。输入代码后,按shift+enter运行,更多的快捷键,可点击上方的help-Keyboard shortcuts查看,或者先按esc退出编辑状态,再按h键查看。

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

11、安装Torch

 

第一步:从git上获取安装LuaJIT(C语言编写的Lua的解释器)和Torch所必需的依赖包:

在终端执行:git clone https://github.com/torch/distro.git ~/torch --recursive

在你的根目录下生成一个torch文件夹,安装文件都在里面:

第二步:进入torch目录,执行:bash install-deps

第三步:执行:./install.sh, 这一步最后会出现如下提示,并输入yes   

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

然后修改环境变量

sudo gedit ~/.bashrc 最后一行加入

export TORCH_DIR=$HOME/torch

保存退出后

执行source ~/.bashrc

第五步:输入:th测试是否安装成功,当出如下标识说明已成功安装:

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

 

12、安装 Tensorflow环境

根据自己的情况选择以下命令之一进行安装:

pip install tensorflow==1.2 # Python 2.7; 仅支持CPU

pip3 install tensorflow==1.2 # Python 3.n; 仅支持CPU 

pip install tensorflow-gpu==1.2 # Python 2.7; 支持CPU

pip3 install tensorflow-gpu==1.2 # Python 3.n; 支持CPU

注意这里的==1.2.是表示tensorflow的版本,请根据实际情况修改。cuda8.0对应的是1.2 

验证tensorflow是否安装成功

启动终端,输入python

输入以下代码:

>>> import tensorflow as tf

>>> hello = tf.constant('Hello, TensorFlow!')

>>> sess = tf.Session()

>>> print(sess.run(hello))

如果输出Hello, TensorFlow!则代表安装成功如下图。

Ubuntu16.04 cuda8+Caffe+cudnn5+torch+tensorflow+digits+nccl 安装步骤

 

13、安装digits

digits是caffe的一个可视化工具,可使我们对caffe的操作变得方便容易

1.获取digits安装包

sudo git clone https://github.com/NVIDIA/DIGITS.git digits

2.安装digits及依赖项

cd digits 

sudo apt-get install graphviz gunicorn

for req in $(cat requirements.txt); do sudo pip install $req; done

配置环境变量

sudo gedit /etc/profile

export CAFFE_ROOT=/home/的账户名/caffe/

source /etc/profile

 

3.打开digits

cd digits

./digits-devserver

在网页上输入http://localhost:5000即可打开界面

 

 

 

14、安装NCCl

在多个 GPU 上运行 Caffe 需要使用 NVIDIA NCCL。可使用以下命令安装 NCCL

git clone https://github.com/NVIDIA/nccl.git

cd nccl

sudo make install -j8