并行计算

基础知识

电脑功率= 主频 3 主频^3 主频3,于是主频越高的电脑要求散热越好，于是采用多核并行解决这个问题。

新摩尔定律：处理器主流2-8个核心的多核CPU、十到上千个核心的众核GPU（图形处理器）。
高性能计算（ H P C ） { 并行计算分布式计算网格计算云计算高性能计算（HPC）\begin{cases} 并行计算\\ 分布式计算\\ 网格计算\\ 云计算 \end{cases} 高性能计算（HPC）⎩⎪⎪⎪⎨⎪⎪⎪⎧并行计算分布式计算网格计算云计算

分布式计算

原理：将任务和数据分割成小块，由多个计算机分别计算，上传结果统一合并。

优点：1）稀有资源共享
2）平衡计算负载
3）程序可以放在最合适运行的计算机上

并行计算

原理：多条指令同时进行
分为：
{ 时间并行 − − 流水线空间并行 − − 多个处理器 \begin{cases} 时间并行--流水线\\ 空间并行--多个处理器\\ \end{cases} {时间并行−−流水线空间并行−−多个处理器

常见的几种并行计算

1）进程+线程：硬件是多机+多核，编程环境是MPI+OpenMP，处理大粒度任务。
2）线程+GPU线程：硬件是多核+多GPU，编程环境是OpenMP+CUDA/OpenCL，处理小粒度任务。
3）进程+线程+GPU线程：硬件是多机+多核+多GPU，编程环境是MPI+OpenMP+CUDA/OpenCL，大小任务都可以。

划分任务的时候，任务之间最好是没有关系

{ M P I : 为每个计算机分配一个进程（进程 I D ） O p e n M P : 多核分配一个线程（线程 I D ） C U D A / O p e n C L : 多个 G P U 线程处理对应的子任务 \begin{cases} MPI:为每个计算机分配一个进程（进程ID）\\ OpenMP:多核分配一个线程（线程ID）\\ CUDA/OpenCL:多个GPU线程处理对应的子任务 \end{cases} ⎩⎪⎨⎪⎧MPI:为每个计算机分配一个进程（进程ID）OpenMP:多核分配一个线程（线程ID）CUDA/OpenCL:多个GPU线程处理对应的子任务

CPU vs GPU

1）理论差别
{ C P U : 逻辑和控制运算厉害，面向解决延迟 G P U : 数据并行任务，面向数据吞吐量，图像处理就需要高数据并行 \begin{cases} CPU:逻辑和控制运算厉害，面向解决延迟\\ GPU:数据并行任务，面向数据吞吐量，图像处理就需要高数据并行\\ \end{cases} {CPU:逻辑和控制运算厉害，面向解决延迟GPU:数据并行任务，面向数据吞吐量，图像处理就需要高数据并行
2）结构差别
并行计算

3）处理数据
GPU：实现需要准备好数据以及分配好内存（c里面的malloc），之后会拷贝到GPU上运算。
CPU：大缓存（Cache）、复杂控制、功能强大的ALU
4）GPU线程和CPU线程
{ C P U 一个核心通常只能运行一个线程 C P U 多线程，解决粗粒度，一般由操作系统自带的 A P I 实现 C P U 线程切换代价高 G P U : 轻量级线程，零开销线程切换 \begin{cases} CPU一个核心通常只能运行一个线程\\ CPU多线程，解决粗粒度，一般由操作系统自带的API实现\\ CPU线程切换代价高\\ GPU:轻量级线程，零开销线程切换\\ \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧CPU一个核心通常只能运行一个线程CPU多线程，解决粗粒度，一般由操作系统自带的API实现CPU线程切换代价高GPU:轻量级线程，零开销线程切换
G P U 不适用的应用： GPU不适用的应用： GPU不适用的应用：
{ 复杂数据结构：树、矩阵、链表等等串行和常务性处理较多的情况并行规模很小重设算法和数据结构或打包处理 \begin{cases} 复杂数据结构：树、矩阵、链表等等\\ 串行和常务性处理较多的情况\\ 并行规模很小\\ 重设算法和数据结构或打包处理\\ \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧复杂数据结构：树、矩阵、链表等等串行和常务性处理较多的情况并行规模很小重设算法和数据结构或打包处理