论文信息

题目：基于深度学习的脑电及功能磁共振信号的识别研究
作者：朱旭阳
单位：电子科技大学生物医学工程
发表时间：2019.05

笔记

只看了其中与深度学习和运动想象有关的部分

1.摘要

实现了一个合适且有效的深度学习框架，以实现基于跨被试迁移学习的MI BCI系统。

考虑到多通道 CSP（Common Spatial Pattern，CSP）时间序列可以表征运动想象任务中不同脑区的活动状态，我们提出一个基于局部通道的卷积神经网络，对不同的通道采取不同的编码方式，以突出不同脑区在 MI 任务中的特异性。随后将编码得到的特征连接起来并送入识别网络以执行最终的 MI 识别任务。

2.绪论

运动想象（Motor Imagery，MI）BCI 在神经康复领域具有广泛的应用。对于由神经系统损伤引起的运动功能障碍者，其大脑运动信号无法通过神经通路传导，不能做出相应反应，从而丧失运动控制能力。MI BCI 系统通过对大脑信号的实时监测，将指令信号通过外部设备传达到肌肉，帮助患者恢复运动功能，提供与外界交互的方式。因此，信号传导的实时性和准确性在 MI BCI 中显得十分重要的。当前 MI BCI 系统在应用中通常需要患者进行长时间的训练以达到理想的控制准确性，这无疑增加了患者的负担和应用的复杂程度，且效率低下。通过实现快速准确且鲁棒性强的 BCI 系统可以弥补这一缺陷。故探索研究具有高准确率、高个体适应性、低训练时间的 MI BCI 系统具有广阔的应用前景，成为了当前亟需解决的热点议题。

3.深度学习概述

3.1 人工神经网络的特性：

非线性能力
输入输出映射
适应性
概率性
上下文信息
容错
超大规模集成
分析和设计的一致性

3.2深度学习网络的框架

3.2.1深度全连接网络

前馈神经网络是深度学习的基础网络，后续的网络模型都可以看成是前馈神经网络的变体。在前馈神经网络中，全连接网络是最为简单、最易实现的典型例子。全连接网络结构简单，计算过程易于理解，便于进行快速的网络设计。其基础结构叫做神经元。
阅读笔记8：基于深度学习的脑电及功能磁共振信号的识别研究

3.2.2CNN（这个关于CNN的描述是我感觉最通俗易懂的）

输入数据维度增加时，由于全连接网络的结构取决于输入的大小，因此需要更多的参数。参数的增多会带来严重的过拟合。参数增加会带来计算量的增加。此外高维数据通常具有局部结构相关性，全连接网络在处理该类数据时，一般将数据平铺成一维向量，这湮没了结构信息。
卷积神经网络的优势在于利用了空间结构关系，在一定程度上减轻了对模型参数的依赖，提高了优化算法的训练效率，可以更好的识别维度较高的数据类型。
卷积的主要功能是使用特定的核函数从输入信号中提取有用的特征。CNN 实际上是使用在训练期间自动学习的核函数从输入中提取不同的方面或者特征，故 CNN 网络常常用作特征提取器
在深度全连接网络中，通过学习一个参数矩阵，利用参数矩阵乘法来描述输入输出所对应的复杂的映射关系。在CNN中，对输入数据进行卷积运算时，卷积核以滑动的方式进行扫描探测。如果滑动的卷积核固定，那么卷积操作可以看成是具有稀疏连接的前馈神经网络。
CNN的优点：
- 稀疏连接
- 共享参数，降低了模型复杂度，缓解过拟合，减少对网络的存储需求，提升了网络的学习率
- 由于卷积核的参数共享，即使输入数据存在延迟，也能得到相同的特征表示，这就是平移不变性。这个特性对找到不同被试间的共有特性是非常有帮助的

除了卷积操作，CNN 中还有两个最重要的操作是非线性**和池化。

卷积计算过程可以看成是对输入进行稀疏映射，这本质上仍然是一种线性映射。与全连接网络相似，为了保证卷积模型的非线性表达能力，需要使用非线性函数将不同卷积核得到的特征图进行整合并产生非线性变化，这就是**层。经卷积**之后，输出的尺寸与卷积输入具有相似的尺寸，这会使得后续计算更加复杂。因此，可以使用池化函数将进行特征位置筛选。池化函数的常规操作与卷积相似，都使用一个锚点，将锚点位置的邻域内的统计特征作为该邻域的最终表达，池化的具体形式有很多，例如邻域内平均的和邻域内最大值。池化层的这种用统计值代替领域内的多个值的方式降低了特征的维度，而且并没有引入新的参数。最大池化是现代卷积神经网络的标配，其中一个原因是，平均池化是领域内的统计平均，这是线性操作，而最大池化则是非线性操作。池化函数可以进行特征选择，减小特征的尺寸，从而进一步减少计算量，在一定程度上，由于特征尺寸的减少，模型复杂度降低，具有缓解过拟合的作用。同时，输入在实际中会有些许偏移，由于池化函数是邻域操作，因此具有近似相同的效果，这同样表明了平移不变性。除此之外，池化函数还有另外一个重要的作用。在卷积神经网络中，卷积核只在一定的邻域内进行计算，这与神经元的刺激响应机制相仿，称之为感受野。池化层也是作用在邻域内，经池化后的特征图是邻域内的反馈。因此，池化层可以增加卷积神经网络的感受野。
== 稀疏的卷积层、非线性的**层和特征选择的池化层是卷积神经网络的基本模块==。经典的卷积网络架构都是由基本模块搭建而成。

3.2.3RNN

循环神经网络是一种可以捕捉任意长度动态时间信息的神经网络结构，其网络结构的特殊性在于，神经元的输出在之后要作为该神经元的输入。
阅读笔记8：基于深度学习的脑电及功能磁共振信号的识别研究

由图2-3可知，RNN是具有重复模块的链式结构，我们称这个模块为有一个cell，不同的cell具有相同的参数，因此循环神经网络可以是具有高度权值共享的前馈神经网络，同时，每个单元会把消息传递给下一个。这种特殊结构使得网络在捕捉非线性特征的同时，还可以保留不同时间步特征之间的动态信息，得到的特征更加丰富，更具判别性。

理论上，在处理当前时间步时，过去所有时间段的信息都可以被使用。但在实际训练过程中，较远的时间步的信息并不能被使用。这是因为网络的优化算法大都采用梯度下降算法，由链式法则可知，当梯度传播过长，梯度在远端的影响就会变得很大。我们把循环神经网络的这个问题叫做“长期依赖”[53]。为了克服“长期依赖”，Hochreiter 等提出了 LSTM[18]，它是一种具有门限设置的循环神经网络。
阅读笔记8：基于深度学习的脑电及功能磁共振信号的识别研究

3.3 深度学习的优化和训练

3.3.1常用的优化算法

动量方法借鉴了动力学中动量的特性引入变量 v，使得可以通过指数加权平均的方式保证梯度搜索的方向，加快了收敛速度
AdaGrad 算法基于历史梯度的平方和对模型的每个参数进行独立调整，对损失的偏导越大，调整得到的学习率越大。但由于其梯度累计，在一定的训练之后，会导致学习率变得过小
RMSProp 算法对其进行了修改，基于指数加权平均的方式调整参数
Adam 算法在梯度一阶矩的估计中引入了动量的思路，同时采用了二阶矩估计，加速了模型的收敛

3.3.2 **函数

sigmoid函数
ReLU

4.深度学习在基于脑电的运动想象识别中的应用

阅读笔记8：基于深度学习的脑电及功能磁共振信号的识别研究

4.1研究问题的定义

数据分布存在高度可变性
- 注意力水平
- 多个会话
- 肌肉运动
- 机器噪音
- 不同的生理构造
- 不同的行为
可用数据有限
数据由多个高维时间序列通道组成

4.2 背景知识

4.2.1共空间模式特征

不同受试者之间的训练模型的可转移性主要有两个局限。BCI 数据的统计分布差异导致难以从原始数据中提取有用的抽象特征。另一个问题是每次实验的样本数量少，以及实验期间无法控制的噪音。
CSP 是运动想象分类 BCI 中最有效的特征提取方法之一。CSP方法利用一组专门设计的空间滤波器，以最大化两类滤波信号的方差之间的差异。实际上，在 MI 中，大脑区域的**出现固有的对侧化，这为分类任务提供了重要的信息。CSP 可以捕捉运动想象时由信号方差反映的结构的不同。本质上，CSP 滤波器类似于空间滤波器，其加强了与 MI 任务相关的电极上的信息同时压缩与MI 任务无关的其他电极上的信息。

4.2.2 时域卷积

CNN 能够有效地提取有关空间和频谱信息的复杂分布，因为它的稀疏连接和参数共享降低了网络参数的复杂性。对于时间序列信号，我们在卷积层上应用 1D滤波器来捕获时间动态信息，因此称为时域卷积。
CNN 通过增加卷积滤波器的数量来增强数据表达的能力，但是由于参数数量的急剧增加，当我们使用更多卷积滤波器时，计算时间和过度拟合概率将增加。

4.2.3 传统机器学习基准方法

鉴于 EEG 数据集的高度多样性，使用传统方法对正在分类的特定数据建立基线非常重要。我们采用 k 近邻、逻辑回归、线性判别分析和支持向量机作为基线模型，这些模型都使用传统的 CSP 特征作为输入。并且，我们采用网格搜索来找到基线机器学习算法的最佳超参数。

4.3 局部通道卷积神经网络

4.3.1网络结构

对于跨被试迁移学习，要求模型能够利用现有被试的信息来预测新被试的信息。换句话说，我们期望将现有被试训练的模型进行迁移，以便在没有任何先验信息的情况下容易且有效地对新被试的任务进行分类。

对运动想象信号进行识别，在运动想象过程中，不同脑区会呈现不同的**状态，通过 CSP 变换，这种差异可以通过不同通道的 CSP 时间序列表征。我们期望深度模型可以更加关注与任务相关的通道信息，以增强模型的性能。因此，我们对每个通道都采用了不同参数的时域卷积进行特征编码。
阅读笔记8：基于深度学习的脑电及功能磁共振信号的识别研究
我们采用端到端方法根据MI任务的标签隐式地编码 CSP 特征编码器的参数更新过程基于最终分类结果的误差。模型按通道分别设置编码器，因此称之为局部通道卷积神经网络（Separated Channel Convolutional Neural Network，SCCN）。在训练阶段，每个编码器根据梯度自适应地调整通道的重要性，这反映了 MI 在不同电极上的大脑活动水平。以下具体说明 SCCN 的三个核心组件。
（1）CSP 变换，将原始信号转换为 CSP 数据;
（2）编码网络，对每个通道上的 CSP 数据进行编码;
（3）识别网络，对编码后的 CSP 抽象特征进行分类。

阅读笔记8：基于深度学习的脑电及功能磁共振信号的识别研究
我们使用’conv，k，p，s’来表示参数。 'conv’之前的数字是卷积内核的大小，'k’是内核的数量，'p’是填充大小，'s’是移动的步长。