1 / 93

阿臻的学习笔记

AI

README

这是方向臻的学习笔记和资源存储仓库(资源请从github下载)。

Scheduling

用于发布个人阅读深度强化学习+Scheduling领域的读后感

一种JSSP的DRL环境

问题：

JSSP的输入和输出方式？
JSSP的处理过程？
为什么makespan结果会比其他的论文好？
代码中有哪些细节值得借鉴？
论文中的其他困惑点？

IO过程(问题1回答)：

一次只读入一个实例
使用标准的JSSP文件（txt）方式读写，样例可看困惑点2
一个二维数组solution，若是-1表示没排，否则为开始运行的时间步

处理过程(问题2回答)：

离散集合={Job是否加工-J$_i$，空闲状态}，机器选择行为，行为对应作业和空闲
1. 因此，对于每个Job而言，需要完成|M|个行为(机器的数量)。每个行为表示Job在每台机器上的加工时间，如果不需要在该机器上执行，可以当作一个0？
2. 对于每个机器而言，需要运行至少|J|个与job有关的行为，加上若干个no-op（空闲）操作。

奖励函数细读(问题3回答):

该函数相对于makespan能得到更紧密的解。

不用执行到最后一步，就能获得一个局部reward。
makespan可以看成是全局p+empty，而这里是局部的p-empty，那么改变之处在于系数-1和全局变为局部。

代码中的优点(问题4回答)：

作者新建自己环境的代码十分受用，让我对新建gym的环境有了一个详细的了解
wandb和ray两个库的使用具有一定的启发，但可能更适合较大的项目
1. wandb能够使得训练日志自动上传网络并绘图

困惑点(未解决，问题5)：

第四页中的问题对称性，讲述了一些JSS问题的对称性，通过破坏对称性，而降低搜索解空间的大小
1. 同一时间步长中，操作具有对称性，也就是操作的执行顺序待定。怎么解决？以及为什么说直接赋予机器从小到大的索引会导致失去全局视图。
2. 同一机器中，"运行"操作和"无运行"操作具有对称性，也就是op和no-op两者的执行顺序待定。解决方案：当no-op时，其他的操作临时设未不可执行。以及通过非最终状态优先调度的规则。

复现代码时候遇到的问题(已解决，记录)：

'env': 'JSSEnv:jss-v1'，该环境已经创建好并上传gym库中，作者使用的ray库会自动生成一个包含该环境名字的本地日志。而windows文件不允许冒号，所以需要修改ray库的底层代码中的日志文件名字生成方式。

代码阅读：

大体分三块

强化学习环境：已经注册成gym库的环境，各种强化学习包都可以用。
CP.py：是使用OR tools的求解器，进行求解的方法，能达到比较好的解。
mian.py：使用ray中的PPO算法，只修改了一个全连接层，然后定义了一些参数，就可以使用作者的环境来训练。

其他读后感主要写在代码注释中，目前均已跑通。

Paper

神经协同过滤

PPT1

发表：17年四月，world wide web会议，深度学习的网络结构，训练方法，GPU硬件的不断进步，促使其不断征服其他领域

何向南：中科大教授，92年，28岁

PPT2

点积和矩阵分解的关系：矩阵分解为两个矩阵相乘，又等价于第i行和第j列的点积

矩阵分解的限制性：Jaccard系数作为实际的结果，先计算u1，2，3，而后添加u4，发现，4和2的距离一定比4和3的距离更近

题外话：

Jaccard 主要用于判断集合间相似度，所以他无法像矩阵一样，体现更多的信息。

Cosine 的计算中，则可以把用户对电影的评分信息加进去。

PPT3:

目标：NCF,GMF,MLP,NeuMF

ranking loss：度量学习，相对位置，the objective of Ranking Losses is to predict relative distances between inputs. This task if often called metric learning.

解决方式：使用大量的隐藏因子去学习交互函数。

PPT4:

PPT5:

element-wise product:按元素积

将GMF作为一种特殊的NCF

如果a是恒等函数，h是1的均匀向量

PPT6:

经验：tower structure，halving the layer size for each successive higher layer

PPT7:

generalization ability：泛化能力，适应新样本的能力

PPT8:

神经张量网络，使用加法

PPT9:

神经矩阵分解，使用连结操作

PPT10:

显示评分：回归损失，预测一个值，平方损失

隐式交互：分类损失，预测离散结果，logistic

优化方法：随机梯度下降法

PPT11:

实验环境设置：

数据集，留一法，top-k排序，

HR@10：分母是所有的测试集合，分子式每个用户top-K推荐列表中属于测试集合的个数的总和

NDCG@10：最终所产生的增益（归一化折损累计增益）

PPT12:

BPR:基于矩阵分解的一种排序算法，针对每一个用户自己的商品喜好分贝做排序优化。在实际产品中，BPR之类的推荐排序在海量数据中选择极少量数据做推荐的时候有优势。淘宝京东有在用。部分填充，速度十分快。

eALS:最新的关于隐式数据的协同过滤算法，用一步到位的计算公式全部填充缺失值。

PPT13,14:

rel表示关联性，就是跟所想要的结果的关联度，0表示没有关联，越高说明关联性越高

i是位置，关联性乘以位置，就是第i个结果所产生的效益

IDCG是理想化的最大效益。

PPT15:

NeuMF，%5更优

NeuMF > GMF > MLP

PPT16:

理论成果

PPT18:

GMF: weights w can simply be absorbed into the embeddings matrices P and Q

总之，应用场景（数据集）不同，采用的方法应该不同，灵活使用推荐算法或模型

非侵入信号深度学习

第一节，介绍论文

工作流程包括几个关键部分：脑信号采集、信号预处理、特征提取、分类和数据分析

分类结果用于控制智能设备，称之为脑机接口

头骨让信号保真度为5%（以信噪比（SNR）衡量）

预处理：包含多个步骤，如信号清理（平滑噪声信号或解决不一致性）、信号标准化（沿时间轴对每个信号通道进行标准化）、信号增强（去除直流电）和信号压缩（呈现信号的简化表示）。

分类结果应用：神经疾病诊断、情绪测量和驾驶疲劳检测。

脑机接口的深度学习的分类：

仅用于特征提取；
仅用于分类；
同时用于特征提取和分类。

传统BCI所面临的挑战：

大脑信号很容易被各种生物因素（如眨眼、肌肉伪影【肌肉产生的电波对脑电波的影响】、疲劳和注意力集中程度）和环境因素（如噪音）所破坏
低信噪比的非平稳脑电生理信号
特征提取高度依赖于人类在特定领域的专业知识。

深度学习好处：

直接作用于原始的大脑信号
深层神经网络和第二层神经网络都能捕获潜在的，具有代表性的特征。

综述论文贡献：

对非侵入性脑信号论文的全面性调查
1. 脑电图及其亚类（运动脑电图，P300等）
2. 功能性近红外光谱(functional near - infrared spectroscopy , fNIRS)【利用血液的主要成分对600-900nm近红外光良好的散射性，从而获得大脑活动时氧合血红蛋白和脱氧血红蛋白的变化情况，产生功能性神经影像】

综述论文内容：

回顾大脑信号和深度学习技术
讨论了流行的深度学习技术和最新的脑信号模型，为在给定特定信号亚类的情况下选择合适的深度学习模型提供了实用指南。
回顾了基于深度学习的脑信号分析的应用，并指出了一些有前景的未来研究课题。

第二节，介绍大脑信号的分类

基于信号收集方法的非侵入性脑信号分类（虚线不调查）

P300包含于ERP中。

ERP：一种特殊的脑诱发电位，通过有意地赋予刺激以特殊的心理意义，利用多个或多样的刺激所引起的脑的电位。它反映了认知过程中大脑的神经电生理的变化，也被称为认知电位，也就是指当人们对某课题进行认知加工时，从头颅表面记录到的脑电位。

其他脑成像技术（fNIRS，fMRI）中的视觉/听觉任务未曾有采用过深度学习，但理论上可行。

第三节，概述常用的深度学习模型

分类模型：Multi-Layer Perceptron (MLP) , Recurrent Neural Networks(RNN) , Convolutional Neural Networks (CNN) --> 特征提取和分类

表示模型：Autoencoder(AE), Restricted Boltz-mann Machine (RBM) , Deep Belief Networks(DBN) --> 只能特征提取

生成模型：Variational Autoencoder (VAE)，Generative Adversarial Networks (GANs) --> 主要用于生成脑信号样本，增强训练集

各个非侵入式脑信号特征：

第四节，最先进的脑信号深度学习技术

4.1 EEG

4.1.1 自发脑电波

4.1.1.1 睡眠脑电：

主要用于识别睡眠阶段、诊断睡眠障碍或培养健康习惯

睡眠阶段包括清醒、非快速眼动1、非快速眼动2、非快速眼动3、非快速眼动4和快速眼动。

美国睡眠医学学会（AASM）建议将睡眠分为五个阶段：清醒、非快速眼动1、非快速眼动2、慢波睡眠（SWS）和快速眼动。

识别睡眠阶段，一般通过滤波器实现脑电信号的预处理，数据通常是30s的窗口，50hz。

分类模型：CNN用于单通道EEG的睡眠阶段分类，86%精确度
表示模型：DBN-RBM（深度置信网络-受限玻耳兹曼机）从睡眠脑电信号中提取功率谱密度（PSD,表示随机信号的强度），在局部数据集达到F-1值92.78%（兼顾召回率和精确度）
混合模型：

4.1.1.2 运动想象脑电：

深度学习在运动想象脑电图和真实运动脑电图的分类上显示出优越性

分类模型：大多使用CNN来识别脑电图，例如：
- 有分别采用CNN和二维CNN进行分类的
- 从EEG信号中学习情感信息，构建改进的LSTM控制智能家电

4.1.1.3 情绪脑电图

个体的情绪可以从三个方面来评价：评价值（积极感情的值）、唤起度（激动的程度）和控制力。

这三个方面的结合形成了恐惧、悲伤和愤怒等情绪，这些情绪可以通过脑电图信号来揭示。

分类模型：传统上使用MLP，CNN和RNN正在越来越流行
- 典型的基于CNN：CNN的分层，扩充CNN训练集
- 通过多通道脑电信号转化为二维矩阵来捕捉通道之间的空间相关性

4.1.1.4 精神病脑电图

大量研究人员利用脑电图信号诊断神经系统疾病，特别是癫痫发作

分类模型：CNN广泛应用于癫痫发作的自动检测
- CNN对癫痫发作的高通量（1hz）EEG信号进行研究，获得了94.7%的AUC
- 在抑郁症检测上采用了13层CNN模型，在30名受试者的局部数据集上进行了评估，基于左半球和右半球EEG信号的准确率分别为93.5%和96.0%

4.1.1.5 数据增强

实验1：EEG信号转换为图像

首先证明了脑电波中包含的信息被赋予了区分视觉对象的能力
然后使用RNN提取了更健壮、更具区分性的脑电数据表示。
最后，利用GAN范式训练了一个由学习的EEG表示调节的图像生成器，该生成器可以将EEG信号转换为图像

实验2：将EEG信号转换为图像

当受试者观察屏幕上的图像时，采集脑电图信号。将脑电信号的潜在结构作为输入，提取脑电信号的潜在特征。
GAN的产生器和鉴别器均由卷积层构成。该发生器根据训练后的脑电信号生成图像。

实验3：癫痫发作数据增强的GAN（生成式对抗网络）

发生器和鉴别器都是由全连接层组成的。
作者证明了GAN优于其他生成模型，如AE和VAE（可变自动编码器）。增强后，分类准确率从48%提高到82%。

4.1.1.6 其他

实验1：听觉/视觉刺激（持续存在的刺激）如何影响脑电图信号

13名受试者受到23种节律性刺激的刺激，其中包括12种东非和12种西方刺激。
对于24类分类，提出的CNN平均准确率为24.4%。
之后，作者利用卷积AE进行表征学习，CNN用于识别，12类分类的准确率达到27%

实验2：区分是在听歌还是想象歌曲

提出两个深度学习模型，使用二值分类任务，所提出的CNN和DBN-RBM（三个RBM）的准确率分别为91.63%和91.75%。

实验3：自发脑电图可以用来区分使用者的心理状态（逻辑与情绪）

实验4：认知负荷（处理具体任务时加在学习者认知系统上的负荷）或体力负荷对EEG的影响

首先通过小波熵和频带比功率提取信息特征
然后将其输入DBN-RBM进行进一步细化。
最后，利用MLP对认知负荷水平进行识别。

实验5：在不同心理负荷下，受试者之间及受试者本身中的一般特征是恒定的。

从高水平脑电信号中收集的脑电信号。
脑电信号经低通滤波器滤波后，转换到频域，计算功率谱密度（PSD）。
提取的PSD特征被输入到去噪D-AE结构中，以便于进一步的细化。最终得到了95.48%的准确率。

实验6：驾驶员疲劳检测 --- 三维CNN

精神疲劳程度的识别，包括警觉、轻度疲劳和严重疲劳

实验7：驾驶员疲劳检测 --- ICA+DBN-RBM

ICA(独立成分分析)对脑电信号预处理
采用DBN-RBM进行分类
达到85%左右准确率，二分类（“昏昏欲睡”或“警惕”）。

实验8：驾驶员疲劳值检测 --- DBM-RBM+SVM，精度达到73.29%

实验9：调查了不同低负荷水平下驾驶员的心理状态。提出了一种基于脑电信号直接检测驾驶负荷的CNN方法。

实验10：基于EEG信号的眼睛状态（闭或开）的检测

三个RBM的DBN-RBM和三个AEs的DBN-AE，98.9%的高准确率
MLP，97.5%准确率

事件相关去同步（ERD）表示正在进行的EEG信号的功率下降，

事件相关同步（ERS）表示EEG信号的功率增加

实验11：采用CNN在观看特定视频时通过脑电图检测学校欺凌行为。

二分类和四分类分别达到93.7%和88.58%。

实验12：结合RNN和CNN提出了一个级联框架来预测个体的情感水平和个人因素（五大人格特征、情绪和社会背景）。

实验13：试图根据使用者的脑电图信号来识别他们的性别

采用标准的CNN算法，在局部数据集上实现了81%的二元分类精度

实验14：驾驶员的脑电图信号可以区分刹车意图和正常驾驶状态

**实验15：**将大脑信号和推荐系统结合起来，通过EEG信号预测用户的偏好。

共有16名受试者接受了60个手镯状物体作为旋转视觉刺激物（3D物体）时采集脑电信号的实验。
然后采用MLP预测用户喜欢或不喜欢。本次勘探的预测精度为63.99%。

**实验16：**试图探索一个可用于各种脑信号范式的共同框架，并评估鲁棒性。基于compact CNN的EEGNet [73]

4.1.2 EP诱发电位

4.1.2.1 ERP事件相关电位

在大多数情况下，ERP信号都是通过P300现象来分析的。

4.1.2.1.i VEP视觉诱发电位

较热门。

实验1：通过深度学习提取具有代表性的特征来研究运动开始的 VEP（mVEP）

采用遗传算法结合多级传感结构对原始信号进行压缩。
压缩后的信号被发送到DBN-RBM算法中，以获取更抽象的高层特征。

实验2：P300信号特征提取

通过带通滤波器（2∼35hz）过滤视觉刺激的P300信号，
然后输入混合深度学习模型进行进一步分析。
该模型包括一个2D CNN来捕获空间特征，然后在LSTM层中进行时间特征提取。

实验3：使用AE模型进行特征提取，然后使用支持向量机分类器。

实验中，每一段包含150个点，分为五个时间步，每一步有30个点。
该模型在局部数据集上获得了88.1%的准确率。

实验4：DBN-RBM代表性模型与支持向量机分类器相结合进行隐藏信息测试（？？），97.3%准确率

实验5：提高P300写字机准确率

一种基于CNN的新模型，该模型包括5个具有不同特征集的低层CNN分类器
最后由低层分类器投票得到最终的高层结果。
第三届BCI竞赛数据集II中，最高准确率达到95.5%

4.1.2.1.ii AEP听觉诱发电位

较少研究。

实验1：提出并测试了18个CNN结构来对单次试验的AEP信号进行分类。

利用耳机产生古怪范式设计的听觉刺激来获得数据。
实验分析表明，无论卷积层数多少，CNN框架都能有效地提取时空特征。
实验结果表明，下采样数据的效果更好。

4.1.2.1.iii RSVP快速连续视觉表示

CNN和MLP在这里取得一定成功。

实验1：一种针对RSVP的主题间和任务间检测的CNN模型。

实验结果表明，CNN在交叉任务中表现良好，但在跨主题情境下表现不佳。

实验2：比较了三种不同的深度神经网络算法，以预测受试者是否看到了目标。

MLP、CNN和DBN模型的AUC分别为81.7%、79.6%和81.6%。

...

4.1.2.2 SSEP稳态诱发电位

大多数研究稳态视觉诱发电位（SSVEP），指由闪烁的视觉刺激引起的脑震荡，通常产生于顶叶和枕叶。当施加一个恒定频率的外界视觉刺激时，与刺激频率或谐波频率相一致的神经网络就会产生谐振，导致大脑的电位活动在刺激频率或谐波频率处出现明显变化，由此产生SSVEP信号。

实验1：寻找SSVEP的中间表现形式。

提出了一种结合CNN和RNN的混合方法，直接从时域中提取有意义的特征，准确率达到93.59%。

实验2：紧凑CNN直接处理原始结果

平均准确率80%左右

实验3：采用了一种典型的稀疏AE模型，从多频视觉刺激中提取SSVEP的不同特征。

该模型采用了一个softmax层进行最终分类，准确率为97.78%。

...

4.2 fNIRS功能性近红外光谱

较少研究。

定义：利用血液的主要成分对600-900nm近红外光良好的散射性，从而获得大脑活动时氧合血红蛋白和脱氧血红蛋白的变化情况，产生功能性神经影像。

实验1：基于fNIRS信号分析了两种心理任务（心算和休息）之间的差异。

从前额叶皮层fNIRS中手动提取了6个特征，并比较了6个不同的分类器。
结果表明，MLP的准确率为96.3%，优于所有传统的分类器，包括SVM、KNN、naivebayes等。

实验2：试图通过fNIRS信号检测受试者的性别。

作者使用三层隐层去噪D-AE来提取显著特征并输入MLP分类器进行性别检测。
该模型在本地数据集上进行了评估，平均准确率为81%
相比fMRI信号，fNIRS具有更高的时间分辨率和更经济的价格

4.3 fMRI功能性磁共振成像

利用磁振造影来测量神经元活动所引发的血液变化。从而监测大脑活动

该领域，近年用了不少深度学习方法，特别是认知功能障碍的诊断上。

4.3.1 分类模型

分类模型中，CNN是一种很有前途的fMRI分析模型

实验1：根据功能磁共振成像（fMRI）和核磁共振成像（MRI）数据，应用深层CNN识别阿尔茨海默病。

实验2：利用一种新的CNN算法建立了一种基于fMRI的脑肿瘤分割方法，它可以同时捕获全局特征和局部特征

实验3：采用CNN模型处理脑瘤患者的功能磁共振成像（fMRI）进行三类识别（正常、水肿或活动性肿瘤）。在BRATS数据集上对模型进行了评估，得到了88%的F1分数

实验4：利用CNN进行特征提取。提取的特征用支持向量机分类，用于癫痫发作的检测

4.3.2 表示模型

大量文章证明了表示模型在识别功能磁共振成像数据方面的有效性。

实验1：利用一个由三个RBM分量组成的DBN-RBM从ICA处理的fMRI中提取显著特征，最终在四个公共数据集上实现了90%以上的F1平均测量值。

实验2：DBN-RBM和DBN-AE检测阿尔茨海默病

前者95.4%，后者97.9%。

实验3：应用D-AE模型从静止状态的fMRI数据中提取潜在特征，用于诊断轻度认知功能障碍（MCI）。-

将潜在特征输入支持向量机分类器，识别率达到72.58%。

4.3.3 生成模型

自然图像的重建引起广泛的关注。

实验1：从fMRI中重建视觉刺激的深卷积GAN，

目的是训练生成器生成与视觉刺激相似的图像。
发生器包含四个卷积层，以便将输入的fMRI转换为自然图像。

4.4 MEG脑磁图

用于测量由大脑中神经元的电活动引起的磁场。通过磁变化反映大脑活动

实验1：致力于通过去除诸如眨眼和心脏活动等伪影来细化MEG信号。

首先对MEG单峰进行ICA分解
然后用一维CNN模型进行分类。
最后，该方法在局部数据集上的灵敏度达到85%，特异性达到97%。

实验2：目标同实验1

该方法利用CNN获取时间特征，MLP提取空间信息

第五节，大脑信号的应用

5.1 医疗保健

基于深度学习的大脑信号系统主要用于检测和诊断精神疾病，如睡眠障碍、阿尔茨海默病、癫痫发作等。

睡眠障碍：

对于睡眠障碍的检测，大多数研究都集中在基于睡眠自发脑电图的睡眠阶段检测上。DBN-RBM和CNN被广泛应用于特征选择和分类。

阿尔茨海默病：

功能磁共振成像在阿尔茨海默病的诊断中有着广泛的应用。优点是高空间分辨率，几项研究的诊断准确率均在90%以上。

癫痫：

癫痫发作的检测主要基于自发脑电图。流行的深度学习模型包括独立的CNN和RNN，以及结合RNN和CNN的混合模型
例如，将D-AE应用于特征提取，然后将支持向量机应用于癫痫诊断

研究人员已经证明了深度学习模型在检测大量精神疾病方面的有效性，如抑郁症[113]、发作间期癫痫放电（IED）[230]、精神分裂症[211]、克雅氏病（CJD）[123]和轻度认知障碍（MCI）

5.2 智能设备

随着物联网的发展，越来越多的智能环境可以连接到大脑信号。
例如，辅助机器人可用于智能家居，其中机器人可以由个体的大脑信号控制。
基于视觉刺激的自发EEG和fNIRS信号的机器人控制问题。

5.3 信号传输

P300 speller，深度学习模型使大脑信号系统能够从非300片段中识别出P300片段
使用一种结合RNN、CNN和AE的混合模型，从MI-EEG中提取信息特征来识别用户想要说的字母。

5.4 安全保密

应用于身份识别和身份验证

前者通过多类别分类来识别一个人的身份[6]。后者进行二元分类来决定一个人是否被授权
主要使用视觉刺激产生的信号来作为输入。

5.5 情感计算

个性化信息（如多媒体内容）检索或智能人机界面设计

试图根据脑电图信号，使用深度学习算法（如CNN及其变体）将用户的情绪状态分为两类（积极/消极）或三类（积极、中性和消极）
DBN-RBM是从情绪自发脑电图中发现隐藏特征的最具代表性的深度学习模型

5.6 驾驶员疲劳度检测

一般情况下，如果驾驶员的反应时间小于0.7秒，则认为驾驶员处于警戒状态；如果反应时间大于2.1秒，则认为驾驶员处于疲劳状态。

目前，基于EEG的驾驶困倦可以得到较高的识别率（82%∼95%）

5.7 心理负荷测量

适当的心理负荷对于维持人类健康和预防事故是必不可少的。

持续脑电来评估操作者的心理负荷，以警告随着时间，操作者的性能下降。

可以通过fNIRS信号和自发脑电图来测量
通过一个循环卷积框架研究了跨多个心理任务的心理负荷测量。该模型同时从空间、频谱和时间维度学习脑电特征，二值分类（高/低负荷水平）的准确率为88.9%

5.8 其他

推荐系统，紧急刹车，视觉对象识别，内疚测试，隐藏信息测试，区分性别。

5.9 基准数据集

https://en.wikipedia.org/wiki/Self-driving_car https://physionet.org/physiobank/database/sleep-edfx/ https://massdb.herokuapp.com/en/ https://physionet.org/pn3/shhpsgdb/ https://physionet.org/pn6/chbmit/ https://www.isip.piconepress.com/projects/tuh.eeg/html/downloads.shtml https://physionet.org/pn4/eegmmidb/ http://www.bbci.de/competition/ii/ http://www.eecs.qmul.ac.uk/mmv/datasets/amigos/readme.html http://bcmi.sjtu.edu.cn/seed/download.html https://www.eecs.qmul.ac.uk/mmv/datasets/deap/ https://owenlab.uwo.ca/research/the.openmiir.dataset.html http://adni.loni.usc.edu/data-samples/access-data/ https://www.med.upenn.edu/sbia/brats2018/data.html

第六节，分析和指南，根据大脑信号选择适当的模型

6.1 脑信号采集

70%的EEG论文关注自发EEG（133种出版物）。自发的脑电图分成几个方面：睡眠、运动想象、情绪、精神疾病、数据增强和其他。

睡眠：总共19篇，6篇使用CNN，2篇RNN，还有3种RNN+CNN的混合模型。

运动想象：广泛使用CNN和基于CNN的混合模型。表示型模型常用DBN-RBN提取潜在特征。

情绪：总共25篇，超过一半使用表示模型（D-AE,D-RBM,DBN-RBM）。最典型的状态识别工作将用户的情绪识别为积极、中立或消极。进一步对配价和唤起率进行分类

精神疾病：大部分相关研究集中在癫痫发作和阿尔茨海默病的检测上。大部分相关研究集中在癫痫发作和阿尔茨海默病的检测上。许多研究可以达到90%以上的高准确率。在这一领域，标准的CNN模型和D-AE是普遍存在的。一个可能的原因是CNN和AE是最著名和最有效的深度学习模型的分类和降维

数据增强：基于GAN的数据扩充

其他：大约有30个研究正在调查其他自发脑电图，如驾驶疲劳、视听刺激冲击、认知/心理负荷和眼睛状态检测。这些研究广泛应用标准CNN模型和变体。

视觉诱发电位（VEP）引起大量研究（21篇）。6种混合模型。

快速连续视觉表示（RSVP），只有CNN算法。

fNIRS图像的研究很少采用深度学习的方法，主要的研究只是采用简单的MLP模型。我们认为，由于fNIRS具有高便携性和低成本的特点，应引起更多的关注。

至于功能磁共振成像，有23篇论文提出了深度学习的分类模型。CNN模型因其在图像特征学习中的突出表现而被广泛应用。

6.2 深度学习模式的选择标准

结论1：大多数采用判别模型。

结论2：超过70%的判别性模型都采用了CNN及其变体，为此我们提供了以下原因：

首先，CNN的设计足够强大，能够从EEG信号中提取潜在的鉴别特征和空间相关性进行分类。因此，有些研究采用CNN结构进行分类，而有些研究则采用CNN结构进行特征提取。
CNN在一些研究领域（如计算机视觉）取得了巨大的成功，更容易找到代码。
一些脑信号图（如功能磁共振成像）是自然形成的二维图像，有利于CNN进行处理。

结论3：表示模型中，DBN，尤其是DBN-RBM是最常用的特征提取模型。原因有二：

它能有效地学习揭示相邻层中变量关系的生成参数
它使计算每个隐藏层中潜在变量的值变得简单

【大多数采用DBN-RBM模型的作品都是在2016年之前出版的。可以推断，在2016年之前，研究人员更倾向于使用DBN进行特征学习，然后使用非深度学习分类器；但最近，越来越多的研究希望采用CNN或混合模型进行特征学习和分类。】

结论4：生成模型很少独立使用，基于GAN和VAE的数据增强和图像重建主要集中在fMRI和EEG信号上，有前途。

结论5：53篇论文中，RNN和CNN的组合约占五分之一，结合后具有很好的时空特征提取能力。

结论6：表示模型+判别模型也很常用，28篇中有这种方法，所采用的表示模型多为AE或DBN-RBM，同时所采用的判别模型多为CNN。

6.3 应用表现

将脑信号分析应用于医疗领域是目前最吸引人和最热门的领域。

一般来说，大多数深度学习算法在多个睡眠阶段场景下都能达到85%以上的准确率。

对于fMRI图像，CNN在网格化空间信息学习方面具有很大的优势，使其获得了非常全面的分类准确率（90%以上）。

至于癫痫发作，一般是根据脑电图信号进行诊断。单一的RNN分类器（如LSTM或GRU）由于其良好的时间依赖性表示能力，似乎比其对应的分类器工作得更好。

检测阿尔茨海默病的一个关键方法是通过测量大脑特定区域的功能来分析大脑信号。具体来说，可以通过自发的脑电图信号或功能磁共振成像来进行诊断

由于视觉诱发电位明显且易于检测，许多研究都集中在VEP信号上。一个重要的数据来源是来自第三届BCI竞赛。

脑电信号具有较高的时间分辨率，能够捕捉快速变化的情绪。因此，几乎所有的研究都是基于自发的脑电信号。这些信号是在被试观看视频时收集的，视频被认为是激发受试者特定情绪的。主要是使用层次化CNN，DBN-RBM结合强分类器，前一种更好。

第七节，开放性挑战和未来方向

7.1 可解释性

一般框架需要两个关键能力：注意机制和捕捉潜在特征的能力。前者保证了框架能够集中于输入信号中最有价值的部分，而后者使框架能够捕捉到与众不同和信息丰富的特征。

方法2：CNN是最适合捕捉不同层次和范围特征的结构。未来，CNN可以作为一种基本的特征学习工具，并与适当的注意机制相结合，形成一个通用的分类框架。

方法1：可以考虑如何解释由深层神经网络导出的特征表示，学习的特征与任务相关的神经模式或精神障碍的神经病理学之间的内在关系。

7.2 跨个体

方法1：实现这一目标的一个可能的解决方案是建立一个个性化的迁移学习模型。

个性化情感模型可以采用转换参数传递的方法来构造个体分类器，并学习映射数据分布和分类器参数之间关系的回归函数

方法2：从输入数据中挖掘与主题无关的组件。输入的数据可以分解为两部分：一个依赖于主题的主题相关组件和一个所有主题都通用的主题无关组件。一个混合多任务模型可以同时处理两个任务，一个侧重于人的识别，另一个侧重于类识别。在类识别任务中，需要一个训练良好、收敛良好的模型来提取与主题无关的特征。

7.3 半监督和无监督分类

Adversarial V ariational Embedding （对抗性变异嵌入）-----> 高质量生成模型

有两种方法可以增强无监督学习：

一种是利用众包（给大众志愿者）方法对未标记的观测值进行标记；
另一种是利用无监督域自适应学习，通过线性变换来调整源脑信号和目标信号的分布

7.4 在线实施

在真实场景中，大脑信号系统需要接收实时的数据流并实时产生分类结果

由于受试者注意力不集中和设备固有的不稳定性（例如采样率波动）等诸多因素，采集到的实时信号更具噪声和不稳定性。通过我们的实验，在线脑信号系统的准确率通常比同类系统低10%。

方法：投票和聚合来平均多个连续样本的结果，提高解码性能。

7.5 硬件可移植性

脑电采集设备主要有三种：不便携头戴式、便携式头戴式和耳式脑电传感器。

第一种，采样频率高，信道数多，信号质量高，但价格昂贵。适合医院体检。

第二种，（例如Neurosky、Emotiv EPOC），有1∼14个通道和128∼256采样率，但读数不准确，长期使用后会造成不适。

第三种，还在实验室阶段。EEGrids是唯一商业化的耳脑电设备。

读后感

受限玻尔兹曼机 RBN（2000年后流行）

和DNN的区别是，RBM不区分前向和反向。
RBM可以看做是一个编码解码的过程，从可见层到隐藏层就是编码，反之是解码。对于每个训练样本，期望编码解码后的可见层输出和之前可见层输入的差距尽量的小。
RBM详细推导过程：https://www.cnblogs.com/pinard/p/6530523.html

深度波尔茨曼机Deep Boltzmann Machine (DBM)

扩展RBM到三层及以上

RBN实现的深度置信网络（DBN-RBN）

与DBM的区别是隐藏层之间为单向的。优化计算更简单。

降噪自编码器（D-AE）

DAE(Denoising Autoencoder)的核心思想是，一个能够从中恢复出原始信号的神经网络表达未必是最好的，能够对“损坏”的原始数据编码、解码，然后还能恢复真正的原始数据，这样的特征才是好的。

卷积神经网络（CNN）

池化层

循环神经网络（RNN）

长短期记忆（LSTM）

评价标准

敏感度
特异性
准确率

肾透析移植机器学习

摘要

背景

本文综述人工智能/机器学习（AI/ML）算法在肾替代治疗（血液透析，腹膜透析和肾移植）中的研究现状及其影响。

问题

包括了哪些医疗方面？
有什么AI/ML算法被使用过？

方法

研究了三个医疗领域关于血液透析（hemodialysis，HD），腹膜透析（peritoneal dialysis，PD），肾移植（kidney transplantation，KT）的四个使用AI/ML的电子数据库或研究。

所以分为了HD,PD,KT三类。

结论

AI能比肾脏学家更好的预测：体积，KT/V（一定透析时间内透析器对尿素的清除量与体积的比值。），透析期间发生低血压或心血管事件。

这些实验报告了AI/ML对G5D/T患者的生活质量和生存期的强大影响。

未来几年，人们可能会看到AI/ML设备的出现，它有助于透析患者的管理，从而提高生活质量和生存。

专有名词

CKD: chronic kidney disease，慢性肾脏病

G5D/T: 终末期肾脏病，需要长期透析治疗。

FDA: US Food and Drug Administration，美国食品和药物监管局

ESRD: end-stage renal disease，终末期肾病患者

: Preferred Reporting Items for Systematic Reviews and Meta-Analyses,系统综述和Meta分析优先报告的条目

本文按照该标准查找并筛选文章
分为四个流程(对应图1)：
- 通过数据库检索文献

RCTs: randomized controlled trial,随机对照试验

一、介绍

AI/ML的方法已经步入平稳期：美国食品和药物管理局发布了监管框架，用于修改基于AI/ML的软件作为医疗设备。该委员会去年批准了至少15个涉及医疗领域的人工智能/深度学习平台(例如，用于房颤检测、CT脑出血诊断、冠状动脉钙化评分、辅助中风诊断或乳房x线摄影乳房密度)。

有数据集但没成功：在过去的15年里，许多问题和并发症产生的终末期肾病需要透析，使得人工智能算法得到了初始输入。但上述的成功案例均未发现。

成功案例引起肾学家思考：医学图像处理对医疗保健的重大影响，手术中的智能机器人，苹果手表对心房颤动检测的影响。

思考：

将这种成功应用于透析设计
开发智能透析设备

下一步目标：用AI加强透析机（也就是人工肾）的功能。

理论基础：2019年的论文——基于透析患者特征、历史血流动力学反应和透析相关处方，开发了一个多终点模型来预测特定时段的Kt/V、液体容量去除、心率和血压，

理论意义：为关于ESRD患者的人工智能研究打开了大门，ml驱动的机器连续自主地改变参数（温度、透析液电解质成分、持续时间和超滤速率），避免透析过程中糟糕的情况（例如低血压）。从而告诉我们，肾脏学是一门“个体化医学”，因为透析过程不一样。

二、材料和方法

遵循PRISMA指导原则（详看上述专有名词）

2.1搜索策略

搜索PubMed、SCOPUS、Web of Science和EBSCO的电子数据库，最早的论文为2019年8月。

筛选阶段获得77篇论文，通过两名审稿人讨论和协商后，69项符合标准。（对应表1-表3）

图1：筛选过程分为四个流程：

按照关键词通过数据库检索文献，获得455篇
直接剔除重复文献，101篇
阅读题目和摘要后再剔除，189篇重复，68篇不是手稿（手写），7篇没有临床，13篇没有文本

2.2临床方法

图2：所有研究分为三大类，12小类：

注：他克莫斯移植后，而不是后移植，指治疗调节。

实验的特征：

大多数研究是观察性的，除了一个随机对照实验（RCT），超过60%的研究是在2010年之后报道的。
大多数HD（血液透析）研究涉及个体化贫血管理和透析过程参数。准确预测移植排斥反应或移植后个体化免疫抑制治疗是AI和KT（肾透析）试验的主要主题。

2.3算法

表2：根据AI算法的类型进行分类：

算法分析：

64项研究包括ML算法: 未指定的、朴素贝叶斯模型、支持向量机(SVM)和马尔可夫决策过程强化学习(MDP)。
1个K近邻，1个MLP，30个未指定的神经网络算法。
11项研究基于树的模型(TBM)，随机森林（RF）或条件推理树

三、讨论

3.1

3.1.1 Key Message

人工智能如何改善向HD(血液透析)提供的医疗服务?
- 预防
  - 人工智能能够为临床结果不令人满意的HD实验确定风险概况。

3.2

实验一
一个MLP模型使用了来自111名尿毒症患者5年PD数据库的透析前数据并证明了该方法将透析前患者分为高转运蛋白组和低转运蛋白组有效性。
可以为尿毒症患者提供更好的治疗选择，这将改善PD患者的预后，降低发病率和死亡率。
实验二
利用反向传播方法构造和训练了73-80-1节点结构的MLP，确定PD技术失败的相关因素，以便开发干预措施以减轻风险因素

3.2.1Key Message

人工智能的使用如何改善向PD(腹膜透析)提供的医疗服务?
- 预防
  人工智能被用来确定PD技术失败的相关因素，指定干预措施以减轻风险因素
- 诊断

3.3

实验一
NNs可用于预测慢性肾移植排斥反应(作者描述了对27例慢性排斥反应患者的回顾性分析，八个简单变量对排斥反应有很大影响)
实验二
一项对2005年至2011年500名患者的研究使用最大似然算法(SVM、随机森林和离散余弦变换)预测“延迟移植功能”，结果表明线性SVM具有最高的鉴别能力(AUROC为84.3%)，优于其他方法。

3.3.1Key Message

人工智能的使用如何改善向KT提供的医疗服务?
- 诊断
  - AI能够通过识别一系列实验室数据中的异常模式来检测和报告急性KT排斥反应相关的早期肌酐病程，从而允许快速干预和改善KT病人的后遗症

心理学随机森林

摘要

用机器学习（即随机森林）:

量化关系质量的可预测程度
确定哪些结构可以可靠地预测关系质量。

关系质量的最高预测因子是:（RF里的重要性？)

感知伴侣承诺
欣赏
性满足

个体差异最大的预测因子:（方差？）

生活满意度
消极情绪
抑郁

？？特定于关系的变量在基线时预测的方差高达45%，在每个研究结束时预测的方差高达18%。

Overall, relationship-specific variables predicted up to 45% of variance at baseline, and up to 18% of variance at the end of each study.

？？个体差异和伴侣报告除了行为人报告的关系特异性变量外，没有预测效果。

Importantly, individual differences and partner reports had no predictive effects beyond actor-reported relationship- specific variables alone.

结论：

所有个体差异和伴侣经验的总和通过一个人的特定关系经验对关系质量产生影响，并且由于个体差异的调节和伴侣报告的调节而产生的影响可能很小。
？？最后，通过任何自我报告变量的组合，发现关系质量的变化（即，在研究过程中关系质量的增加或减少）在很大程度上是不可预测的。

意义

什么能预测人们对他们的浪漫关系有多幸福？
已经确定了数百个据称影响浪漫关系质量的变量。目前的项目使用机器学习来直接量化和比较11196对浪漫夫妇中许多这样的变量的预测能力。
人们对关系有自己的判断，比如他们对伴侣的满意程度和忠诚程度，感激程度，解释了他们目前满意度的45%。

附件

数据征集策略

来自每对情侣的浪漫伴侣的数据
从至少相隔2个月的至少两个时间点收集的数据
在每个时间点收集的关系满意度的测量值

分析策略

机器学习

同时处理多个变量，最小化过拟合
建立分类树和回归树
1. 随机森林方法使用一个随机的预测器和参与者子集，通过一个称为递归分区的过程，一次一个地测试每个可用预测器的强度。

举例能够预测非线性关系：

For example, a model with actor- and partner-reported predictors would detect any robust actor × partner interactions (e.g., moderation, attenuation effects, matching effects) that could not be captured in a model featuring actor- or partner-reported predictors alone.

参数设置：

ntree = 5000，树的数量

mtry = 1/3,每个节点上可用于拆分的预测因子数量

R语言中的VSURF包：An R Package for Variable Selection Using Random Forests Robin Genuer

输出：

每个模型都显示了模型解释的总方差量，以及作为预测变量的具体变量

模型设置：

对每个数据集进行了21个随机森林模型，

满意度为因变量
- 7个预测基线满意度，
- 7个预测后续满意度

类似地，我们对每个包含忠诚的数据集（即我们的次要因变量）进行了21个随机森林模型，每个数据集总共有42个随机森林模型（最大值）。

总共有43个数据集，每个数据集最大42个模型

每个数据集的结果在 https://osf.io/4pbfh/

元分析

42个模型中的每一个都作为一个？？单独的随机效应元分析进行了检验；

21个满意度荟萃分析分别包含k=43个效应量（effect sizes），每个数据集对应一个21个满意度模型
21个忠诚度元分析每个包含k=31个效应量。有31个数据集有忠诚数据，每个数据集对应一个21个忠诚度模型
我们使用综合荟萃分析进行基本分析。

满意度和忠诚度的元分析数据文件在https://osf.io/v5e34/。

调节分析Moderation Analyses

分析12种可能的元分析调节因子，

10个是数据集的特征：研究长度、时间点之间的长度、时间点的数量、样本的平均关系长度、样本的平均年龄、开始收集数据的年份、国家、出版状态（至少有1个出版物与未出版过的文献）、样本类型（社区与大学生）、关系状况（约会vs.已婚）。
2个是元分析数据特有特征：
- 随机森林模型中预测因子的数量

使用了，表现调节分析.

结果

初步荟萃结分析结果Primary Meta-Analytic Results

元分析调节Meta-Analytic Moderators

预测限制效应Predictor Restriction Effects

具体结构的预测成功Predictive Success of Specific Constructs

总结

两个问题：

什么能预测我对我的伴侣会有多满意和忠诚

答案：

负面影响、抑郁或不安全的依恋肯定是关系的危险因素
如果人们设法建立起一种以欣赏、性满足和较少冲突为特征的关系，并且他们认为他们的伴侣是忠诚的和有反应的，那么这些个人的风险因素可能无关紧要。
关系质量可以从各种结构中预测，但有些结构比其他结构更重要，而最接近的预测因素是表征一个人对关系本身感知的特征。

P300数据学习

P300 范式

6 x 6的字符矩阵
注意力一次集中到一个字符上
行和列以5.7Hz频率连续随机增强
6次行，6次列，分别有一行和一列包含目标字符，此时引起的反应，类似P300

v2数据采集

三个时间段的同一个受试者的信号，240Hz
每个会话：包含多个运行
每次运行：用户集中在一系列字符中。

v2信号处理文件（样例）

文件名：example.m

该程序比较session10-run01数据集中，对目标与非目标刺激（即，包含/未包含所需字符的刺激）的响应

文件名：testclass.m

使用一个非常简单的分类器来预测session12-run01中单词的第一个字符
它在增强后使用Cz和310ms处的一个样本进行分类。它确定目标字符为振幅最高的字符（Cz / 310ms）
它针对session12中的单词01中的第一个字符执行此操作

Pytorch

目前根据官网教程和《动手学习深度学习》pytorch版学习

1.1数据基础

1.2自动梯度

import torch

# 设置跟踪向量
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

y = x + 2
y

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)

1.3神经网络

1.4模型实现

2数据操作

2.2数据操作

2.2.1创建tensor的函数

还有很多函数可以创建

Ray+Gym

Graph Neural

目标：

了解图神经前沿理论和思想
学习和使用图神经理论的应用

图神经网络基础

节点有节点的属性，边有边的属性

节点可以分为：labeled node和unlabeled node。

图卷积：

graph >> spatial-based convolution(空间卷积)

Contrastive Multi-View Representation Learning on Graphs

对比图的结构视图来学习节点和图级表示的自监督方法

一、相关工作

Deep Learning

主要根据《神经网络与深度学习》书籍进行读书笔记,其中部分截图上传到github图床,需要翻墙才能正常阅读.

《第一章》

1.3表示学习

表示学习（ Representation Learning）：如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能 .

局部表示（ Local Representation）：也叫离散表示，符号表示，例如one-hot向量。
分布式表示（ Distributed Representation）：例如RGB值，通常表示低维的稠密向量。

嵌入（Embedding）：使用神经网络，将高维的局部表示空间映射到非常低维的分布式表示空间，在这个低维的空间中，每个特征不再是坐标轴上的点，而是分散在整个低维空间中。自然语言中的分布式表示，也叫词嵌入。

1.4深度学习

深度学习（Deep Learning）：为了学习一种好的表示，需要构建具有一定“深度”的模型，并通过学习算法来让模型自动学习出好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测模型的准确率. 所谓“深度” 是指原始数据进行非线性特征转换的次数. 如果把一个表示学习系统看作是一个有向图结构，深度也可以看作是从输入节点到输出节点所经过的最长路径的长度. 某种意义上可以看作一种强化学习（Reinforcement Learning）

深度学习采用的模型主要是神经网络模型，其主要原因是神经网络模型可以使用误差反向传播算法，从而可以比较好地解决贡献度分配问题. 随着模型深度的不断增加，其特征表示的能力也越来越强，从而使后续的预测更加容易

端到端学习（ End-to-End Learning）：也称端到端训练，是指在学习过程中不进行分模块或分阶段训练，直接优化任务的总体目标. 在端到端学习中，一般不需要明确地给出不同模块或阶段的功能，中间过程不需要人为干预. 大部分采用神经网络模型的深度学习可以看作一种端到端的学习。

1.5神经网络

神经网络（机器学习领域）：由很多人工神经元构成的网络结构模型，这些人工神经元之间的连接强度是可学习的参数.

赫布型学习（ Hebbian learning）：如果两个神经元总是相关联地受到刺激，它们之间的突触强度增加.

凝固作用 ：短期记忆转化为长期记忆的过程

网络容量（ Network Capacity）：指人工神经网络塑造复杂函数的能力，与可以被储存在网络中的信息的复杂度以及数量相关

1.8总结

特征工程：要开发一个实际的机器学习系统，人们往往需要花费大量的精力去尝试设计不同的特征以及特征组合，来提高最终的系统能力。

台湾陈蕴侬视频2020

二、模型结构、损失函数、优化、反向传播

偏差（bias)的理解：相当于给一个初值，然后通过学习调整这个初值。

感知层（perception layer）的理解：每一层相当于一个切割，可以通过二层模拟出一个凸，越多层表达越多场景。

激活函数（activate function）：选非线性的，线性跟权重没差。

损失函数（loss function）：定义一个损失值，越小越接近正确的参数值。

梯度下降（Gradient Descent）的理解：越倾斜，下降越快，越平稳下降越慢；容易达到局部最小值，卡在局部。随机小批量梯度下降（SGD，选1个）比较快。小批量梯度下降（Mini-Batch GD，选k个）.

训练速度：mini-batch>SGD>GD，因为现代电脑矩阵相乘的速度大于矩阵和向量相乘。

学习率：过大会学习过头，越过最小值。过小会学的很慢。

建议：1.数据随机；2.使用固定批量；3.调整学习率。

反向传播（backward propagation）：通过梯度和学习率更新权重。其实就是微积分链式法则在模型中的体现。反向传播计算出的梯度乘以前向计算的结果，就是下一个变数的偏微分了。

三、语言表达、RNN、批量

共现矩阵：表示一起出现过的单词的关系。

奇异值分解（singular value decomposition，SVD）:降低维度。

SVD问题：计算复杂度过高，难以加新词。

解决方法：降低维度，通过embedding的方法嵌入一个空间中的位置。常用word2vec，Glove方法。

知识型表示（knowledge-based representation）：通过符号等来表示知识（知识图谱）

语料库表示（corpus-based representation）：基于近邻的高维（共现矩阵），低维（降维或embedding）；原子特征（atomic symbol，one-hot向量）

循环神经网络(recurrent neural net，RNN)：将前面的影响传递给后面的网络。

梯度消失，梯度爆炸（Vanishing/Exploding Gradient）：指数太多次，导致大的越大，小的越小。解决方法：裁剪（clipping）

双向循环神经网络（Bidirectional RNN）：当时间可以双向的时候，可以使用。（不能预测股市这种单向时间的）

编码器-解码器：编码器生成W或背景向量C，解码器利用编码器结果来生成输出。

批量归一化计算：先归一化，后缩放和平移。

从经验法则来讲，L2正则化一般比L1正则化有效。

四、注意力机制

编码器-解码器实现注意力机制：编码器收集信息，收集完一整句（注意力在这）之后，保存在编码器，用解码器生成输出，直到遇到。

Q,K,V：Q是指query，K是指编码器中的key，V是指最后一层的Value。

五、word2vec

最大化和最小化：多个概率相乘求其最大值，相当于对其求log后加个负号求最小值。也就是说，凡是求最大值的，都可以通过符号变成求最小值。

MXNet

主要是在20年暑假期间学习开源框架MXNet的开源书籍

《动手学习深度学习》：https://zh.d2l.ai/chapter_preface/preface.html

Study

非侵入信号深度学习

第一节，介绍论文

工作流程包括几个关键部分：脑信号采集、信号预处理、特征提取、分类和数据分析

分类结果用于控制智能设备，称之为脑机接口

头骨让信号保真度为5%（以信噪比（SNR）衡量）

分类结果应用：神经疾病诊断、情绪测量和驾驶疲劳检测。

脑机接口的深度学习的分类：

仅用于特征提取；
仅用于分类；
同时用于特征提取和分类。

传统BCI所面临的挑战：

大脑信号很容易被各种生物因素（如眨眼、肌肉伪影【肌肉产生的电波对脑电波的影响】、疲劳和注意力集中程度）和环境因素（如噪音）所破坏
低信噪比的非平稳脑电生理信号
特征提取高度依赖于人类在特定领域的专业知识。

深度学习好处：

直接作用于原始的大脑信号
深层神经网络和第二层神经网络都能捕获潜在的，具有代表性的特征。

综述论文贡献：

对非侵入性脑信号论文的全面性调查
1. 脑电图及其亚类（运动脑电图，P300等）
2. 功能性近红外光谱(functional near - infrared spectroscopy , fNIRS)【利用血液的主要成分对600-900nm近红外光良好的散射性，从而获得大脑活动时氧合血红蛋白和脱氧血红蛋白的变化情况，产生功能性神经影像】

综述论文内容：

回顾大脑信号和深度学习技术
讨论了流行的深度学习技术和最新的脑信号模型，为在给定特定信号亚类的情况下选择合适的深度学习模型提供了实用指南。
回顾了基于深度学习的脑信号分析的应用，并指出了一些有前景的未来研究课题。

第二节，介绍大脑信号的分类

基于信号收集方法的非侵入性脑信号分类（虚线不调查）

P300包含于ERP中。

其他脑成像技术（fNIRS，fMRI）中的视觉/听觉任务未曾有采用过深度学习，但理论上可行。

第三节，概述常用的深度学习模型

分类模型：Multi-Layer Perceptron (MLP) , Recurrent Neural Networks(RNN) , Convolutional Neural Networks (CNN) --> 特征提取和分类

表示模型：Autoencoder(AE), Restricted Boltz-mann Machine (RBM) , Deep Belief Networks(DBN) --> 只能特征提取

生成模型：Variational Autoencoder (VAE)，Generative Adversarial Networks (GANs) --> 主要用于生成脑信号样本，增强训练集

各个非侵入式脑信号特征：

第四节，最先进的脑信号深度学习技术

4.1 EEG

4.1.1 自发脑电波

4.1.1.1 睡眠脑电：

主要用于识别睡眠阶段、诊断睡眠障碍或培养健康习惯

睡眠阶段包括清醒、非快速眼动1、非快速眼动2、非快速眼动3、非快速眼动4和快速眼动。

美国睡眠医学学会（AASM）建议将睡眠分为五个阶段：清醒、非快速眼动1、非快速眼动2、慢波睡眠（SWS）和快速眼动。

识别睡眠阶段，一般通过滤波器实现脑电信号的预处理，数据通常是30s的窗口，50hz。

分类模型：CNN用于单通道EEG的睡眠阶段分类，86%精确度
表示模型：DBN-RBM（深度置信网络-受限玻耳兹曼机）从睡眠脑电信号中提取功率谱密度（PSD,表示随机信号的强度），在局部数据集达到F-1值92.78%（兼顾召回率和精确度）
混合模型：

4.1.1.2 运动想象脑电：

深度学习在运动想象脑电图和真实运动脑电图的分类上显示出优越性

分类模型：大多使用CNN来识别脑电图，例如：
- 有分别采用CNN和二维CNN进行分类的
- 从EEG信号中学习情感信息，构建改进的LSTM控制智能家电

4.1.1.3 情绪脑电图

个体的情绪可以从三个方面来评价：评价值（积极感情的值）、唤起度（激动的程度）和控制力。

这三个方面的结合形成了恐惧、悲伤和愤怒等情绪，这些情绪可以通过脑电图信号来揭示。

分类模型：传统上使用MLP，CNN和RNN正在越来越流行
- 典型的基于CNN：CNN的分层，扩充CNN训练集
- 通过多通道脑电信号转化为二维矩阵来捕捉通道之间的空间相关性

4.1.1.4 精神病脑电图

大量研究人员利用脑电图信号诊断神经系统疾病，特别是癫痫发作

分类模型：CNN广泛应用于癫痫发作的自动检测
- CNN对癫痫发作的高通量（1hz）EEG信号进行研究，获得了94.7%的AUC
- 在抑郁症检测上采用了13层CNN模型，在30名受试者的局部数据集上进行了评估，基于左半球和右半球EEG信号的准确率分别为93.5%和96.0%

4.1.1.5 数据增强

实验1：EEG信号转换为图像

首先证明了脑电波中包含的信息被赋予了区分视觉对象的能力
然后使用RNN提取了更健壮、更具区分性的脑电数据表示。
最后，利用GAN范式训练了一个由学习的EEG表示调节的图像生成器，该生成器可以将EEG信号转换为图像

实验2：将EEG信号转换为图像

当受试者观察屏幕上的图像时，采集脑电图信号。将脑电信号的潜在结构作为输入，提取脑电信号的潜在特征。
GAN的产生器和鉴别器均由卷积层构成。该发生器根据训练后的脑电信号生成图像。

实验3：癫痫发作数据增强的GAN（生成式对抗网络）

发生器和鉴别器都是由全连接层组成的。
作者证明了GAN优于其他生成模型，如AE和VAE（可变自动编码器）。增强后，分类准确率从48%提高到82%。

4.1.1.6 其他

实验1：听觉/视觉刺激（持续存在的刺激）如何影响脑电图信号

13名受试者受到23种节律性刺激的刺激，其中包括12种东非和12种西方刺激。
对于24类分类，提出的CNN平均准确率为24.4%。
之后，作者利用卷积AE进行表征学习，CNN用于识别，12类分类的准确率达到27%

实验2：区分是在听歌还是想象歌曲

提出两个深度学习模型，使用二值分类任务，所提出的CNN和DBN-RBM（三个RBM）的准确率分别为91.63%和91.75%。

实验3：自发脑电图可以用来区分使用者的心理状态（逻辑与情绪）

实验4：认知负荷（处理具体任务时加在学习者认知系统上的负荷）或体力负荷对EEG的影响

首先通过小波熵和频带比功率提取信息特征
然后将其输入DBN-RBM进行进一步细化。
最后，利用MLP对认知负荷水平进行识别。

实验5：在不同心理负荷下，受试者之间及受试者本身中的一般特征是恒定的。

从高水平脑电信号中收集的脑电信号。
脑电信号经低通滤波器滤波后，转换到频域，计算功率谱密度（PSD）。
提取的PSD特征被输入到去噪D-AE结构中，以便于进一步的细化。最终得到了95.48%的准确率。

实验6：驾驶员疲劳检测 --- 三维CNN

精神疲劳程度的识别，包括警觉、轻度疲劳和严重疲劳

实验7：驾驶员疲劳检测 --- ICA+DBN-RBM

ICA(独立成分分析)对脑电信号预处理
采用DBN-RBM进行分类
达到85%左右准确率，二分类（“昏昏欲睡”或“警惕”）。

实验8：驾驶员疲劳值检测 --- DBM-RBM+SVM，精度达到73.29%

实验9：调查了不同低负荷水平下驾驶员的心理状态。提出了一种基于脑电信号直接检测驾驶负荷的CNN方法。

实验10：基于EEG信号的眼睛状态（闭或开）的检测

三个RBM的DBN-RBM和三个AEs的DBN-AE，98.9%的高准确率
MLP，97.5%准确率

事件相关去同步（ERD）表示正在进行的EEG信号的功率下降，

事件相关同步（ERS）表示EEG信号的功率增加

实验11：采用CNN在观看特定视频时通过脑电图检测学校欺凌行为。

二分类和四分类分别达到93.7%和88.58%。

实验12：结合RNN和CNN提出了一个级联框架来预测个体的情感水平和个人因素（五大人格特征、情绪和社会背景）。

实验13：试图根据使用者的脑电图信号来识别他们的性别

采用标准的CNN算法，在局部数据集上实现了81%的二元分类精度

实验14：驾驶员的脑电图信号可以区分刹车意图和正常驾驶状态

**实验15：**将大脑信号和推荐系统结合起来，通过EEG信号预测用户的偏好。

共有16名受试者接受了60个手镯状物体作为旋转视觉刺激物（3D物体）时采集脑电信号的实验。
然后采用MLP预测用户喜欢或不喜欢。本次勘探的预测精度为63.99%。

**实验16：**试图探索一个可用于各种脑信号范式的共同框架，并评估鲁棒性。基于compact CNN的EEGNet [73]

4.1.2 EP诱发电位

4.1.2.1 ERP事件相关电位

在大多数情况下，ERP信号都是通过P300现象来分析的。

4.1.2.1.i VEP视觉诱发电位

较热门。

实验1：通过深度学习提取具有代表性的特征来研究运动开始的 VEP（mVEP）

采用遗传算法结合多级传感结构对原始信号进行压缩。
压缩后的信号被发送到DBN-RBM算法中，以获取更抽象的高层特征。

实验2：P300信号特征提取

通过带通滤波器（2∼35hz）过滤视觉刺激的P300信号，
然后输入混合深度学习模型进行进一步分析。
该模型包括一个2D CNN来捕获空间特征，然后在LSTM层中进行时间特征提取。

实验3：使用AE模型进行特征提取，然后使用支持向量机分类器。

实验中，每一段包含150个点，分为五个时间步，每一步有30个点。
该模型在局部数据集上获得了88.1%的准确率。

实验4：DBN-RBM代表性模型与支持向量机分类器相结合进行隐藏信息测试（？？），97.3%准确率

实验5：提高P300写字机准确率

一种基于CNN的新模型，该模型包括5个具有不同特征集的低层CNN分类器
最后由低层分类器投票得到最终的高层结果。
第三届BCI竞赛数据集II中，最高准确率达到95.5%

4.1.2.1.ii AEP听觉诱发电位

较少研究。

实验1：提出并测试了18个CNN结构来对单次试验的AEP信号进行分类。

利用耳机产生古怪范式设计的听觉刺激来获得数据。
实验分析表明，无论卷积层数多少，CNN框架都能有效地提取时空特征。
实验结果表明，下采样数据的效果更好。

4.1.2.1.iii RSVP快速连续视觉表示

CNN和MLP在这里取得一定成功。

实验1：一种针对RSVP的主题间和任务间检测的CNN模型。

实验结果表明，CNN在交叉任务中表现良好，但在跨主题情境下表现不佳。

实验2：比较了三种不同的深度神经网络算法，以预测受试者是否看到了目标。

MLP、CNN和DBN模型的AUC分别为81.7%、79.6%和81.6%。

...

4.1.2.2 SSEP稳态诱发电位

实验1：寻找SSVEP的中间表现形式。

提出了一种结合CNN和RNN的混合方法，直接从时域中提取有意义的特征，准确率达到93.59%。

实验2：紧凑CNN直接处理原始结果

平均准确率80%左右

实验3：采用了一种典型的稀疏AE模型，从多频视觉刺激中提取SSVEP的不同特征。

该模型采用了一个softmax层进行最终分类，准确率为97.78%。

...

4.2 fNIRS功能性近红外光谱

较少研究。

定义：利用血液的主要成分对600-900nm近红外光良好的散射性，从而获得大脑活动时氧合血红蛋白和脱氧血红蛋白的变化情况，产生功能性神经影像。

实验1：基于fNIRS信号分析了两种心理任务（心算和休息）之间的差异。

从前额叶皮层fNIRS中手动提取了6个特征，并比较了6个不同的分类器。
结果表明，MLP的准确率为96.3%，优于所有传统的分类器，包括SVM、KNN、naivebayes等。

实验2：试图通过fNIRS信号检测受试者的性别。

作者使用三层隐层去噪D-AE来提取显著特征并输入MLP分类器进行性别检测。
该模型在本地数据集上进行了评估，平均准确率为81%
相比fMRI信号，fNIRS具有更高的时间分辨率和更经济的价格

4.3 fMRI功能性磁共振成像

利用磁振造影来测量神经元活动所引发的血液变化。从而监测大脑活动

该领域，近年用了不少深度学习方法，特别是认知功能障碍的诊断上。

4.3.1 分类模型

分类模型中，CNN是一种很有前途的fMRI分析模型

实验1：根据功能磁共振成像（fMRI）和核磁共振成像（MRI）数据，应用深层CNN识别阿尔茨海默病。

实验2：利用一种新的CNN算法建立了一种基于fMRI的脑肿瘤分割方法，它可以同时捕获全局特征和局部特征

实验4：利用CNN进行特征提取。提取的特征用支持向量机分类，用于癫痫发作的检测

4.3.2 表示模型

大量文章证明了表示模型在识别功能磁共振成像数据方面的有效性。

实验1：利用一个由三个RBM分量组成的DBN-RBM从ICA处理的fMRI中提取显著特征，最终在四个公共数据集上实现了90%以上的F1平均测量值。

实验2：DBN-RBM和DBN-AE检测阿尔茨海默病

前者95.4%，后者97.9%。

实验3：应用D-AE模型从静止状态的fMRI数据中提取潜在特征，用于诊断轻度认知功能障碍（MCI）。-

将潜在特征输入支持向量机分类器，识别率达到72.58%。

4.3.3 生成模型

自然图像的重建引起广泛的关注。

实验1：从fMRI中重建视觉刺激的深卷积GAN，

目的是训练生成器生成与视觉刺激相似的图像。
发生器包含四个卷积层，以便将输入的fMRI转换为自然图像。

4.4 MEG脑磁图

用于测量由大脑中神经元的电活动引起的磁场。通过磁变化反映大脑活动

实验1：致力于通过去除诸如眨眼和心脏活动等伪影来细化MEG信号。

首先对MEG单峰进行ICA分解
然后用一维CNN模型进行分类。
最后，该方法在局部数据集上的灵敏度达到85%，特异性达到97%。

实验2：目标同实验1

该方法利用CNN获取时间特征，MLP提取空间信息

第五节，大脑信号的应用

5.1 医疗保健

基于深度学习的大脑信号系统主要用于检测和诊断精神疾病，如睡眠障碍、阿尔茨海默病、癫痫发作等。

睡眠障碍：

对于睡眠障碍的检测，大多数研究都集中在基于睡眠自发脑电图的睡眠阶段检测上。DBN-RBM和CNN被广泛应用于特征选择和分类。

阿尔茨海默病：

功能磁共振成像在阿尔茨海默病的诊断中有着广泛的应用。优点是高空间分辨率，几项研究的诊断准确率均在90%以上。

癫痫：

癫痫发作的检测主要基于自发脑电图。流行的深度学习模型包括独立的CNN和RNN，以及结合RNN和CNN的混合模型
例如，将D-AE应用于特征提取，然后将支持向量机应用于癫痫诊断

5.2 智能设备

随着物联网的发展，越来越多的智能环境可以连接到大脑信号。
例如，辅助机器人可用于智能家居，其中机器人可以由个体的大脑信号控制。
基于视觉刺激的自发EEG和fNIRS信号的机器人控制问题。

5.3 信号传输

P300 speller，深度学习模型使大脑信号系统能够从非300片段中识别出P300片段
使用一种结合RNN、CNN和AE的混合模型，从MI-EEG中提取信息特征来识别用户想要说的字母。

5.4 安全保密

应用于身份识别和身份验证

前者通过多类别分类来识别一个人的身份[6]。后者进行二元分类来决定一个人是否被授权
主要使用视觉刺激产生的信号来作为输入。

5.5 情感计算

个性化信息（如多媒体内容）检索或智能人机界面设计

试图根据脑电图信号，使用深度学习算法（如CNN及其变体）将用户的情绪状态分为两类（积极/消极）或三类（积极、中性和消极）
DBN-RBM是从情绪自发脑电图中发现隐藏特征的最具代表性的深度学习模型

5.6 驾驶员疲劳度检测

一般情况下，如果驾驶员的反应时间小于0.7秒，则认为驾驶员处于警戒状态；如果反应时间大于2.1秒，则认为驾驶员处于疲劳状态。

目前，基于EEG的驾驶困倦可以得到较高的识别率（82%∼95%）

5.7 心理负荷测量

适当的心理负荷对于维持人类健康和预防事故是必不可少的。

持续脑电来评估操作者的心理负荷，以警告随着时间，操作者的性能下降。

可以通过fNIRS信号和自发脑电图来测量
通过一个循环卷积框架研究了跨多个心理任务的心理负荷测量。该模型同时从空间、频谱和时间维度学习脑电特征，二值分类（高/低负荷水平）的准确率为88.9%

5.8 其他

推荐系统，紧急刹车，视觉对象识别，内疚测试，隐藏信息测试，区分性别。

5.9 基准数据集

第六节，分析和指南，根据大脑信号选择适当的模型

6.1 脑信号采集

70%的EEG论文关注自发EEG（133种出版物）。自发的脑电图分成几个方面：睡眠、运动想象、情绪、精神疾病、数据增强和其他。

睡眠：总共19篇，6篇使用CNN，2篇RNN，还有3种RNN+CNN的混合模型。

运动想象：广泛使用CNN和基于CNN的混合模型。表示型模型常用DBN-RBN提取潜在特征。

数据增强：基于GAN的数据扩充

其他：大约有30个研究正在调查其他自发脑电图，如驾驶疲劳、视听刺激冲击、认知/心理负荷和眼睛状态检测。这些研究广泛应用标准CNN模型和变体。

视觉诱发电位（VEP）引起大量研究（21篇）。6种混合模型。

快速连续视觉表示（RSVP），只有CNN算法。

fNIRS图像的研究很少采用深度学习的方法，主要的研究只是采用简单的MLP模型。我们认为，由于fNIRS具有高便携性和低成本的特点，应引起更多的关注。

至于功能磁共振成像，有23篇论文提出了深度学习的分类模型。CNN模型因其在图像特征学习中的突出表现而被广泛应用。

6.2 深度学习模式的选择标准

结论1：大多数采用判别模型。

结论2：超过70%的判别性模型都采用了CNN及其变体，为此我们提供了以下原因：

首先，CNN的设计足够强大，能够从EEG信号中提取潜在的鉴别特征和空间相关性进行分类。因此，有些研究采用CNN结构进行分类，而有些研究则采用CNN结构进行特征提取。
CNN在一些研究领域（如计算机视觉）取得了巨大的成功，更容易找到代码。
一些脑信号图（如功能磁共振成像）是自然形成的二维图像，有利于CNN进行处理。

结论3：表示模型中，DBN，尤其是DBN-RBM是最常用的特征提取模型。原因有二：

它能有效地学习揭示相邻层中变量关系的生成参数
它使计算每个隐藏层中潜在变量的值变得简单

结论4：生成模型很少独立使用，基于GAN和VAE的数据增强和图像重建主要集中在fMRI和EEG信号上，有前途。

结论5：53篇论文中，RNN和CNN的组合约占五分之一，结合后具有很好的时空特征提取能力。

结论6：表示模型+判别模型也很常用，28篇中有这种方法，所采用的表示模型多为AE或DBN-RBM，同时所采用的判别模型多为CNN。

6.3 应用表现

将脑信号分析应用于医疗领域是目前最吸引人和最热门的领域。

一般来说，大多数深度学习算法在多个睡眠阶段场景下都能达到85%以上的准确率。

对于fMRI图像，CNN在网格化空间信息学习方面具有很大的优势，使其获得了非常全面的分类准确率（90%以上）。

由于视觉诱发电位明显且易于检测，许多研究都集中在VEP信号上。一个重要的数据来源是来自第三届BCI竞赛。

第七节，开放性挑战和未来方向

7.1 可解释性

方法1：可以考虑如何解释由深层神经网络导出的特征表示，学习的特征与任务相关的神经模式或精神障碍的神经病理学之间的内在关系。

7.2 跨个体

方法1：实现这一目标的一个可能的解决方案是建立一个个性化的迁移学习模型。

个性化情感模型可以采用转换参数传递的方法来构造个体分类器，并学习映射数据分布和分类器参数之间关系的回归函数

7.3 半监督和无监督分类

Adversarial V ariational Embedding （对抗性变异嵌入）-----> 高质量生成模型

有两种方法可以增强无监督学习：

一种是利用众包（给大众志愿者）方法对未标记的观测值进行标记；
另一种是利用无监督域自适应学习，通过线性变换来调整源脑信号和目标信号的分布

7.4 在线实施

在真实场景中，大脑信号系统需要接收实时的数据流并实时产生分类结果

方法：投票和聚合来平均多个连续样本的结果，提高解码性能。

7.5 硬件可移植性

脑电采集设备主要有三种：不便携头戴式、便携式头戴式和耳式脑电传感器。

第一种，采样频率高，信道数多，信号质量高，但价格昂贵。适合医院体检。

第二种，（例如Neurosky、Emotiv EPOC），有1∼14个通道和128∼256采样率，但读数不准确，长期使用后会造成不适。

第三种，还在实验室阶段。EEGrids是唯一商业化的耳脑电设备。

读后感

受限玻尔兹曼机 RBN（2000年后流行）

和DNN的区别是，RBM不区分前向和反向。
RBM可以看做是一个编码解码的过程，从可见层到隐藏层就是编码，反之是解码。对于每个训练样本，期望编码解码后的可见层输出和之前可见层输入的差距尽量的小。
RBM详细推导过程：https://www.cnblogs.com/pinard/p/6530523.html

深度波尔茨曼机Deep Boltzmann Machine (DBM)

扩展RBM到三层及以上

RBN实现的深度置信网络（DBN-RBN）

与DBM的区别是隐藏层之间为单向的。优化计算更简单。

降噪自编码器（D-AE）

卷积神经网络（CNN）

池化层

循环神经网络（RNN）

长短期记忆（LSTM）

评价标准

敏感度
特异性
准确率

《第十章》

10.1word2vec词嵌入

跳字模型（skip-gram）：假设基于某个词来生成它在文本序列周围的词。给定中心词“loves”，生成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率。

给定中心词生成背景词的概率，如下：

P(w_o \mid w_c) = \frac{\text{exp}(\boldsymbol{u}_o^\top \boldsymbol{v}_c)}{ \sum_{i \in \mathcal{V}} \text{exp}(\boldsymbol{u}_i^\top \boldsymbol{v}_c)}\\ \log P(w_o \mid w_c) = \boldsymbol{u}_o^\top \boldsymbol{v}_c - \log\left(\sum_{i \in \mathcal{V}} \text{exp}(\boldsymbol{u}_i^\top \boldsymbol{v}_c)\right) \\ \begin{split}\begin{aligned} \frac{\partial \text{log}\, P(w_o \mid w_c)}{\partial \boldsymbol{v}_c} &= \boldsymbol{u}_o - \frac{\sum_{j \in \mathcal{V}} \exp(\boldsymbol{u}_j^\top \boldsymbol{v}_c)\boldsymbol{u}_j}{\sum_{i \in \mathcal{V}} \exp(\boldsymbol{u}_i^\top \boldsymbol{v}_c)}\\ &= \boldsymbol{u}_o - \sum_{j \in \mathcal{V}} \left(\frac{\text{exp}(\boldsymbol{u}_j^\top \boldsymbol{v}_c)}{ \sum_{i \in \mathcal{V}} \text{exp}(\boldsymbol{u}_i^\top \boldsymbol{v}_c)}\right) \boldsymbol{u}_j\\ &= \boldsymbol{u}_o - \sum_{j \in \mathcal{V}} P(w_j \mid w_c) \boldsymbol{u}_j. \end{aligned}\end{split} \\ 词典索引集\mathcal{V} = \{0, 1, \ldots, |\mathcal{V}|-1\}

其中，词w，每个词有两个d维向量，为中心词时是v，为背景词时是u。

梯度公式说明了它的计算需要所有词以w_c为中心词的条件概率。

跳字模型的似然函数，即给定任一中心词生成所有背景词的概率：

假设背景窗口大小为m，时间步t，文字长度为T。

训练中，通过最大化似然函数来学习模型参数，等于最小化以下损失函数：

训练过程的梯度使用前面定义的公式，训练结束后，对于词典中的任一索引为i的词，我们均得到该词作为中心词和背景词的两组词向量vi和ui。在自然语言处理应用中，一般使用跳字模型的中心词向量作为词的表征向量。（表征是指可以指代某种东西的符号或信号，即某一事物缺席时，它代表该事物。）

连续词袋模型（continuous bag of words）：连续词袋模型假设基于某中心词在文本序列前后的背景词来生成该中心词。连续词袋模型关心的是，给定背景词“the”“man”“his”“son”生成中心词“loves”的条件概率

一般使用连续词袋模型的背景词向量作为词的表征向量。

CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

练习

每次梯度的计算复杂度是多少？当词典很大时，会有什么问题？
答：每一步的梯度计算都包含词典大小数目V。当然，CBOW的激素计算复杂度要高于Skip-Gram，主要体现在求单个的概率P的时候，CBOW需要计算多个背景词求和后再进行点积运算。而Skip-Gram直接中心词和背景词点积。
英语中有些固定短语由多个词组成，如“new york”。如何训练它们的词向量？提示：可参考word2vec论文第4节 [2]。
答：通过下面的公式，将评分高的当作一个短语。δ主要是作为一个折扣系数防止太多的短语组成非常罕见的词被形成。

10.2近似训练

近似训练：由于跳字模型和连续词袋模型的梯度计算的复杂度较高，使用近似计算的方法，来简化复杂度。

负采样（negative sampling）：使用负的样本来简化计算。

层序softmax（hierarchical softmax）：

练习

在阅读下一节之前，你觉得在负采样中应如何采样噪声词？
答：随机取样？均衡取样？
本节中最后一个公式为什么成立？
答：对于任意两个拥有同个父节点的子结点，相加等于其父结点。所以所有叶子结点之和等于倒数第二层结点之和，等于倒数第三层，直至等于根结点，等于1。

10.3word2vec的实现

二次采样：计算出一个词语被丢弃的概率。（越高频越容易丢弃）

提取中心词和背景词：

负采样：

swapaxes(a,b)：将第a维和第b维调换，类似于transpose。

nd.batch_dot(X, Y)：给定两个形状分别为( n , a , b )和( n , b , c )的NDArray，小批量乘法输出的形状为( n , a , c )

练习

在创建nn.Embedding实例时设参数sparse_grad=True，训练是否可以加速？查阅MXNet文档，了解该参数的意义。
答：
sparse_grad (bool) – If True, gradient w.r.t. weight will be a ‘row_sparse’ NDArray.加速了两三秒。代表使用稀疏行来计算梯度权重。但只有一部分优化算法支持稀疏梯度，包括SGD，AdaGrad，Adam.

10.4fastText子词嵌入

将单词当成一个由字符构成的序列来提取n元语法。例如，当n=3时，我们得到所有长度为3的子词：“<wh”“whe”“her”“ere”“re>”以及特殊子词“”。

将它所有长度在3∼6的子词和特殊子词的并集记为Gw，假设词典中子词g的向量为zg

计算复杂度更高。但较生僻的复杂单词，甚至是词典中没有的单词，可能会从同它结构类似的其他词那里获取更好的词向量表示。

练习

子词过多（例如，6字英文组合数约为3×10^8）会有什么问题？你有什么办法来解决它吗？提示：可参考fastText论文3.2节末尾 [1]。
答：会导致很多重复的子词在不同地方出现。使用一个特殊的哈希函数Fowler-Noll-Vo来存储字符。最终一个单词通过索引和n元语法的哈希来表示。
We hash character sequences using the Fowler-Noll-Vo hashing function (specifically the FNV-1a variant).We set K = 2.10^6 below. Ultimately, a word is represented by its index in the word dictionary and the set of hashed n-grams it contains.
如何基于连续词袋模型设计子词嵌入模型？

10.5GloVe全局向量的词嵌入

这一章比较不理解。希望在之后的应用环节能够再学到代码。

原来的跳字模型如下：

GloVe模型改进的地方：

练习

如果一个词出现在另一个词的背景窗口中，如何利用它们之间在文本序列的距离重新设计条件概率pij的计算方式？（提示：可参考GloVe论文4.2节 [1]。）
答：论文中没找到参考方法。仅有文中的"如果词wi出现在词wj的背景窗口里，那么词wj也会出现在词wi的背景窗口里。也就是说，x_ij=x_ji。不同于word2vec中拟合的是非对称的条件概率p_ij，GloVe模型拟合的是对称的log(x_ij)。因此，任意词的中心词向量和背景词向量在GloVe模型中是等价的。"
对于任意词，它在GloVe模型的中心词偏差项和背景词偏差项是否等价？为什么？
答：是，因为任意词的中心词向量和背景词向量在GloVe模型中是等价的。

10.6求近义词和类比词

近义词：通过KNN挑选TopN的作为近义词。

类比词：有关系的，可以类比的，例如最高级和普通级，形容词和名词等

'woman'-'man'+'son'='daughter'

练习

测试一下fastText的结果。值得一提的是，fastText有预训练的中文词向量（pretrained_file_name='wiki.zh.vec'）。
答：近义词很糟糕，比较少遇到符合语义上的近义词。
类比词也不好，一般结果都是输出原来的。
如果词典特别大，如何提升近义词或类比词的搜索速度？

10.7文本情感分类：RNN

情感分析（sentiment analysis）：使用文本情感分类来分析文本作者的情绪。

练习

增加迭代周期。训练后的模型能在训练和测试数据集上得到怎样的准确率？再调节其他超参数试试？
答：增加迭代周期后，训练集准确率一直提高，测试集提高仅到0.855左右，过拟合了。
使用更大的预训练词向量，如300维的GloVe词向量，能否提升分类准确率？
答：遇到了 Check failed: e == CUDNN_STATUS_SUCCESS (4 vs. 0) : cuDNN: CUDNN_STATUS_INTERNAL_ERROR可能是因为显存或内存不够或者cudnn驱动有问题？

10.8textCNN卷积神经网络实现情感分类

练习

动手调参，从准确率和运行效率比较情感分析的两类方法：使用循环神经网络和使用卷积神经网络。
答：从运行效率和准确率上，卷积神经网络均优于循环神经网络。
使用上一节练习中介绍的3种方法（调节超参数、使用更大的预训练词向量和使用spaCy分词工具），能使模型在测试集上的准确率进一步提高吗？
答：使用300维的词向量，准确率达到0.87左右。使用spaCy工具，再100维的词向量，准确率达到0.86。

10.9seq2seq编码器-解码器

强制教学（teacher forcing）：它是一种网络训练方法，对于开发用于机器翻译，文本摘要，图像字幕的深度学习语言模型以及许多其他应用程序至关重要。它每次不使用上一个state的输出作为下一个state的输入，而是直接使用训练数据的标准答案(ground truth)的对应上一项作为下一个state的输入。

编码器用来分析输入序列，解码器用来生成输出序列。（是一种循环神经网络）两者都可以用于不定长序列。

编码器、解码器最后有“”（end of sequence）以表示序列的终止。

解码器最初有“”（beginning of sequence）表示序列开始。

编码器（encoder）：作用是把一个不定长的输入序列转换成一个定长的背景向量c，该背景向量包含了输入序列的信息，常用的编码器是循环神经网络。

解码器（decoder）：假设编码器输入x1,x2,...,xt经过变换后变成隐藏变量h1,h2,...,ht，然后进入c，解码器通过c获取编码器的内容，进行变换后得到输出y1,y2,yt`。

理解：解码器和编码器都可以使用循环神经网络来实现，都用到了上一个时间步的输入或输出。

练习

除了机器翻译，你还能想到编码器-解码器的哪些应用？
答：用于CV：
Encoder：本身其实就是一连串的卷积网络。该网络主要由卷积层，池化层和BatchNormalization层组成。卷积层负责获取图像局域特征，池化层对图像进行下采样并且将尺度不变特征传送到下一层，而BN主要对训练图像的分布归一化，加速学习。 Decoder：既然Encoder已经获取了所有的物体信息与大致的位置信息，那么下一步就需要将这些物体对应到具体的像素点上 Decoder对缩小后的特征图像进行上采样，然后对上采样后的图像进行卷积处理，目的是完善物体的几何形状，弥补Encoder当中池化层将物体缩小造成的细节损失。
概括地说，encoder对图像的低级局域像素值进行归类与分析，从而获得高阶语义信息（“汽车”， “马路”，“行人”），Decoder收集这些语义信息，并将同一物体对应到相应的像素点上，每个物体都用不同的颜色表示。

10.10束搜索

贪婪搜索（greedy search）：每一次搜索，选择最值来组合结果。

穷举搜索（exhaustive search）：穷举所有的组合。

束搜索（beam search）：每一次搜索，选择前n个值，来组合加过。

练习

穷举搜索可否看作特殊束宽的束搜索？为什么？
答：可以，因为穷举等于束宽最大的束搜索。
在一节中，我们使用语言模型创作歌词。它的输出属于哪种搜索？你能改进它吗？
答：predict_rnn()函数属于贪婪搜索Y[0].argmax(axis=1).asscalar()这一句选择了Y中最大的值，可以使用束搜索改进。

10.11注意力机制

注意力机制（Attention）：以循环神经网络为例，注意力机制通过对编码器所有时间步的隐藏状态做加权平均来得到背景变量。解码器在每一时间步调整这些权重，即注意力权重，从而能够在不同时间步分别关注输入序列中的不同部分并编码进相应时间步的背景变量。

X表示乘以权重，a表示函数，可以有多种选择，内积（如果输入向量长度相同），或者如下：

矢量化（向量）计算：在上面的例子中，查询项为解码器的隐藏状态，键项和值项均为编码器的隐藏状态。

更新隐藏状态：使用GRU门控循环单元为例。

注意力机制能够为表征中较有价值的部分分配较多的计算资源。

练习

为什么不可以将解码器在不同时间步的隐藏状态连结成查询项矩阵Q，从而同时计算不同时间步的含注意力机制的背景变量c？
答：因为softmax函数是将所有的数组元素均参与进去计算，而不是每一行的计算。
不修改一节中的gru函数，应如何用它实现本节介绍的解码器？
答：把背景向量c和分别和三个权重W_cr，W_cz，W_cs点乘后，再分别于b_r，b_z，b_s相加。然后当成三个偏差b_r，b_z，b_h传入下面函数。

10.12机器翻译

机器翻译：将一段文本从一种语言自动翻译到另一种语言。

nd.ones((1,20)).squeeze(axis=0)：将第一个维度挤掉，跟expand_dims(axis=0)相反。

jupyter魔法命令：

%lsmagic：查看所有的魔法命令。

%%time：给出cell的代码运行一次所花费的世界。

%timeit statement_name：空格后加代码，可以测出一行所用的时间。

%prun statement_name：产生一个有序表格来展示在该语句中所调用的每个内部函数调用的次数，每次调用的时间与该函数累计运行的时间。

!shell_commend：执行shell命令有可以添加自动填充和代码美化的技术，下一步研究。

BLEU（Bilingual Evaluation Understudy）:评价机器翻译结果常使用的系数。

当预测序列和标签序列完全一致时，BLEU为1;

其中exp部分是惩罚系数。

练习

如果编码器和解码器的隐藏单元个数不同或隐藏层个数不同，该如何改进解码器的隐藏状态的初始化方法？
答：在下方函数中根据enc_state，进行reshape。
在训练中，将强制教学替换为使用解码器在上一时间步的输出作为解码器在当前时间步的输入，结果有什么变化吗？
答：使用如下函数出现格式不兼容，使用了reshape([-1])后，也不符合。测试发现，dec_output是（2，39），reshape是（2），不知如何作为输入，按行求和？也不行，出现错误“Embedding layer doesn't support calculate data gradient”。

《第九章》

9.1图像增广

为了在预测时得到确定的结果，通常只将图像增广应用在训练样本上，而不在预测时使用含随机操作的图像增广。

图像增广：将图片翻转，缩放扩大，随机截取，调整色调，明亮等操作以生成新的数据集。

练习

不使用图像增广训练模型：train_with_data_aug(no_aug, no_aug)。比较有无图像增广时的训练准确率和测试准确率。该对比实验能否支持图像增广可以应对过拟合这一论断？为什么？
答：支持，正如下述训练，训练集拟合程度提高更快，且测试集结果也不如有图像增广的高。
在基于CIFAR-10数据集的模型训练中增加不同的图像增广方法。观察实现结果。
答：每轮的耗时不变，测试集效率有提高，且测试集拟合的也比较慢。
查阅MXNet文档，Gluon的transforms模块还提供了哪些图像增广方法？

方法

涵义

9.2微调

迁移学习：下载预训练过的模型参数，而后以较小的学习率微调隐藏层，以较大的学习率从头学习输出层。

Gluon的model_zoo包提供了常用的预训练模型。

GluonCV工具包有更多计算机视觉的预训练模型。

微调步骤：

加载预训练模型
定义微调模型，features直接套用预加载的，output重新初始化，并设置多倍学习率。
训练函数，记得设置本机的ctx。

练习

不断增大finetune_net的学习率。准确率会有什么变化？
答：学习率调到0.05，准确率显著降低，且提高的也很慢。说明较大程度改变了原来的模型参数，可能会造成糟糕的结果。
进一步调节对比试验中finetune_net和scratch_net的超参数。它们的精度是不是依然有区别？

9.3目标检测和边界框

目标检测：辨认出目标所在的位置

边界框：给目标加上一个方框

练习

找一些图像，尝试标注其中目标的边界框。比较标注边界框与标注类别所花时间的差异。
答：手动标注的肯定很慢，自动标注的还没学到。

9.4锚框

锚框：以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。

生成锚框：设定大小s_1——s_n，宽高比r_1——r_n.我们通常只对包含s_1或r_1的组合感兴趣。

以相同像素为中心的锚框的数量为n+m−1。对于整个输入图像有wh(n+m-1)个锚框。

交并比：也叫Jaccard系数，衡量两个集合的相似度。

标注训练集的锚框的类别和偏移值：为每个锚框标注两类标签：一是锚框所含目标的类别，简称类别；二是真实边界框相对锚框的偏移量，简称偏移量（offset）。每次取相似度矩阵X中的最大值（且大于阈值），并将所在行和列丢弃。

非极大值抑制：先为图像生成多个锚框，并为这些锚框一一预测类别和偏移量。随后，我们根据锚框及其预测偏移量得到预测边界框。移除相似的预测边界框。常用的方法叫作非极大值抑制（non-maximum suppression，NMS）。

np.set_printoptions(2)：设置NDArray小数点后只打印2位。

numpy中的expand_dims(axis=0)：在第'axis'维，加一个维度出来，原先的维度向’右边‘推。

练习

改变MultiBoxPrior函数中sizes和ratios的取值，观察生成的锚框的变化。
答：修改后，以相同像素为中心的锚框个数记得修改。
构造交并比为0.5的两个边界框，观察它们的重合度。

9.5多尺度目标检测

减少锚框：在输入图像中均匀采样一小部分像素，并以采样的像素为中心生成锚框。

可以在多个尺度下生成不同数量和不同大小的锚框，从而在多个尺度下检测不同大小的目标。

用输入图像在某个感受野区域内的信息来预测输入图像上与该区域相近的锚框的类别和偏移量。

练习

给定一张输入图像，设特征图变量的形状为1×ci×h×w，其中ci、h和w分别为特征图的个数、高和宽。你能想到哪些将该变量变换为锚框的类别和偏移量的方法？输出的形状分别是什么？
答：卷积？形状不知。我们可以将特征图在相同空间位置的ci个单元变换为以该位置为中心生成的a个锚框的类别和偏移量。本质上，我们用输入图像在某个感受野区域内的信息来预测输入图像上与该区域位置相近的锚框的类别和偏移量。

9.6目标检测数据集（皮卡丘）

numpy的transpose()：将维度进行置换，两维的为转置矩阵。

练习

查阅MXNet文档，image.ImageDetIter和image.CreateDetAugmenter这两个类的构造函数有哪些参数？它们的意义是什么？
- image.ImageDetIter的Parameters

9.7单发多框检测

numpy的flatten()：默认将数组按行变换展开。返回的是拷贝，而ravel()会修改数据。

填充为1的3×3卷积层不改变特征图的形状。

感受野计算公式：

单发多框检测模型（single shot multibox detection，SSD）：一共包含5个模块，每个模块输出的特征图既用来生成锚框，又用来预测这些锚框的类别和偏移量。第一模块为基础网络块，第二模块至第四模块为高和宽减半块，第五模块使用全局最大池化层将高和宽降到1。

单发多框检测在训练中根据类别和偏移量的预测和标注值分别计算损失函数，类别可以用交叉熵损失、焦点损失；偏移量可以用L1范数损失、平滑L1范数损失。

练习

限于篇幅，实验中忽略了单发多框检测的一些实现细节。你能从以下几个方面进一步改进模型吗？
偏移量预测改进平滑L1范数：
类别预测改进为焦点损失：

9.8区域卷积神经网络（R-CNN)

R-CNN模型：

Fast R-CNN：

Faster R-CNN：

使用填充为1的3×3卷积层变换卷积神经网络的输出，并将输出通道数记为c。这样，卷积神经网络为图像抽取的特征图中的每个单元均得到一个长度为cc的新特征。
以特征图每个单元为中心，生成多个不同大小和宽高比的锚框并标注它们。
用锚框中心单元长度为cc的特征分别预测该锚框的二元类别（含目标还是背景）和边界框。

Mask R-CNN：

练习

了解GluonCV工具包中有关本节中各个模型的实现 [6]。
答：详细教程：https://gluon-cv.mxnet.io/model_zoo/detection.html

9.9语义分割和数据集

练习

回忆一节中的内容。哪些在图像分类中使用的图像增广方法难以用于语义分割？
答：裁剪而没有放大到同样大小的不行。

9.10FCN全卷积网络

矩阵乘法实现卷积：看下方转置卷积教程。

转置卷积：可参考https://blog.csdn.net/tsyccnh/article/details/87357447，讲的更形象。转置卷积就是将卷积的结果乘以一个权重，而变回卷积之前的形状，不能恢复到原始数值。如果步幅为s、填充为s/2（假设s/2为整数）、卷积核的高和宽为2s，转置卷积核将输入的高和宽分别放大s倍。

上采样：放大。常用双线性插值的方法。

下采样：缩小。

FCN模型：全卷积网络先使用卷积神经网络抽取图像特征，然后通过1×1卷积层将通道数变换为类别个数，最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。模型输出与输入图像的高和宽相同，并在空间位置上一一对应：最终输出的通道包含了该空间位置像素的类别预测。

X[::3]，从第0个开始，每隔三个显示。

练习

用矩阵乘法来实现卷积运算是否高效？为什么？
答：不高效，还要涉及矩阵的变换，
如果将转置卷积层改用Xavier随机初始化，结果有什么变化？
答：结果是准确率卡在了0.729左右，后续迭代，损失值下降，但是没有提高准确率。

9.11样式迁移

样式迁移（style transfer）：使用卷积神经网络自动将某图像中的样式应用在另一图像之上。

内容损失（content loss）使合成图像与内容图像在内容特征上接近。

样式损失（style loss）令合成图像与样式图像在样式特征上接近

总变差损失（total variation loss）则有助于减少合成图像中的噪点。

卷积层参数使用预训练模型来提取特征。

第一和第三卷积层输出作为样式特征

第二卷积层输出作为内容特征。

模型参数为合成图像。

正向传播（实线）计算损失，反向传播（虚线）迭代模型参数。

拉姆矩阵：格拉姆矩阵（Gram matrix）XX⊤∈Rc×c中i行j列的元素xij即向量xi与xj的内积，它表达了通道i和通道j上样式特征的相关性。(假设该输出的样本数为1，通道数为c，高和宽分别为h和w，我们可以把输出变换成c行hw列的矩阵X。)

练习

选择不同的内容和样式层，输出有什么变化？
答：选择了最后一个卷积层[34]作为内容层，内容损失很快降低到0.86左右。输出图像肉眼看不出变换。样式和内容层使用了[2,7,12,14,16,21,23,25,28,30,32], [34]，迭代后，样式层损失仅降低到7左右。输出图像还是肉眼看不出差距。
调整损失函数中的权值超参数，输出是否保留更多内容或减少更多噪点？
答：直觉上，提高内容损失的权值超参数，可以让他更容易被惩罚，所以内容损失降的更低，从而保留更多的内容。由于不清楚如何辨别内容和噪点的数量多少，故无实验。