基于多模态的抑郁症识别入门综述——Deep Learning for Depression Recognition with Audiovisual Cues: A Review

次浏览

次

2024-10-12

编辑推荐:

本文主要介绍了基于多模态的抑郁症识别入门相关内容。希望对你的学习有帮助。
本文来自于CSDN，由火龙果软件Linda编辑，推荐。

1 背景介绍

1.1 研究背景

由于缺少有效的可供衡量病症的特征（生理或心理等方面），当前抑郁症主要仍由临床医生通过打分的方式进行诊断。随着技术发展，ADE（自动抑郁症诊断系统）被引入，通过视频或音频等信息协助医生进行抑郁症诊断。

1.2 关键因素

ADE系统中很重要的一步是设计一个有代表性的特征并提取用以估计抑郁症的严重程度，该特征可以手工创建，也可以基于深度学习模型得到：

手工特征在ADE中表现良好，但存在一些限制：

提取前需要对相应抑郁症知识有了解，这需要耗费很大的精力。

一些隐含的判别特征难以被人工提取。

不同的实验人员会从不同的角度出发提取不同的特征进行研究。

基于深度学习获得的特征表现良好，并且几乎不具有上述提到的主要问题，主要采用包括CNN、RNN在内的各种主要网络结构基于视听因素来提取多尺度的特征表征。

1.3 存在问题

当前已有的相关综述存在两个有待思考的问题：首先是很少有研究关注视频和音频两种及以上数据信息（多模态）同时参与ADE系统，其次是大多数现有研究仍采用传统方法，深度学习的一些技术还未被广泛应用。

1.4 本文内容

本论文包含：基于试听线索的综合调查；回顾了20个数据库；回顾了114个研究，并选择了78个使用深度学习技术的根据其使用的数据类型分为三类：

音频模态的深度ADE网络

视频模态的深度ADE网络（空间特征提取、时间特征提取）

用于视听线索的深度ADE网络

2 目前的诊断方法

2.1 抑郁症的定义

1980年，Russell提出情绪状态可以用二维空间的连续数字向量来表示，该二维空间称为VA空间，valence指的是两类情绪状态，积极和消极；arousal指的是情绪强度，从无聊到亢奋。

根据Diagnostic and Statistical Manual of Mental Disorders (DSM) of the American Psychiatric Association (APA)，抑郁症可以被分为多种类型，如：MDD、DMDD、PDD、S/M-IDD等。DSM认为一个人如果具有（1）兴奋或快感明显减退（2）有以下至少四种症状持续两周两种情况，这个人就患有抑郁症。

下图展示了与抑郁症相关的一些症状：

目前仍不清楚抑郁症的真正病因，一般认为可能与大脑皮层—边缘系统的活性与连接性降低有关，而且抑郁症与遗传、成长环境、生活习惯等都存在一定关系。

2.2 诊断方式

当前主要的方式是通过HAMD或BDI表格进行打分评估（HAMD由临床医生询问患者并填写评分问卷20-30min，BDI则由患者自己完成报告问卷5-10min）。HAMD侧重神经相关的症状，如睡眠、体重、疲劳情况等，虽然其被认为是一个黄金标准，但打分过程中仍会忽略一些明显的症状；BDI则侧重于消极自我评价症状的自我评价，但这种自我评估的方法不关注临床特征，会出现不同个体差异过大的问题，也难以区分不同类别的抑郁症。

不同方法的特点都不相同，PHQ-9被认为可能成为未来主要的诊断标准，它需要收集答案的问题很少。

2.3 客观指标

可观察的行为信号在精神病学领域不被接受。但很多研究聚焦于此。目前有研究指出，言语、面部活动、身体姿态、眼部活动以及皮肤点反应、血压、脑电图等都可以辅助抑郁症诊断。本文主要讨论基于视频音频下的机器学习对抑郁症的研究（可以看作一个回归或分类任务）。

由于目前对抑郁症的病理原因不清晰，也不了解明确的患者生理变化情况，当前大部分相关医疗单位仍依靠传统打分表进行诊断，这样的方法存在过于主观，或对症状考虑不全面等问题，因此可观察的行为信号得到了很多研究人员的注意，我们希望通过这种方式能够有一个可参考的特征并进行抑郁症严重程度的分析。

3 相关数据库

简要分析：

由于抑郁症数据收集工作较为敏感，难以得到大量参与者的数据；不同实验过程不相同，难以保证数据的准确性和有效性；不同实验记录的细节也不同，因此该领域的数据收集过程挑战很大。

目前大多数抑郁症数据库不向公众开放，在我国，可用的公开数据集也非常少；数据库内的数据量也较少，并且设计的数据类型也不丰富（一般就是单一音频或视频），这都造成了该领域的数据匮乏。

4 深度视听抑郁症识别

4.1 预处理

无论是传统的识别方法还是端到端的基于深度学习的相关工作，在实际抑郁症识别前都需要进行预处理。例如：处理音频的采样率，利用傅里叶变化DFT进行时频表示（使用汉宁窗口选择DFT参数），在手工特征中考虑低水平描述符的长度，处理视频数据时采用算法或某些工具进行人脸检测和相邻帧的对齐等等。

这里补充一个端到端的概念：端到端模型（end-to-end models）是指系统中不再有独立的声学模型、发音词典、语言模型等模块，而是从输入端（语音波形或特征序列）到输出端（单词或字符序列）直接用一个神经网络相连，让这个神经网络来承担原先所有模块的功能。

4.2 传统神经网络架构

4.2.1 CNN（卷积神经网络）

主要包含三种类型的层：卷积、池化和全连接。卷积层是为了对输入内容的特征进行建模，卷积层包含一个卷积核来计算特征映射。池化层用于降低特征映射的空间分辨率，用最大、最小平均等统计量来替换特征映射中的小邻域，实现位移不变性，之后使用全连接层来生成高级特征表示，全连接层的所有神经元在前一层被采用，并连接当前层的每个单个神经元，从而得到全局输出信息，在某些情况下，可以将全连接层转换为1*1的卷积层。

4.2.2 RNN与LSTM（循环神经网络与长短期记忆递归神经网络）

为了对来自音频、视频和文本的序列信息进行建模，RNN被研究人员提出。但RNN存在不能建模长期的依赖关系，并且在现实世界的任务中可能出现梯度消失或激增等问题。因此，我们引入了RNN的一个变体，称为LSTM来解决这些问题。LSTM设计了三个门控结构：输入门、输出门和遗忘门，以协调输入流和记忆单元的输出，学习模式。

4.2.3 Transformer—编码器和解码器的代表作

在这里首先想说明，编码器解码器并非是一种类似RNN或CNN等特有的网络结构，小長认为它代表了一种思路，其中编码器表示我们对数据特征的提取，随着维度的下降我们得到数据内的深层信息，而解码器则是在深层信息的基础上再进行映射，从而得到在解决任务时我们需要的内容，因此从这个角度来看，以Transformer为例，最早提出的Transformer包含了编码器和解码器两部分，但实际上根据任务的需要，我们可以选择其中之一去进行应用。

编码器-解码器网络旨在通过两级架构学习潜在特征表征。编码器可以通过一个函数将输入x映射为潜在表示RR=E(X)，而解码器可以通过一个函数将R映射为Dy= D(R)。编码器-解码器架构的主要优势在于可以在许多任务中捕获全局语义信息、例如，NLP、序列到序列、图像超分辨率等。Transformer最初是由谷歌团队提出时，目的之一是为了避免两个任意输入或输出位置的信息时需要的操作数随距离增长而增加的问题，采用注意机制来学习输入和输出之间的全局。它包括叠加自注意层、全连接层组成和解码器子架构。其中编码器由 l=6 个相同的层组成，每个层包括一个多头自注意子层，之后是一个位置全连接前馈网络，而解码器部分也使用了L=6个相同的层构成，除包含编码器中每个层的结构外，还增加了一个多头注意力机制来关联编码器和解码器部分的信息。在编码器和解码器上，每个子层周围都采用了残差连接，还使用了层归一化。Transformer为自然语言处理（NLP）、计算机视觉等提供了一种新的模式表示方法。

4.2.4 GAN（生成对抗网络）生成对抗网络为许多任务中的数据加强工作提供了一个新的解决方案。基本的GAN包括两个模型：一个生成器G和一个鉴别器D。G将随机噪声映射到一个目标分布。D试图区分生成的“假数据”样本和“真实数据”样本。一个GAN可以被认为是G和D之间的一个极大极小问题，其中D试图通过正确识别生成的数据来减少分类错误，而G试图通过生成更好的数据点来增加分类错误。GAN的一些变体包括卷积GAN、条件GAN等。

4.3 针对音频模态的深度ADE网络

4.3.1 相关研究工作

在本文提到的数据库中，手工提取特征在基于音频的ADE中仍占据主导地位。

接下来我们讨论用深度学习方法提取特征的ADE：

2016年，研究人员提出一种基于深度学习的全新模型 Dep AudioNet, 从声音线索中挖掘抑郁表征，采用LSTM和1D-CNN编码抑郁识别的鉴别音频表征。1D-CNN可以从原始波形中建模空间特征表示，LSTM可以从mel滤波器组中学习短期和长期的特征表示。此外，为了平衡正样本和负样本，在使用LSTM之前的模型训练阶段采用了随机抽样的方法。使用Dep AudioNet，不同的尺度表示，例如提取了高级、短期和长期的特征。

为了进一步解释健康对照组和抑郁受试者之间的不同表现，上图提供了从音频段中提取的频谱图和滤波器组特征的比较。其目标是尝试使用深度学习的方法来估计抑郁症的严重程度。重要的是，尽管训练数据的规模较小，但深度学习方法依然可以从音频信号中学习辨别模式。

2018年，研究人员利用深度学习和手工制作特征的融合，能够从言语中有效地测量抑郁的严重程度。在这个框架中，使用1D-DCNN和2D-CNN来学习和融合浅层和深层的模式来评估其严重程度的抑郁。具体来说，LLD特性是由工具包从音频中提取的手工制作的特性。中值鲁棒扩展局部二值模式（MRELBP）作为手工提取的谱图特征。原始的音频和声谱图是作为1D-DCNN和2D-CNN的输入，获得深度学习的特征。使用联合微调技术使手工制作的特征与深度学习得到的特征互补，并引入一种数据增强的方法克服样本数据量较少的问题。他们还从光谱图中提取纹理特征，用于预测抑郁症的严重程度。最重要的是，该方案提出了一个针对抑郁症识别的端到端架构，试图融合手工制作和深度学习特征的抑郁估计。他们还从频谱图中提取纹理特征，用于预测抑郁症的严重程度从而验证所提出的方法，并在AVEC2013和AVEC2014数据库中获得了良好的性能。

2020年，研究人员开始注意利用某种方式以增加数据，以降低抑郁症相关数据库规模有限的问题。

例如提出了深度卷积生成对抗网络（DCGAN）来增加数据样本的大小，以提高来自音频信号的ADE任务的准确性。为了验证增强数据的效果，提出了三个测量标准：空间、频率和表示学习。在DAIC数据库上，提出的体系结构能够达到与大多数方法相当的表现性能，RMSE为5.52，MAE为4.63。DCGAN框架包含了一个具有两个层次的学习策略，以提高训练的收敛速度。在第一层中，特征地图被分成9个块，大小为28×28。对于每个块，都使用一个DCGAN模型来表示合成表示。在此之后，使用相同的架构生成9个dcgan。将第一级（大小为9×28×28）的输出输入到第二级，以获得全局特征。这种架构的优点是复杂的训练转化为更直接的过程。一些人试图将音频片段转换成一个光谱图来进入深层架构。他们在8 kHz的频率下对音频片段进行采样，并使用32 ms的汉明窗口和16 ms的位移采用STFT，在两个AVEC2013和AVEC2014数据库上生成129维的光谱图。他们发现，最优频谱图长度为64帧（1 s），位移量为32帧（0.5 s）。

2021年，研究人员提出了一种集成了挤压激励（SE）组件和时频的新框架。通道注意（TFCA）块，用于表示与抑郁症相关的信息特征，为了考虑数据的时频特征，采用了一个时频通道向量化（TFCV）块来形成一个张量。然后，他们将这些块与DenseNet的两个块（即密集块和过渡层）集成到一个统一的框架中，以生成时频通道注意和向量化（TFCAV）网络。他们的贡献是时频属性被认为是从光谱图中学习信息的模式。在AVEC2013和AVEC2014上，该方法的均方根误差分别为8.73和8.82。

也有研究人员提出了一种深层的语音架构，主要有两个贡献。第一个是将说话人识别（SR）和说话人情绪识别（SER）特征进行融合，以提高ADE的表现。第二个贡献是特征变异的协调采用测量（FVCM）算法对时滞多通道变化的相关系数和协方差系数进行建模（如上图）。

4.3.2 针对音频模态的ADE的总结

1D-CNN和2D-CNN是用于基于音频的ADE的最流行的深度架构（本综述中24项综述研究的58%）。有趣的是，最近的研究试图采用原始音频输入到1D-CNN中，以提取ADE的深层特征。在78项综述的研究中，有24项发表了关于音频模式的研究。从整体的总结表格中可以看出许多研究采用了1D-CNN和2D-CNN模型来提取深度特征来确定抑郁症的严重程度。从算法的角度来看，广泛使用的深度学习技术已被用于评估抑郁症的严重程度，1D-CNN、2D-CNN、LSTM等。值得注意的是，将原始音频信号直接输入到1D-CNN中可以克服传统的特征设计方法的缺点。通常的来自音频线索的ADE方案可以分为两种策略：从头开始训练，和对现有的预先训练过的ADE深度模型进行微调。因此，为了进一步提高ADE的性能，研究者倾向于设计“更深层次”的模型，这可能会在一定程度上导致过拟合。而这也是ADE面临的主要问题。

4.4 针对视频模态的深度ADE网络

下面的方法将被分为两组：从单一图像中学习ADE的空间特征和从视频序列中学习ADE的时间特征。

4.4.1 从单个图像中学习ADE的空间特征

一个视频可以被看作是空间和时间模式的组合。基于视频的ADE学习的关键是如何全面的学习空间信息。空间特征学习的目的是从人脸图像中学习鉴别特征。

2018年，名叫DepressNet 的新的深度学习架构被提出，用于去学习抑郁识别的表示，在CASIA数据库上进行了预训练。其中解码部分是通过将池化层更改为一个回归层，然后构建一个全局平均池化（GAP）层。具体来说，在这个架构中，面部图像首先由OpenFace工具包进行预处理，以确保它们具有相同的规模。该体系结构具有残差连接，类似于ResNet体系结构。解码部分包含四个块，它们由3、4、6、3个用于特征表示的瓶颈体系结构组成。然后从抑郁症的体系结构中提取2048个D特征，进行抑郁症的集成分类。损失函数如下：

另一种方法是multi-region DepressNet(MR-DepressNet)，为学习不同分辨率下的特征从而进行整体抑郁识别。在这种结构中，为了学习从不同区域和完整图像的鉴别模式，开发了一个四路网络。为了学习更鲁棒的表示，这四个子体系结构的输出在代价函数层进行了组合。在这个架构中，面部图像首先由OpenFace工具包进行预处理，以确保它们具有相同的规模。然后将面部区域划分为不同的区域，并将其与完整面部一起输入提取网络，以估计BDI-II评分(融合了不同的面部区域)。损失函数如下：

2019年，有研究人员采用2D-CNN和分布学习方法对抑郁症的模式进行建模，使用预期损失函数来估计抑郁的水平，效果很好。研究中，首先对这些视频进行处理，生成对齐的面部图像。然后对ResNet-50进行微调，提取出鉴别特征，再使用GAP层来汇集特征。最后，利用期望损失对该方法的性能进行加权。

此外，研究人员在基于AVEC2013和AVEC2014数据库的研究引入了一个双流DCNN框架，从RGB图像和视频剪辑的编码图像中学习模式。表征流将静态图像作为输入，而时间流获取图像序列作为输入。采用均方误差函数来解决回归问题。采用一种简单的融合方法，即平均池化，来融合两个网络的输出，以进行ADE任务。

总结：

利用了一个大规模的数据库（CASIA、VGG、等)。通过使用深度体系结构(谷歌、VGG、ResNet等)进行研究。

通过微调抑郁症数据库上的深度模型来提高深度模型的性能（基于AVEC2013和AVEC2014等）

此外，其中一些人试图通过为ADE任务设计一个特定的损失函数来提高抑郁症的识别效果

也有一些研究人员从头开始训练一个深度模型。2020年提出的另一种新的多尺度抑郁识别架构。在该网络中，人类行为作为基本信息，包括AUs、注视方向和头部姿态，基于它们的出现（二值结果）或强度（实值或顺序结果）作为框架特征表示。采用谱热图和谱向量对表达行为的多尺度表示进行挖掘，然后投入1D-CNN或ANNs网络中，该方法表现也很好。

还有研究人员结合了2D-CNN网络和注意机制的抑郁症识别。该方法采用集成的深度局部全局注意卷积神经网络（DLGA-CNN），采用带有注意机制的2D-CNN和加权空间金字塔池（WSPP）来建模全局特征。设计了两个分支：基于局部注意力的CNN（LA-CNN）集中于局部特征，而基于全局注意力的CNN（GA-CNN）则对整个面部区域的全局特征进行建模。为了从这两个分支中学习互补的模式，引入了基于局部-全局注意的CNN（LGA-CNN）。在进行特征聚合后，采用WSPP来提取抑郁表征。更重要的是，与之前的方法相比，该方法没有利用大规模的数据库对深度模型进行预训练，而是被认为是ADE的端到端方案还引入了一种新的架构，即利用深度残差回归卷积神经网络（DRR_DepressionNet）来学习抑郁模式。

4.4.2 对基于单个图像的ADE研究的总结

大多数使用DL的研究都采用了2D-CNN和其他架构来评估抑郁症的严重程度。此外，注意机制也被用于抑郁识别。在预处理方面，主要使用MTCNN、OpenFace和Dlib工具包来检测和裁剪面部区域，为抑郁检测奠定坚实的基础。

与基于音频的ADE类似，1D-CNN和2D-CNN也是ADE流行的深度体系结构。然而过拟合将是训练过程中的一个问题，这也是ADE任务的主要挑战。

使用静态图像进行ADE的回顾方法。可以看出，空间特征的AVEC2013的RMSE为7，AVEC2014的RMSE.97.157。此外，AVEC2014的性能优于AVEC2013；原因是AVEC2014包含两个ADE任务。例如，表中，AVEC2013和AVEC2014的均方根误差分别为8.39和9.30。

为了获得更高的ADE精度，一些研究并没有利用深度预训练模型的优势，而是从头开始训练深度模型进行ADE，这也被认为ADE研究的未来。

4.4.3 从图像序列中学习ADE的时间特征

该方法注意对ADE任务有用的时间（序列）信息。

2017年，有研究人员首次尝试采用深度学习从静态图像中进行抑郁症检测。在他们提出的框架中，开发了一个双流网络，利用面部图像和光谱特征来学习抑郁类型。Appearance-DCNN 和Dynamics-DCNN 两个框架被引入来建模抑郁识别的静态和动态模式。

Appearance-DCNN包括两个步骤。第一步包括从头开始在一个公共的CASIA WebFace数据库上训练一个模型，有来自10,575名受试者的494,414张图片。然后，深度模型包含了与面部结构相关的判别表征，可以为ADE任务提供足够的信息。然而，预先训练好的模型不能直接用于ADE。第二步是对ADE的预训练模型进行微调。由于从机器学习的角度来看，基于AVEC2013和AVEC2014的ADE任务可以被看作是一个回归问题。因此，softmax损失函数被更改为欧式损失。为了进一步模拟几个连续视频帧之间的动态情况，计算Dynamics-DCNN的光谱位移。

该方法探讨了人脸微妙的动态模式和运动，并利用光谱减少了视频的冗余信息。特别的是，该研究利用了现有的大型模型的能力来预测小数据集上的BDI-II得分。最重要的是，该方法为后面基于深度学习的抑郁症识别和分析工作提供了一定的灵感。

2018年，为了解决相关的问题，有研究人员提出使用C3D和RNN从视频剪辑中提取两个不同尺度的时空特征，用于抑郁症识别。

该框架由两个部分组成：松散尺度和紧尺度特征提取部分，它们使用深度模型的微调和时间特征聚合。C3D Tight-Face模型用于紧密学习(高分辨率)特征，而C3D Loose-Face模型在更大的面部区域训练学习全局特征。然后采用RNN对C3D Tight-Face模型和C3D Loose-Face模型学习到的时间特征进行建模。最后，使用平均值进行评价。这项研究的主要贡献是在学习不同尺度上的面部特征的时间框架。此外，不同的特征聚合阶段可以结合来自不同尺度的特征，这有利于对抑郁水平的评价。

在2020年，研究人员又提出了一种不同的C3D结构的组合，从全脸和局部区域学习时空模式，并进一步将其与3D全局平均池（3D-GAP）结合来评估抑郁症。局部C3D结构学习眼睛区域的判别信息，而全局C3D结构则侧重于学习基于整个面部区域的时空模式。此外，3D-GAP也被用于聚合来自最后一个卷积层的时空特征.在AVEC2013和AVEC2014数据库上对该方法进行了评估，与最先进的方法相比，其方法的性能分别为8.26和8.31。

同年，Uddin等人使用LSTM对视频数据中的序列信息进行建模。通过深度CNN提取深度面部表情特征，然后通过时间中值池（TMP）汇集，为ADE提供LSTM模块。在两个数据集（AVEC2013和AVEC2014）上进行了各种实验，结果表明所提出的方法超过了现有的大多数方法。他们的贡献是设计了一个体积局部方向数（VLDN）动态特征来模拟来自面部区域的细微情绪。

随后，有研究人员开发了一个新的三维框架，即多尺度时空网络（MSN）来学习视频剪辑的特征信息。几个平行的卷积层被用来学习来自面部表情的多种时空变化。该模型采用了多个感受域，最大限度地利用来自面部区域的不同空间区域。

2021年，有几项研究处理对抑郁症严重程度进行评估的任务。提出了一个端到端智能系统，从整个视频剪辑中生成鉴别表示。具体来说，在AVEC2013和AVEC2014数据上，将3D-CNN结合时空特征聚合模块（STFAM）从头进行训练，可以学习抑郁症的信息模式。在STFAM中，整合了通道和空间注意机制以及一种聚合方法，即3D DEP-NetVLAD，以基于特征图捕获紧凑的特征。通过案例研究来评估所提出的智能系统对ADE的适用性。

同样在2021年，一种新的DL体系结构，称为最大化和分化网络（MDN），被提出来建模与抑郁症密切相关的面部表情的变化。MDN的设计没有三维卷积，利用两个不同块学习的区分时间模式，这些块模拟平滑或突然的面部变化。最后，他们分别设计了100层和152层不同深度，并在AVEC2013和AVEC2014数据库上验证了深度模型。该模型在AVEC2013和AVEC2014数据库上获得的竞争均方根误差分别为7.55和7.65。

4.4.4 对基于图像时间序列ADE研究的总结

与静态特征相比，图像序列可以从视频中捕获短期和长期的时空信息。这可以改进对ADE的深度判别模型的训练。

从训练的角度来看，大部分文献包括ADE的培训前和微调阶段。从时间上看，目前还没有从图像序列中提取 ADE 的端到端方案。

为了获得更好的ADE性能，不同的研究尝试采用微调或从头开始的训练来训练深度模型。

4.5 针对多模态融合的深度ADE网络

4.5.1 相关研究工作

多模态融合方法可以提高抑郁症预测的性能。

2015年，研究人员提出了一种利用视听线索的多模态ADE系统。在这个框架中，使用预先训练的2D-CNN模型从外观图像中学习深度特征。LSTM-RNN用于从视听特征中学习时序特征。他们的贡献是表明深度学习方法也可以用于ADE。它们为情感计算提供了一种新的方向。此后，出现了关于情感计算的ADE的大量研究。

2017年，研究人员针对ADE提出了1D-CNN和DNN方法的组合，使用不同的模型结合视听特征和文本输入。对于每个单一的模态，手工制作的特征被输入到一个1D-CNN中，以建模全局尺度的特征，然后输入到一个DNN中，以评估PHQ-8分数。为了提高抑郁症识别的性能，提出了一种多模态融合方案。随后，将三个单一模态（音频、视觉、文本）融合在一起，并输入DNN，以确定PHQ-8抑郁量表定义的抑郁的严重程度。此外，还提出了段落向量（PV）来学习文本描述符的分布式表示，一种新的视频特征：位移范围直方图（HDR），能够学习面部地标的位移和速度。实验在AVEC2017挑战上进行。它在测试集上的RMSE为5.97，MAE为5.16。

也有研究人员提出了一种基于视听和文本描述符的混合抑郁识别框架。在这个框架中，首先使用1个DDCNN和DNN对抑郁受试者和健康对照组进行分类。在采用这种方法对抑郁症的严重程度进行评估后，最终表现出的效果也较好。

2018年，一个新的双相情感障碍语料库被发布，用于学术研究，并被用于AVEC2018双相情感障碍亚挑战。基于AVEC2018数据库，有研究人员提出了一种融合了DNN和随机森林的双相抑郁症分析的新架构。在这项研究中，为了解决不同发作间不规则变化的双相情感障碍（BD），研究人员设计了一种新的架构IncepLSTM，能够将初始模块和特征序列LSTM与学习多尺度时间模式相结合，用于双相障碍分析。在AVEC2018数据集上进行了实验，证明了该方法的有效性。其他研究也采用了传统的机器学习方法来进行BD识别。然而，AVEC2018数据库迄今为止还没有被广泛应用于情感计算。

值得注意的是，有研究人员提出了一种新的方法，将无监督学习、迁移学习和从言语中获得的分层注意相结合来评估抑郁症的严重程度.该方法在AVEC2017抑郁挑战上进行了评估，结果达到了RMSE为5.51，MAE为4.20。

2020年，为了学习音频和视频线索之间的相关信息，研究人员提出了一种新的时空注意（STA）结构和多模态注意特征融合（MAFF）方法，从视听线索中提取多模态特征，用于评估抑郁症的严重程度。BDI-II分数。该方法包括2D-CNN，3D-CNN，以及一种学习深度特征的注意机制。通过在AVEC2013和AVEC2014数据库上进行了大量的实验，结果表明，所提出的深度体系结构优于大多数现有的数据库。

综上所述，这些研究利用成熟的深度学习技术(例如2D-CNN，3D-CNN，RNN，LSTM)来学习抑郁症估计的深度鉴别模式，同时还涉及利用注意机制从深度学习的特征中学习显著的模式。此外，在AVEC2019年的人工智能子挑战检测抑郁症（DDS）中，也有一些研究集中于采用人工智能技术来评估受试者抑郁症的严重程度。

4.5.2 对基于多模态ADE研究的总结

从模态的角度来看，多模态融合方法在各个数据库上的表现都更好。在AVE2013和2014上，Niu等人实现了最好的正确率，RMES为03、MAE为5.21。虽然多模态融合能为 ADE 带来最佳性能，但这种方法在融合音频和视频线索之间的互补信息时非常复杂。因此，有大量文献关注视频模态，以学习面部区域周围的分辨模式。这可能是计算机视觉和DL 方法能够取得成功的原因。

从数据库的角度来看，AVE2013和2014获得了最大的关注。原因是在这两个数据库上含有视频和音频的数据。因此，可以利用DL从视频剪辑中学习一个紧凑的表示形式。对于DAIC数据库，数据库组织者只提供音频数据样本，限制了其对ADE的使用。

从DL的角度来看，1D-CNN和2D-CNN通常用于从静态图像和手工特征中学习不同的区分模式。为了对来自视频序列的序列信息进行建模，3D-CNN也被大量使用。不同的变化基于3D-CNN也被提出来估计抑郁症的严重程度。

4.6 其它相关的研究

此外，自2015年以来，也有研究没有采用DL技术进行抑郁症估计。特别的，萨达里等人采用有序逻辑回归的方进行抑郁识别，并提出了一种新的方法。

基于AVEC2017的数据库，已经提出了多种抑郁症识别的方法。有研究人员分析了真实情况与抑郁症严重程度的估计之间的关系。他们设计了一个系统，并在AVEC2017抑郁症数据库上进行了验证。他们发现，对抑郁症的识别是一个必然的问题。

此外还有研究人员还提出了特征描述符号，称为中值鲁棒LBP-TOP（MRLBP-TOP），可以从图像序列中学习不同尺度上的模式。狄利克雷过程FV（DPFV）也被提出从分段级特征中学习全局模式。

双相抑郁症（BD）也引起了情感计算领域的关注。我们考虑了各种方法来估计BD。DCNN（1D-CNN，2D-CNN，3D-CNN）、LSTM和DNN继续被用于提取深层特征，以表示BD的严重程度。

4.7 基于不同数据库不同模态信息的深度学习相关研究

5 待解决的问题与未来研究方向

5.1 数据库的可用性

由于数据的敏感性，难以收集丰富的相关数据

对于某些特定的任务（如面部表情识别），可用数据库很少，广泛使用的抑郁症数据库分别为AVEC2013、AVEC2014、DAIC-WOZ，同时AVEC2014是AVEC2013的一个子集

缺少多模态的(音频、视频、文本、生理信号)数据库去学习综合的抑郁表征。现有的数据库只包含两到三种模式。虽然DAIC数据库包括三种模式（视听和文本），但组织者没有提供原始视频，给ADE带来了一定的不便。

数据集的有限限制了抑郁症评估的研究，特别是在使用深度学习方法时。例如，AVEC2013的训练集、开发集和测试集，每个样本只包含50个样本。为了解决这个瓶颈，需要使用有效的方法来增加有限的注释数据量。

对数据收集的标准应进行标准化。目前，不同的组织者采用了一系列不同的条件、设备和配置来收集多模态数据，导致不同数据库的标准差异很大。

5.2 数据和算法的透明度、公开性

研究人员应该努力共享原始数据，而不仅仅是手工制作的数据及特征，如果共享不可行，至少可以尝试在一个合理安全的计算环境中安排对数据的访问。

代码应该公开，使不同的研究人员能够以这种方式验证算法的效率，从而为临床应用奠定坚实的基础。

由于目前这两个主要方面的不足，很难改进ADE在临床环境中的表现性能，同时难以选择出最适合评估抑郁症严重程度的深度学习网络架构。

5.3 学科间的合作

跨学科的合作对ADE至关重要。关于情感计算主题，相关领域包括心理学、生理学、计算机科学、机器学习等。因此，研究者应该借鉴彼此的优势来促进ADE的进步。对于基于音频的ADE，深度模型只代表从音频中提取的抑郁量表。对于基于视频的ADE，深度模型只能从面部表情中捕捉模式。但生理信号也包含了与ADE密切相关的重要信息。因此，不同的研究者应该共同努力，建立基于多模式的深度学习方法的临床应用。

5.4 训练数据集的不均衡性

由于抑郁症的严重程度是由不同的离散数值来评估这一情况，训练样本的分布不平衡。这会导致训练模型在少数类别中表现不佳；其次会导致训练后的模型在验证/测试集上的性能被影响。

Jeni等人研究了由于验证集中数据不平衡而导致的偏差。为了解决这种不平衡，研究结果基于几个评价指标, 准确性，F1分数，等等。为了证明这种不平衡，考虑AVEC2014这个在情感计算中广泛使用的流行数据库。以BDI-II为例，BDI-II评分可根据抑郁的严重程度分为四类，分别是0–9, 10– 18, 19–29, 30–44。如上图所示，0-9段的参与者更多，30-44段的参与者比其他分数段少。因此，数据库提供者以及相关研究人员需要充分考虑数据集不平衡的问题。

5.5 多模态信息的融合

为了提高性能，从音频和视觉甚至多种数据中捕获互补的模式，多模态信息融合方法也应该考虑被添加。

在一项研究中，研究人员考虑了融合不同尺度的ADE方法，如特征融合、评分融合、决策融合和混合融合。最后，他们发现评分融合产生了最好的分类率。在另一项研究中，采用特征融合和模型融合来评估抑郁的严重程度，发现模型融合对ADE的评估效果最好。因此，情感计算研究人员应该考虑融合方法来提高ADE的性能。此外，他们还应该考虑基于不同数据库的不同任务的不同融合方法的潜在意义。

6 结论

6.1 有待解决的问题

区分MDD和其他类型的抑郁症的能力

仅从少数训练样本中学习的能力

通过手工制作和深度学习方法提取特征的能力

通过融合方法从音频和视觉线索中表示和组合互补信息的能力

6.2 今后聚焦的问题

由于训练样本集较小，一方面，我们应该鼓励数据组织者为ADE共享私有数据样本。另一方面，我们应尝试收集一个多模态数据库，其中包括音频、视频、文本和生理信号(脑电图、心电图等)。这将允许不同的模式来增加训练ADE模型的数据样本。此外，训练数据的数量在评估抑郁症的分类/严重程度方面起着至关重要的作用。目前大多数数据库只包含少量需要记录的受试者。虽然有些数据库是用于研究目的的，但它们不能合并成一个大型数据库。原因是不同的数据库是用不同的语言，不同的国家，并使用不同的标签。因此，我们将考虑不同的数据增强方法（例如GAN）来增加数据样本的数量，以提高ADE的性能。此外，我们希望鼓励在不同的平台上共享代码。

为了提取多模态线索的信息特征，我们将采用DL方法考虑个体的属性。同时，我们将利用数据的属性来提取ADE的信息性和有区别性的特征。此外，我们将与来自不同学科的研究人员合作，提取与抑郁症密切相关的信息更丰富的特征。

为了学习手工制作和深度学习特征之间的互补模式，将为ADE设计鲁棒性更高的方法。虽然深度学习的特性已经被证明可以获得很好的ADE性能，但传统的手工特性对于ADE任务也不应被忽视。因此，我们将深入研究手工制作和深度学习特征之间的互补性，以建模ADE的判别架构。

多模态数据不仅增加了训练模态的数据量，而且还捕获了ADE的鉴别模式。为了提高多模态ADE的性能，我们将考虑来自不同模态的互补模式，并借鉴来自不同领域的研究人员的经验。

次浏览

次