语音情感识别研究进展综述（2013）

论文：语音情感识别研究进展综述
作者：韩文静 1, 李海峰 1, 阮华斌 2, 马琳 1

摘要

对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从 5 个角度逐步展开进行归纳总结,即情感描述模型,具有代表性的情感语音库,语音情感特征提取,语音情感识别算法研究和语音情感识别技术应用

介绍

自动语音情感识别则是计算机对人类情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系示；计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值。
一般说来,语音情感识别系统主要由 3 部分组成:语音信号采集、情感特征提取和情感识别,系统框图如图1 所示.语音信号采集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联紧密的声学参数进行提取,最后送入情感识别模块完成情感的判断.需要特别指出的是,一个完整的语音情感识别系统除了要完善上述 3 部分以外,还离不开两项前期工作的支持:(1) 情感空间的描述;(2) 情感语料库的建立.情感空间的描述有多重标准,例如离散情感标签、激励-评价-控制空间和情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的收集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的基础,负责向识别系统提供训练和测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述 5 个关键模块之中。下面从情感描述模型、情感语音
数据库、语音情感相关声学特征提取、语音情感识别算法、语音情感识别技术应用这 5 个角度对当前的语音情感识别技术主流方法和前沿进展进行系统的总结和分析。

语音情感识别综述

语音情感描述模型

离散形式情感描述模型
将情感描述为离散的、形容词标签的形式,如高兴、愤怒等。丰富的语言标签描述了大量的情感状态，而用于研究的情感状态需要更具普遍性，因此人们定义了基本情感类别便于研究。其中,美国心理学家 Ekman 提出的 6 大基本情感(又称为 big six)在当今情感相关研究领域的使用较为广泛。
维度形式情感描述模型（连续情感描述模型）
将情感状态描述为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维
对应着情感的一个心理学属性(例如,表示情感激烈程度的**度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度。.一些既简单又能被广泛使用的维度情感描述模型有二维的激
活度-效价空间理论(arousal-valence space)、三维的激励-评估 - 控制空间理论 (valence-activation-dominance space)[19]和情感轮理论(emotion wheel)[18]等

情感语音数据库

用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这 3 种类型

语音情感特征提取

韵律学特征：
韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。它的情感区分能力已得到语音情感识别领域研究者们的广泛认可,使用非常普遍[28−31],其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等.学者们还针对韵律特征与特定情感类型之间的关联上展开了研究[3,19,35−38],这些研究工作进一步验证了韵律特征区分情感的性能,但也出现了一些不甚一致甚至相反的结论，所以，韵律特征区的情感区分能力是十分有限的.例如,愤怒、害怕、高兴和惊奇的基频特征具有相似的表现[3,36].
基于谱的相关特征
基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现。Nwe 等人[43]通过对情感语音的相关谱特征进行研究发现,语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响.例如,表达高兴情感的语音在高频段表现出高能量,而表达悲伤的语音在同样的频段却表现出差别明显的低能量。
在语音情感识别任务中使用的线性谱特征(linear-based spectral feature) 一般有 :LPC(linear predictor coefficient)[36],OSALPC(one-sided autocorrelation linear predictor coefficient)[48],LFPC(log-frequency power coefficient)[43]等;倒谱特征(cepstral-based spectral feature)一般有: LPCC(linear predictor cepstral coefficient),OSALPCC(cepstral-based OSALPC)[44],MFCC(mel-frequency cepstral coefficient)等.
声音质量特征
声音质量是人们赋予语音的一种主观评价指标,用于衡量语音是否纯净、清晰、容易辨识等[49].对声音质量产生影响的声学表现有喘息、颤音、哽咽等,并且常常出现在说话者情绪激动、难以抑制的情形之下。在语音情感识别研究中,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽(format frequency and bandwidth)、频率微扰和振幅微扰(jitter and shimmer)[50]、声门参数(glottal parameter)等。
研究：.Li 等人[54]提取了频率微扰和振幅微扰作为声音质量参数对SUSAS 数据库中的语料数据进行了说话人不相关的情感识别,HMM(hidden Markov model)被作为识别器.与仅使用 MFCC 的基线性能 65.5%相比,MFCC 和频率微扰的特征组合可以得到 68.1%的识别率,MFCC 和振幅微扰
的特征组合可以得到 68.5%的识别率,最佳性能 69.1%由 MFCC、频率微扰和振幅微扰的共同组合获得.
融合特征
上述 3 种特征分别从不同侧面对语音情感信息进行表达,自然会想到使用它们的融合用于语音情感的识别,从而达到提高系统识别性能的目的。
例如：Schuller 等人[57]将过零率、能量、基频、声音质量、谐波噪声比、0~15 阶 MFCC 等特征的5 967 维相关统计量用于 eNTERFACE[61]、柏林情感语料库 EMO-DB[23]以及合成语料库的交叉数据库情感识别研究;Malandrakis 等人[59]使用基频、强度、对数能量、过零率、频谱重心(spectral centroid)、频谱通量(spectral flux)、MFCC、PLPC(perceptual linear prediction coefficient)等特征的统计值用于电影维度情感的跟踪等。
基于 i-vector 的特征
i-vecotr 在近些年来的说话人识别领域有着广泛的应用,是一项将高维高斯混合模型(Gaussian mixture models,简称 GMM)超向量空间映射到低维总变异空间的技术。
注：特征提取的工具 openSMILE。openSMILE是一款以命令行形式运行的工具，通过配置config文件，主要用于提取音频特征， 2.0版本之后的openSMILE包括了openCV库，可以用于视频处理和视频特征提取。其中包含默认特征集及其配置文件，通用配置文件，色度特征，MFCC特征，PLP特征，韵律特征，情感识别特征提取。

语音情感识别算法

当今语音情感识别系统所采用的识别算法可以分为如下两类：离散语音情感分类器，维度语音情感分类器。

离散语音情感分类器
它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别[7].常用于语音情感识别领域的分类器,线性:朴素贝叶斯Naïve Bayes Classifier,线性人工神经网络Linear ANN(artificial neural network),线性支持向量机Linear SVM(support vector machine)等;非线性: 决策树Decision Trees,k-NN(k-nearest neighbor algorithm),非线性人工神经网络Non-linear ANN,非线性支持向量机Non-linear SVM,高斯混合模型GMM (Gaussian mixture
model),隐马尔可夫模型HMM (hidden Markov model)以及稀疏表示分类器等
1.2. 常用模型
HMM：隐马尔科夫模型（Hidden Markov Model，HMM），和回归、分类那些处理相互独立的样本数据的模型不同，它用于处理时间序列数据，即样本之间有时间序列关系的数据。隐藏变量是HMM里的关键概念之一，可以理解为无法直接观测到的变量，即HMM中Hidden一词的含义；与之相对的是观测变量，即可以直接观测到的变量；HMM的能力在于能够根据给出的观测变量序列，估计对应的隐藏变量序列是什么，并对未来的观测变量做预测。
GMM：GMM 是一种用于密度估计的概率模型[72],可以被看作是只包含一个状态的连续 HMM 模型。
ANN：MLP(multi-layer perceptron)是语音情感识别中应用最为广泛的一种人工神经网络模型,这与 MLP 完善的工具包支撑和成熟的学习算法有着很大的关系。
SVM：SVM 分类器的关键在于核函数的运用,它负责将原始特征以非线性的方式映射到高维空间中,从而提高数据的可分性。
稀疏表示分类器：稀疏表示分类器则是近年来随着压缩感知技术的兴起发展而来的一项分类技术。
维度语音情感分类器
该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR 因为性能稳定、训练时间短等优点应用得最为广泛。

总结

本文在充分调研和深入分析的基础上对当今的语音情感识别领域研究进展进行了综述,其中重点介绍了语音情感识别研究中的几个关键问题,包括情感描述模型选取、情感语音数据库建立、语音情感相关声学特征提取、语音情感识别算法建模等。
情感语料问题：即由于情感本身的复杂性,使得情感语音数据的采集和整理工作非常困难,进而导致了高质量的情感语料难以获取，对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战。对维度情感语音数据库的建立而言,困难不在于语料的获取,而在于语料的整理和情感的标注.为了将语料中的情感量化为精确的实数值,标注者担负了繁重的听辨和打分工作,并且标注结果的好坏、正误也难以评判。研究延伸：如何对现有资源进行补充和丰富?能否通过技术手段对训练语料的选择进行系统的指引和帮助?都是研究者们亟待解决的实际问题.
情感与声学特征之间的关联问题：计算机与人脑的情感识别机制的最初差异就是情感相关声学特征的提取以及情感与声学特征之间的关联方式的确定.因此,如果计算机不能准确地或者以尽可能接近人类的方式对情感语音进行声学特征提取并加以正确的关联和映射,就会使得计算机语音情感识别系统被建立于一个偏离实际的基础之上,从而导致其后的识别机制与人脑处理机制间的差距越来越大,无法达到期望的效果。目前性能较好的特征提取方法是Mel 倒谱系数。研究延伸：如何界定情感声学特征的最优提取时长,抑或是对不同时长的声学特征进行融合,也都是不容忽略的研究课题.
语音情感识别的建模问题：构建合理、高效的语音情感识别模型是语音情感识别研究的重中之重,它负责对大量的训练语料进行学习,从中挖掘由各种声学特征通往对应情感状态的映射通路,从而实现对测试语料情感状态的正确判断与识别。研究延伸，如何在现有的认知科学水平之上,以尽可能贴近人脑情感处理机制的方式来构建语音情感识别模型,是一项艰巨却有着重大意义的任务.