(IS 19)Automatic Detection of Prosodic Focus in American English

会议:INTERSPEECH 2019
论文:Automatic Detection of Prosodic Focus in American English
作者:Sunghye Cho, Mark Liberman, Yong-cheol Lee

Abstract

焦点通常由韵律的突出来调节,突出强调句子中的特定元素以进行强调或对比。尽管它在交流中很重要,但在语音识别领域却很少受到关注。本文开发了一种使用电话号码字符串的美式英语韵律重音自动检测系统。我们的数据是由5位发言者(3位女性和2位男性)读取的100个10位电话号码字符串。我们从字符串中的每个数字和一个类别变量中提取了18个韵律特征,并训练了Random Forest模型来检测聚焦数字在给定字符串中的位置。我们还将67位以美国英语为母语的人的感知实验中的模型性能与人类判断率进行了比较。我们的最终模型显示了韵律焦点位置检测的准确度为92%,比人的感知(97.2%)略低,但比机会水平(10%)好得多。我们讨论了模型中的预测功能以及将来研究中要添加的潜在功能。

7. Discussion and Conclusion

在本文中,我们构建了韵律焦点自动检测系统,并将其性能与人类听众进行了比较。我们使用简单易懂的功能进行训练,可以适应常规话语和大型语音语料库中的焦点检测系统的开发,而我们更倾向于展现美国英语的焦点特征。我们的模型正确地在92%的时间内识别了电话号码字符串中的焦点位置。该表现略低于人类的表现(97.2%),但远高于机会水平(10%)。我们的模型显示,每个数字的中位数F0值是最可预测的韵律特征,其次是中位数强度。

听众能够正确识别97.2%的时间这一事实表明,在美国英语中检测韵律重点是相对容易的任务。即使我们模型的性能远高于机会水平,但模型的性能仍比人工精度低5%。这可能是因为与模型的复杂性相比,我们没有足够的示例。鉴于训练集中的精度始终为100%(高方差),因此添加更多训练示例可能有助于改善模型性能并提高模型的可推广性。但是,也可能情况是韵律特征不足以检测韵律焦点,并且母语使用者可能会听取韵律特征以外的其他线索,例如语音质量或频谱信息。特别是,对于第一位数字组(NNN-NNN-NNNN),听众能够在大约97%的时间内正确识别出焦点,但是我们模型的性能大约为89%(表5)。这可能表明母语人士正在收听其他声学功能。在这项研究中,我们仅包含韵律特征,但添加了其他特征,例如发声线索和频谱特征,并对其进行实验也可能会改善模型性能。我们计划在将来的研究中研究这两种可能性。我们还计划将项目扩展到常规句子和自然对话。

这项研究表明韵律焦点可以被自动检测到,并且具有相当的准确性。我们认为自动检测焦点将改善人机交流和语音识别,并有助于更好地理解自然交流。

1. Introduction

交流的主要目的是向对话者提供适当的信息。演讲者想要传达的信息需要系统地构建以促进交流。考虑以下简短对话:

A: Is it May 6th today?
B: No, today is the 7th.

在B中,今天是老信息,而第七是说话者B要传达的新信息。在此对话中,第七是最有信息意义的部分,因此受到关注,这是一种话语功能,突出了句子[1],[2]中的特定元素。考虑到在交流中集中注意力的重要性,集中的元素通常会触发韵律突出,并伴随持续时间,强度和音调的增加。因此,它在发音上与其相邻的单词[2],[3],[4],[5]截然不同,并且在感知上变得高度可识别[6]。尽管韵律重点已经被广泛研究了数十年(例如[3],[7]),但在语音识别领域却很少受到关注。这项研究旨在建立和评估焦点自动检测系统,因为焦点自动检测有望促进人机交互。

先前关于情感识别或说话人状态和特质识别的研究的成功奠定了该项目的基础。例如,[8]使用隐马尔可夫模型对从五个说话者的语音样本中提取的七个情感进行分类。他们从行为和自发的情绪中提取了与音调和能量相关的特征,并表明他们具有全局特征的模型正确地识别了86.8%的情绪,这高于人类的判断(81.3%)。 [9]使用高斯混合模型中的MFCC和音高特征,将语音情绪分为两种不同的语料库(一种是瑞典语,另一种是英语),并表明结合所有特征训练的模型表现最佳。 [10]还使用隐藏的马尔可夫模型作为分类器,并使用短时对数频率功率系数(LFPC)作为特征,对六个情感类别进行了分类。他们的模型正确地识别了79.9%的缅甸语发音和76.4%的普通话语发音,机会率是16.67%(六类中的一种)。此外,INTERSPEECH [11],[12],[13]上关于情绪识别,副语言学和说话人特征的挑战系列(以及随后的挑战)促进了该领域的研究,表明可以自动检测到情绪和副语言功能。

先前研究的成功促使我们开发了韵律焦点自动检测系统。尽管语音识别已经取得了巨大的成功和进步,但是尚未对机器进行训练以识别句子或话语中的重点信息,从而为人机通信留下了改进的空间。由于声学特征和机器学习模型已经可以有效地从语音信号中预测情绪和其他副语言功能,因此可以合理地相信韵律焦点也可以使用机器学习技术自动检测到。为了实现这一目标,我们研究了韵律特征并开发了可自动检测句子中韵律重点的分类器。

2. Objectives

由于以下原因,我们选择将韵律重点放在电话号码字符串上作为训练数据:(i)数字在人机交互中很重要,例如在语音助手和用户之间的对话中(例如,请考虑以下常见的语音命令用法场景): VA:“计时器13分钟,对吗?”用户:“否,计时器30分钟。”),(ii)将数字集中在电话号码字符串中时,语法和形态学策略被排除在外,以便仅进行韵律调制(iii)字符串中的所有位置都同样容易受到焦点的影响,这使我们能够检查模型是否可以预测焦点,而与可变焦点位置无关。

据我们所知,本研究是构建焦点自动检测系统的第一项试验。我们的目标是(i)提取和识别最能预测焦点的韵律特征,(ii)使用这些提取的特征训练和评估预测模型,以及(iii)将训练后的模型的性能与人类的感知速度进行比较。专注于电话号码。

3. Methods

3.1. Data
我们作为一个较大的项目[14] [15]的一部分,收集了美国英语中韵律重点的数据集,该项目旨在调查跨语言的共性和重点差异。我们引起了纠正焦点,该纠正焦点使用以下问答结构(数字仅是示例)纠正了先前讲话中的不准确信息:

A: Is Mary’s number 887-412-4699?
B: No, the number is 787-412-4699.

听完预先录制的提示问题(上述问答结构中的讲者A)后,五名以英语为母语的美国英语使用者(3名女性,2名男性,平均年龄:27.8岁)阅读了100个电话号码字符串,格式为NNN-NNN-NNNN,它们与前面的语音仅相差一个数字,从而纠正了错误的信息,就像它们在上述对话中是说话者B一样。指示参与者尽可能自然地阅读琴弦。

读取的电话号码字符串是由Python脚本创建的,因此每个字符串位置均包括10个数字(从0到9),并且每个字符串位置中的每个数字均被赋予焦点以平衡焦点的分布。我们还要求读取每个分开的数字(例如,为了保持一致性,将“ 2156”表示为“二一五六”而不是“二十一五十六”),将0表示为“ O”而不是“零”。

录制会话在带有Plantronics头戴式麦克风的声音衰减的录音棚中进行,录制内容直接以44.1kHz采样率和16位分辨率保存到便携式计算机中。

**3.2. Features **
数字字符串中的每个数字都是由一位作者手动对齐的。我们使用Praat [16]脚本从每个数字中提取了18个韵律特征,如表1所示。
(IS 19)Automatic Detection of Prosodic Focus in American English
在测量音高时,我们将女性扬声器的音调范围设置为100Hz至500Hz,对于男性扬声器将音调范围设置为75Hz至300Hz,以减少音调加倍或减半的误差。数字的相对持续时间计算为给定电话号码中数字的比例(=数字持续时间/整个电话号码字符串的总持续时间)。

除了诸如均值,中位数和标准偏差之类的基本功能外,我们还测量了音高轮廓的斜率和每个数字的偏移速度(Hz / sec),以捕获动态音高模式。在测量俯仰斜率时,我们在[17]中实施了该方法,而对于偏移速度,我们在[18]中实施了该方法。

我们还拥有一个分类变量,即校正后的数字。由于英文数字的音节数量有所不同(例如,七对一),这直接影响持续时间特征,因此我们假设将校正后的数字作为特征可以改善模型的性能。但是,重要的是要注意,有关校正后的数字的信息不会导致数据泄漏,因为该任务是要确定聚焦数字的位置(例如215-123-4567中的第三个位置),而不是来确定关注的数字本身(例如215-123-4567中的5)。我们用二进制向量(1、0)对数字信息进行了伪编码,并将这些值用作分类变量。

由于每个电话号码字符串中有10位数字,因此使用的声学功能数为180,带有500个示例(= 5个扬声器x 100个电话号码字符串)。为了促进有效的学习,我们对每个数字字符串中的所有声学特征进行了z评分。例如,我们将数字字符串中所有位置的平均F0值分组在一起,然后对这些值进行z评分。这是因为在美国英语中,焦点位置的韵律特征与非焦点位置的韵律特征有很大不同(请参见第4节),并且数字之间的相对差异很重要。我们还估算了Python中的缺失值,其中Praat由于持续时间太短或前辅音太长而无法音调跟踪,在此过程中给定电话号码字符串中某项功能的中值作为估算值价值观缺失是有效学习的重要一步。提取的特征总数为190(= 180个声学特征+ 10个分类特征(从0到9))。

3.3. Model and feature selection
为了获得更高的准确性和更容易的模型解释性,我们选择了“随机森林”分类器作为建模框架。 由于与数据中有限数量的示例相比,我们拥有许多功能,并且某些功能可能高度相关(例如平均音高和中值音高值),因此对于我们而言,选择足够有用的功能非常重要。 我们使用Python中的基本相关函数测量了特征之间的相关程度,并删除了训练前相关性高于0.5的特征。 为了评估模型的可推广性,我们进行了留一小组淘汰的交叉验证(CV),将一位演讲者产生的所有代币分组为一组。 这项交叉验证技术对于防止可能由同一位演讲者制作的示例的随机训练和测试拆分引起的潜在数据泄漏至关重要。 管道中的所有进程都是使用python中的scikit-learn [19]执行的。

4. Feature analysis

图1显示了聚焦数字和非聚焦数字之间的韵律差异。 对于图1所示的所有示例功能,除了相对持续时间外,聚焦数字的值都比未聚焦数字的值高。 这意味着聚焦的数字以较高的音调,强度和较陡的音调斜率表示。
(IS 19)Automatic Detection of Prosodic Focus in American English
为了检查这些差异是否显着,我们使用R中的lmerTest [20]建立了线性混合效果模型,其中特征值作为因变量,聚焦条件作为固定效果预测器,说话者作为随机效果。模型估计聚焦的数字具有较高的最大音高值(估计系数= 4.92,t = 2.869,p = 0.004),较高的平均强度(估计的系数= 0.36,t = 2.017,p = 0.044)和较陡的音高斜率(估计系数= 23.469,t = 2.316,p = 0.021),但没有更长的相对持续时间(估计系数= 0.0001,t = 0.084,p = 0.933)。相对持续时间不重要的原因似乎是因为字符串末尾数字(NNN-NNNNNNN)受到最终加长的影响。由于在此分析中我们仅将关注的数字与其他数字分开,因此字符串最终数字似乎掩盖了关注的数字与未关注的数字之间的差异。表2按扬声器显示了模型的随机斜率,显示了我们数据中扬声器间的变化。
(IS 19)Automatic Detection of Prosodic Focus in American English

5. Human perception

5.1. Participants and procedure
人类感知数据改编自[14]。通过在线实验平台Qualtrics招募了67位讲英语的英语母语人士(平均年龄:19.5岁,标准差:1.1)。参加者都是在宾夕法尼亚大学学习的本科生,他们的参加获得了课程学分的补偿。

我们随机选择了五个扬声器产生的100个电话数字字符串(第3.1节),并询问听众在给定的电话号码字符串中哪个数字的声音听起来像正确的。为了确保参与者了解实验的目的,我们在开始实验之前提供了有关校正重点的简短说明。仅将去上下文化的电话号码字符串提供给参与者,并且参与者只能从十个数字中选择一位。他们可以听很多次刺激。

5.2. Results
收听者能够在97.2%的时间内正确识别出所关注的数字。准确度根据焦点在给定字符串中的位置而略有不同。聆听者在98.1%的时间中发现韵律焦点时,落在第八位数字上,而他们正确地在93.8%的时间中发现了对第四数字的焦点(混淆矩阵请参见6.3节中的表5)。听众的个人分数从89%到100%不等,但总体而言,人类听众的感知是非常准确的。

6. Classification results

6.1. Selected features
表3以模型中特征重要性的顺序显示了选定特征的列表。 删除相关性高于0.5的特征后,剩下83个特征,其中73个是声学特征,而10个是校正后的数字(从0到9)的分类特征。 在73个特征中,选择了所有10个中值F0,IQR F0,中值强度,最大强度和IQR强度特征(来自所有位置),还包括一个最大-最小F0特征(来自数字3),七个最小强度特征 (来自数字1、2、3、5、6、7、0,其中0表示第10位),六个最大-最小强度特征(来自数字2、4、5、7、8、0),四个持续时间特征 (来自数字3、6、7、9),两个相对持续时间特征(来自数字1和5)和三个音高斜率特征(来自数字4、5、7)。 我们对所选位置的给定特征的特征重要性求和,并对表3中的五个交叉验证折叠的求和特征求平均值。
(IS 19)Automatic Detection of Prosodic Focus in American English
选定的特征表明,数字的中位数F0值是最可预测的特征,其后是三个与强度有关的值(中位数,IQR和最大强度)。 唯一的分类变量,校正数字,也很重要,但不如音高或强度高。

6.2. Model performance
表4总结了每个CV fold的模型性能。
(IS 19)Automatic Detection of Prosodic Focus in American English
我们的模型可以在大约92%的时间内正确地对焦点数字进行分类,该数字低于人类的感知(97.2%),但远高于机会水平(10%,十分之一)。 考虑到每个CV折叠只有400个令牌用于训练,我们的模型的性能被认为是很高的。 该模型的性能取决于测试集(即,将演讲者的代币作为测试集显示)从88%到95%。 当测试集是第二位男性说话者产生的代币时,该模型的表现似乎相对较差。 这可能表明该说话人的韵律特征与训练集中的其他说话人不太相似,并且在标注韵律重点时,说话人之间存在差异。 由于我们项目的目标是开发一个韵律焦点的自动检测系统,而不是研究说话人韵律在标记韵律焦点时的变异性,因此我们将这一观察结果留待将来研究。

6.3. Comparison with human perception
在本节中,我们将模型性能与人类感知进行了比较(第5.2节)。 表5显示了听众和我们的模型的纠正重点的混淆矩阵。
(IS 19)Automatic Detection of Prosodic Focus in American English
该模型的性能通常低于人类的感知能力,但是该模型在检测位置6的韵律焦点(人类:96%,机器:100%)和在位置4(人类:93.8%,机器: 94%)。 一般而言,我们的模型在边界位置(例如位置3、6和10)比边界内部位置的性能更好。 这似乎是因为由于最终加长,边界数字比边界内部数字更长,这使得与持续时间相关的特征对于机器学习更加健壮。 但是,与听众相比,该模型在检测第一位数组(NNN-NNN-NNNN)的焦点方面表现不佳,这表明用于校正焦点的韵律特征在第一位数组中可能较弱。