语音情感算法的研究与实现

语音情感算法的研究与实现[20191213092249]
摘 要
随着信息技术的高速发展,人类对计算机的依赖性不断增强,因此人机的交互能力越来越受到研究者的重视。然而,传统的语音处理系统只着眼于语音词汇传达的准确性,而忽略了包含在语音信号中的情感因素,让计算机像人一样说出含情感色彩的语音是人们长期追求的目标。因此,本文对情感语音合成技术进行了研究。
本文分析了当今流行的情感语音理论,考察了目前的情感分类方法,结合本课题,我们选取了中性、喜悦和悲伤,生气四种最基本的语气作为研究对象。在实验基础上,对预先录制的中文情感语音做了分析,总结出这四种情感的特征和声学参数表现。
本研究重点介绍了基音同步叠加算法(PSOLA),并在该算法的基础上提出用情感基音模板叠加的方法合成情感语音。该方法以情感基音模板为合成单元,根据合成音节的声调以及情感特征参数的统计规律合成情感语音。在此基础上,构建了情感语音合成系统,与传统的合成方法相比,合成的语音音质清晰,更富有情感色彩,而且方法简单,提高了人机交互的能力。
 查看完整论文请+Q: 351916072 
关键字:的强度,音调,时长等声学参数。这样所有的映射就是复杂的,而且相同情感在表达强烈程度的不同会带来的声学参数波动,最终致使情感规则的总结复杂而且有难度。
目录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 课题的研究背景及意义 1
1.2情感语音合成的技术难度与挑战 2
1.3 情感语音合成 3
1.3.1 语音合成 3
1.3.2 情感语音计算 5
1.4本文研究的主要内容和结构 6
第二章 情感语音与语音的情感理论 8
2.1 语音的情感特征 8
2.2分析情感语音的声学特征 9
2.2.1听者实验 9
2.2.2 情感语音的频谱参数和韵律特征 10
2.3 语音情感的定义与交流 12
2.4 语音情感的分类 13
2.5 本章小结 15
第三章 情感语音的基频模型与参数提取 16
3.1 完善韵律模型 16
3.2 基频模型 17
3.3 基频的研究 18
3.3.1 基频提取的研究难点 18
3.3.2 研究算法的选择 19
3.4 情感语音参数提取 19
3.4.1 基频 19
3.4.2 时长 23
3.4.3 强度 23
3.4.4 其他语音波形 24
3.5 本章小结 25
第四章 情感语音算法研究与实现 26
4.1 PSOLA(基音同步叠加算法)算法介绍 26
4.2 基于情感基音叠加的情感语音的合成 30
4.2.1 语音合成系统的架构 30
4.2.2 情感语音合成系统中声调函数的建立 32
4.2.3 情感语音合成系统中韵律参数的赋值 34
4.3 本章小结 36
第五章 情感语音合成系统实现与性能分析 37
5.1 语音合成系统 37
5.1.1 语音合成系统流程图 37
5.1.2 语音合成系统的功能模块 38
5.1.3 演示及实验结果 39
5.2 系统性能评价 40
5.3 本章小结 42
第六章 总结与展望 44
致谢 46
参考文献 47
附录 50
第一章 绪论
1.1 课题的研究背景及意义
在人们的日常生活和工作中,计算机发挥的作用越来越大,人类迫切的希望能够用一种很自然的,相当于人与人之间交互的方式与计算机进行交流,因此语音合成技术获得了很大范围的应用。而人类说话的语言中不仅包含了文字符号信息,而且也包含了人们的情感和情绪的变化。所谓的“听话听音”,同一句话,往往由于说话人的感情不同,那么它的意思和给听者的印象就会不同。而人类在用语音进行交流时,传达的不仅是说话内容的本身,透过说话的语气察觉到的说话人的情感也是把握说话人真实意思的重要途径。
目前语音合成技术广泛应用于文本阅读,信息发布系统,语音邮件,程序运行提示,计算机辅助教学等相关领域,给人们的现代生活带来极大的便利,同时孕育着庞大的产业规模,体现了巨大的经济效益和社会效益。推动语音合成技术向更高的目标迈进的是持续增长的市场需求,当前几乎所有知名的IT公司和许多国内著名的研究机构都在从事该技术的更进一步的研究和开发。语音合成技术和情感计算等其他的新技术相结合,为语音合成技术的发展开辟了新的方向,促进了语音合成技术在更为广泛的范围内的推动和应用。
近年来,在自然语音处理,信号处理,随机过程处理等方法的推动下,语音合成技术获得了很大的发展。而借助情感计算的概念,通过分析携带已知情感状态的语音,提取关键特征的表现规律,总结出一系列的规则,再把体现语音情感的规则应用到语音合成过程中去,实现最终合成的语音蕴含丰富的语音变化,使合成的语音具有感情色彩。这样语音合成系统的输出语音富含情感,就能够很自然的模拟人的语气和情感,这样自然度提高的同时,也可以极大的增加合成语音的友好度。而情感语音合成能够打破目前语音合成应用的瓶颈,响应市场对语音合成技术的需求。
从语音信号中提取情感特征,分析人的感情与语音信号的关联,将情感特征应用于语音合成方面的研究,是该领域近几年刚刚兴起的研究课题。情感语音合成研究是结合情感计算和语音合成这两大关键技术的综合性研究领域,其中语音合成的研究较为成熟,而情感计算是相对年轻的研究领域。
1.2情感语音合成的技术难度与挑战
自然度在语音合成的研究中是人们最为关心的问题之一。由于人们对语音合成的要求越来越高,仅仅是能够可懂的语音似乎已经不能满足人们的需求了,而高自然度的声音成为日后发展的必然趋势。而人类的感情色彩较为丰富,不同的感情会用不同的声音以及情绪表示出来。因此,人们在研究语音的时候,常常会因为不了解其中的声调或者情绪而产生判断出错的情况产生。
从上述可以看出,合成出更加接近于人声的声音成为一种必然的趋势。而这种趋势在很大程度上取决于人们对合成后的语音的自然度,连贯度,可懂度等的满意程度。
而我们遇到的情感语音合成的技术挑战是什么呢?目前,情感语音方面的研究不是很成熟,而我们研究的课题本身也是一个结合了心理学,语音学,计算机科学与技术和语言学等多门学科的交叉领域,合成技术的选择范围尚小,还有很多问题没有弄清楚。主要体现在以下几个方面:
1)人们对情感理论的研究本身具有主观性及滞后性,有待完善
人类的情感本身具有一定的主观性。如一句话,除非说话者能特别留意或者有意强调,单单从听到的语音上判断,不同的听话者可能会得出不同的情感结论。这一点,本文在研究中的听者测试实验中得到反复的证实。我们可以笼统地说人类的感情有兴奋,中性,生气等等,但是这些情感的表达方式是不是人类情感的最终分类呢?对这些情感分类应采取什么样的分类标准与尺度呢?而我们遇到的不同的情感之间又有什么联系呢?我们怎么针对确定的某个人恰如其分的表达我们的情感?在这些有关情感的基本理论问题没有得到清楚的阐述之前,情感语音的合成必定会受到理论上的限制。
2)本文研究的情感规则本身具有模糊性
3)情感语音库的建立难度较大
本文研究的无论是对目标情感的语音进行分析,还是通过波形拼接法直接合成情感的语音,都要求有现成的情感语音库。而我们在拼接合成时,考虑到对文本单元的覆盖度,必须要有一个强大的情感语音库。这是对情感语音合成的量的要求。当然,研究必须有质的要求。本文需要的情感语音库必须是来自同一个声源,这样才能有效的保障波形拼接时的连续性和分析时的可比性。我们可以预见,这样大的一个语音库让同一个发声者完成的话需要多么大的工作量。当然,情感表达的正确与否都将直接影响到波形拼接合成出语音的效果。查看相关文献中常用的方法是诱导法,给本文邀请的发声者讲些故事或者让他们观看相同的视频节目,加快他们的心态与情绪的调整。也就是说,情感表达有较多的随机因素。
4)评价方式的主观性与不确定性
本文研究的情感语音合成最终目的是服务于人,是让人的听觉感知的。因此,本文用的最普遍的评价方法就是听者测试法。找大量人来试听本文合成出的情感语音,让他们对我们合成的情感语音的清晰度,自然度以及情感表达的合理程度进行打分,最后得出平均结果。而这样做的话存在几个问题:一是听者主观态度的不确定性,不同的心理状态下听者对情感的判断也会不同;二是本文的实验条件和自然条件的不一致性,试验中试听者是有心理准备的或者说是刻意的进行判断的,而情感合成技术应用到实际中后面对的是自然条件下的情感判断,这两者之间存在的不一致性;三是组织这样的人力投资和时间投资。
1.3 情感语音合成
1.3.1 语音合成
情感语音合成属于语音的规则合成,包含两个方面的内容,即合成技术的选择和合成规则的制定[1]。可见,情感语音的合成问题首先是一个语音合成的问题,之后就是结合情感计算的语音合成问题,因此要讨论情感语音合成就必须先从语音合成谈起。
语音合成技术,也叫文语转换技术(TTS),它解决的主要问题是如何将文字信息转化为人类可以听的声音信息。和语音识别技术相比,语音合成技术相对来说成熟一些,并已开始向产业化方向成功迈进。此技术主要包括两个部分,如图1.1所示。一为文本分析,主要是利用语言学的知识及规则对文本进行规整,切分,语义语法分析,使其最终转化为字或者词等语音合成的基本单元和发音提示。二为语音的波形产生,主要是利用上一步得到的合成单元及发音提示实现字或者词的语音转化。由此可以看出,一个语音合成系统涉及到声学,计算机科学与技术,语言学,心理学等多门学科。
图1.1 TTS系统的基本框图
语音产生系统可以分为三部分:激励部分,声道部分以及辐射部分。语音信号产生的数学模型是三个子模型:激励模型,声道模型和辐射模型。如图1.2 所示。
图1.2 语音信号的产生模型
语音合成便是对输入的文字信息按照语言学的规律进行分析,分段标记后。按声学规则将文字转换成语音信号的输出,也就是说让计算机读出文字信息,让人们通过“听”计算机的语音就可以明白我们信息的内容。其系统框图如图1.3所示。
图1.3 语音合成系统示意图
可见,语音合成研究内容包括几个部分:(1)文本分析。分析我们输入的文本,根据上下文关系在一定程度上对文本进行语义理解,从而给出文字的发音以及根据语法结构确定那些音长,停顿等参数;(2)韵律控制。研究字音转换中的声调,语气,停顿,音长的韵律参数的控制方法;(3)字音转换。在韵律控制下采用一定的方法将文字对应的发音生成通顺的语音句子。
1.3.2 情感语音计算
美国MIT大学媒体实验室Picard教授给出了定义[3]:情感计算是关于,产生于、或故意影响情感方面的计算。
研究结果显示,情感计算可以分两部分内容:一是从生理学的角度出发,通过各种测量手段检测人体的各种生理参数,如心跳,脉搏,脑电波等并以此为根据来计算人体的情感状态;二是从心理学的角度出发,通过各种传感器接受并处理环境的信息,并以此来计算算法宿主所处的情感状态。
为了形象的说明情感计算所描述以及表达的内容,我们举了三个实例:
1)计算机游戏与娱乐系统
计算机需要情感表达的应用之一就是计算机游戏与娱乐系统。目前我们接触的计算机游戏机不具备此能力,因此很大程度上降低了人们的娱乐兴趣。可以预见,未来的计算机游戏以及我们的娱乐系统都应该增加赋予感情色彩的情感行为。
2)智能便携式个人身体保健与监护系统
这是一个典型的可穿戴式的计算机系统。除了计算机外,还包括接触式情感信号采集装置。研究者是通过穿戴者的心率,血压,呼吸,体温,皮肤电等信号,判断出穿戴着的情感状态,可以为穿戴着记录相关的状态数据,提出保健的建议或者可以发布健康警报。该系统穿戴着可以包括对食物或者环境过敏者等。其中的情感状态具有个人属性,根据个人的情感的动态特征,使计算机正确判断并且做出最适宜的反应。
3)司机安全行车的智能监控系统
此系统采用非接触式的情感信号采集装置,如图像与语音信号。图像信号可用于检测司机的面部表情的睡意,或者根据每分钟眨眼的次数判断。而我们用的语音信号可以用于识别司机回答问题的语言迟钝型,如语音速度、音量强度、音调变化、噪音质量、发音的清晰度等。我们以司机的主动性或者被动式的反应性为特定考察的情感状态,可以提醒司机安全行车。
而这三个例子足以说明情感计算的主要研究的内容,反映了情感计算的概念。
1.4本文研究的主要内容和结构
综上所述,语音合成技术经过了几十年的发展已经在很多方面得到了广泛的应用。其中的TTS系统的研究,已经达到了商用化的水平。但是目前合成的语音缺乏语速,语调和重音等的韵律特征的丰富化的变化,所以听者听起来比较单调乏味,忽略了包含在语音信号中的情感因素,不能模拟人类的自然情感。随着语音合成技术越来越多的应用到生活中,人们对语音合成的质量也提出了更高的要求,情感语音的合成也适应了语音技术的发展趋势。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/2258.html

好棒文