基于MATLAB的语音识别自动化
基于MATLAB的语音识别自动化[20200419155639]
摘 要
语言是当今社会中交换信息最方便快捷的一种方式,在信息化高度发展的今天,语言作为人类交流的基本工具。随着现代社会的进步,人们的生活水平也在不断提高,因此人们也在追求着更高的目标。例如:能够与机器进行交流,这个交流不仅仅是局限于人们的手工操作,人们希望能够与机器进行直接的沟通,像人与人之间的交流。语音识别技术是语音信号输入到机器,机器将它改为自己可以理解和操作的命令。20世纪90年代以来,IBM的viavocice的商用代表语音识别的新兴技术发展,虽然它能与人进行有逻辑的简单的对话,但是仍然受环境的噪声的干扰,现在它仍然不是很稳定,不能进行可靠的语音识别。
基于MATLAB的强大功能,所以本论文设计就是基于MATLAB环境下完成的。在本文中采用了DTW(Dynamic Time Warping,动态时间弯折)算法,它可以解决输入时每个英文单词或英文词组时,而它们的长度不一的问题, MFCC(Mel-scaled Cepstrum Coefficients,Mel尺度倒谱参数)参数在本论文中主要被用作特征参数提取本论文设计是对输入语音进行处理,再提取特征参数,然后将先前录入的语音建立模板库,最后输入语音通过比对,最后以文字的形式将识别结果输出。
*查看完整论文请 +Q: 3 5 1 9 1 6 0 7 2
关键字:语音识别MATLABDTWMFCC
目录
1、语音识别的概述 1
1.1语音识别的研究背景和意义 1
1.1.1语音识别的定义 1
1.1.2 语音识别的发展历史 1
1.1.3 语音识别技术的应用 2
1.2 语音识别的研究现状 3
1.2.1 语音识别的分类 3
1.3 语音识别的识别方法 5
1.4 本文主要工作 5
2 语音识别的基本原理 6
2.1 语音识别系统框架 6
2.1.1 语音识别系统要求 6
2.1.2 语音识别的构成 6
2.2 语音识别的识别参数 7
2.2.1 线性预测系数 7
2.2.2 线性预测倒谱系数 8
2.2.3 MFCC系数 8
3 基于DTW算法的语音识别系统 11
3.1 DTW算法 11
3.2 语音识别设计方案 13
3.2.1 语音信号的输入模块 13
3.2.2 语音识别的预处理模块 13
3.2.3 特征提取模块 13
3.2.4训练阶段 14
3.2.5 识别阶段 14
4 实验仿真 15
4.1 语音识别的运行环境 15
4.2 实验步骤 15
4.3 结果讨论 20
5 总结与展望 25
参考文献 26
致谢 27
1、语音识别的概述
1.1语音识别的研究背景和意义
1.1.1语音识别的定义
语言是当今社会中交流信息最方便快捷的一种形式,在信息化高度发展的今天,语音识别也成为近年来的一个热门的研究范畴。在整个数字化通信中最至关重要的组成部分之一是将语音的传输至识别的过程用数字化的方法来实现。人们相信在不远的将来,人机交互手段中至关重要的将是语音识别技术,它可以使人们甩掉老式的键盘、鼠标等一些传统的输入设备。
语音识别作为当今社会的热门话题和热门领域,它所涉及到的方面:信号处理、物理、人工智能、通信及信息理论和计算机科学等等。自动语音识别是语音识别的另一种说法,它的最终目标是让人与计算机能够直接“通话”。例如计算机内的二进制编码。而这与说话人识别不同,说话人确认就是尝试去识别或确认发出语音的说话人而非其中所包含的意义。
1.1.2 语音识别的发展历史
语音识别技术主要是利用计算机对语音进行特征提取,最能展现的有效的语音特征的信息可以从中获取,然后我们将对语音的波形进行研究,其中包括波形的幅值等特点,计算机根据这些信息对所要表达的内容或者是说话的人进行身份认证。我们通常把语音识别技术的研究内容可以大致的分为语音提取、特征提取、语音识别、内容分析、内容匹配。
通过语音人们能够直接下达命令,使计算机能够“听懂”,通过语音识别技术与它的合成技术相结合的,自此人们可以扔掉老式键盘,直接下达命令。语音技术在当今社会或以后社会中都将成为一个各方角逐的新兴产业。
能够与机器进行交流,这个交流不仅仅是局限于人们的手工操作,人们希望能够与机器进行直接的沟通,像人与人之间的交流。语音识别技术就是机器把输入的语音信号转变成命令使其能够理解并操作,这是人类长期以来的梦想。现如今语音识别技术被主要分成了三个技术部分:特征提取、模式匹配和模型训练。语音识别技术如今在各个领域都被充分的利用,如:互联网、百度影音等等。人们相信语音识别技术的发展必然为我们今后的人生带来更多的方便快捷。
在1946年之前语音识别的设想就已经被提出来了,语音识别的幼形可以被认为是声码器早期的时候。语音识别器最早被生产出来,是1920年被生产出来的“Radio Rex”,只要有人呼叫这只“Radio Rex”,它就会弹出来。最初的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,10个英文数字能够被识别出来。它的识别方法为跟踪语音中的共振峰。它能够达到98%的正确率。到1950年代末的时候, 语音识别中收入了语法概率,这是被Denes提出来的,他来自英国伦敦学院(University of London)。
60年代的时候,人工神经网络被编制到语音识别中。20世纪60时代的两个最伟大的成就是线性预测编码(LPC)和动态时间弯折(DTW)技术。
语音识别技术中意义最巨大的突破是马尔科夫模型Hidden Markov Model的应用。在Labiner等众人从Baum的数学推理中分析并常期研究下,最终由卡内基梅隆大学的李开复第一次实现了在语音识别系统Sphinx,这是基于隐马尔科夫模型的大词汇量。从那至今,科学家们认为HMM框架仍然在语音识别中被广泛应用。
1.1.3 语音识别技术的应用
从2009年以来,语音识别技术有了日新月异的发展,它的发展是基于机器学习和大数据资料的积攒。
在许多机器的声学模型训练的研究,尝试使用语音识别的研究,在全球科学研究机构领域的RBM预训练的多层神经网络,以此来改善声学模型的精度。研究人员来自微软公司在此获得了前所未有的起色,基于此的深层神经网络模型(DNN),它的错误率大大的降低了,自此20年来,这是语音识别技术最快速的取得的进步。
当前主流的语音识别解码器已被用于解码的有限状态机的网络(WFST),网络能把辞书和语言模型,声音特性集成到统一的一个大的解码网络,大大提高了它的实时应用,如为语音识别提供了基础。
随着互联网应用的迅速普及发展,且移动电话和其他移动终端,目前可以得到大量的来自多个来源的文本或语音库的方面,这是训练语音识别的语言模型和声学模型供应了丰盛的资本来为大型语言模型和声学模型的建造创造了条件。训练数据的匹配和丰富性,这是在语音识别中能升高系统性能最重要因素之一,但目标和主体积累和沉淀的需要长期分析,在大数据时代到来之际,资源积累的大量语料将被提到战略高度。
近来,语音助手、互动工具等类似软件在移动终端上的出现屡见不鲜,这也就表明着语音识别现下成为最为热烈的领域。因此大多数的互联网公司倾巢出动,利用它们强大技术来对语音识别技术进行研究,开发新产品利用这些技术的新颖和方便的方式可以迅速攻下新的一批客户群。在此方面一直是国外苹果的siri为其中的翘楚。而在国内,市场上最为火热的一些产品或多或少的直接或间接的引用了这项技术。
1.2 语音识别的研究现状
1.2.1 语音识别的分类
从语音识别的说话人的讲话方式可分为孤立词识别、连接词识别和连续语音识别。通常情况下孤立词识别用于语音电话拨号系统,每次只能说一个词或短语,在词汇表中这些都看作是一个词条;简单的家用电器一般使用连接词识别,因为它的内部会有一个状态机,这个能够支持小的语法网络。连续语音识别,顾名思义,它是可以识别人们日常生活中的自然发音,所以它可以用作录入语音的听写机。
从识别对象的类型语音识别可以分为:特定人语音识别和非特定人语音识别:由字面意思得知,特定人就是针对特定一个人的语音识别;而非特定人就是不针对一个人,针对多个用户。
从识别系统的词汇量语音识别可以分为小词汇量语音识别系统、中等词汇量的语音识别系统和大词汇量语音识别系统。由字面意思可以得知,小词汇量语音
摘 要
语言是当今社会中交换信息最方便快捷的一种方式,在信息化高度发展的今天,语言作为人类交流的基本工具。随着现代社会的进步,人们的生活水平也在不断提高,因此人们也在追求着更高的目标。例如:能够与机器进行交流,这个交流不仅仅是局限于人们的手工操作,人们希望能够与机器进行直接的沟通,像人与人之间的交流。语音识别技术是语音信号输入到机器,机器将它改为自己可以理解和操作的命令。20世纪90年代以来,IBM的viavocice的商用代表语音识别的新兴技术发展,虽然它能与人进行有逻辑的简单的对话,但是仍然受环境的噪声的干扰,现在它仍然不是很稳定,不能进行可靠的语音识别。
基于MATLAB的强大功能,所以本论文设计就是基于MATLAB环境下完成的。在本文中采用了DTW(Dynamic Time Warping,动态时间弯折)算法,它可以解决输入时每个英文单词或英文词组时,而它们的长度不一的问题, MFCC(Mel-scaled Cepstrum Coefficients,Mel尺度倒谱参数)参数在本论文中主要被用作特征参数提取本论文设计是对输入语音进行处理,再提取特征参数,然后将先前录入的语音建立模板库,最后输入语音通过比对,最后以文字的形式将识别结果输出。
*查看完整论文请 +Q: 3 5 1 9 1 6 0 7 2
关键字:语音识别MATLABDTWMFCC
目录
1、语音识别的概述 1
1.1语音识别的研究背景和意义 1
1.1.1语音识别的定义 1
1.1.2 语音识别的发展历史 1
1.1.3 语音识别技术的应用 2
1.2 语音识别的研究现状 3
1.2.1 语音识别的分类 3
1.3 语音识别的识别方法 5
1.4 本文主要工作 5
2 语音识别的基本原理 6
2.1 语音识别系统框架 6
2.1.1 语音识别系统要求 6
2.1.2 语音识别的构成 6
2.2 语音识别的识别参数 7
2.2.1 线性预测系数 7
2.2.2 线性预测倒谱系数 8
2.2.3 MFCC系数 8
3 基于DTW算法的语音识别系统 11
3.1 DTW算法 11
3.2 语音识别设计方案 13
3.2.1 语音信号的输入模块 13
3.2.2 语音识别的预处理模块 13
3.2.3 特征提取模块 13
3.2.4训练阶段 14
3.2.5 识别阶段 14
4 实验仿真 15
4.1 语音识别的运行环境 15
4.2 实验步骤 15
4.3 结果讨论 20
5 总结与展望 25
参考文献 26
致谢 27
1、语音识别的概述
1.1语音识别的研究背景和意义
1.1.1语音识别的定义
语言是当今社会中交流信息最方便快捷的一种形式,在信息化高度发展的今天,语音识别也成为近年来的一个热门的研究范畴。在整个数字化通信中最至关重要的组成部分之一是将语音的传输至识别的过程用数字化的方法来实现。人们相信在不远的将来,人机交互手段中至关重要的将是语音识别技术,它可以使人们甩掉老式的键盘、鼠标等一些传统的输入设备。
语音识别作为当今社会的热门话题和热门领域,它所涉及到的方面:信号处理、物理、人工智能、通信及信息理论和计算机科学等等。自动语音识别是语音识别的另一种说法,它的最终目标是让人与计算机能够直接“通话”。例如计算机内的二进制编码。而这与说话人识别不同,说话人确认就是尝试去识别或确认发出语音的说话人而非其中所包含的意义。
1.1.2 语音识别的发展历史
语音识别技术主要是利用计算机对语音进行特征提取,最能展现的有效的语音特征的信息可以从中获取,然后我们将对语音的波形进行研究,其中包括波形的幅值等特点,计算机根据这些信息对所要表达的内容或者是说话的人进行身份认证。我们通常把语音识别技术的研究内容可以大致的分为语音提取、特征提取、语音识别、内容分析、内容匹配。
通过语音人们能够直接下达命令,使计算机能够“听懂”,通过语音识别技术与它的合成技术相结合的,自此人们可以扔掉老式键盘,直接下达命令。语音技术在当今社会或以后社会中都将成为一个各方角逐的新兴产业。
能够与机器进行交流,这个交流不仅仅是局限于人们的手工操作,人们希望能够与机器进行直接的沟通,像人与人之间的交流。语音识别技术就是机器把输入的语音信号转变成命令使其能够理解并操作,这是人类长期以来的梦想。现如今语音识别技术被主要分成了三个技术部分:特征提取、模式匹配和模型训练。语音识别技术如今在各个领域都被充分的利用,如:互联网、百度影音等等。人们相信语音识别技术的发展必然为我们今后的人生带来更多的方便快捷。
在1946年之前语音识别的设想就已经被提出来了,语音识别的幼形可以被认为是声码器早期的时候。语音识别器最早被生产出来,是1920年被生产出来的“Radio Rex”,只要有人呼叫这只“Radio Rex”,它就会弹出来。最初的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,10个英文数字能够被识别出来。它的识别方法为跟踪语音中的共振峰。它能够达到98%的正确率。到1950年代末的时候, 语音识别中收入了语法概率,这是被Denes提出来的,他来自英国伦敦学院(University of London)。
60年代的时候,人工神经网络被编制到语音识别中。20世纪60时代的两个最伟大的成就是线性预测编码(LPC)和动态时间弯折(DTW)技术。
语音识别技术中意义最巨大的突破是马尔科夫模型Hidden Markov Model的应用。在Labiner等众人从Baum的数学推理中分析并常期研究下,最终由卡内基梅隆大学的李开复第一次实现了在语音识别系统Sphinx,这是基于隐马尔科夫模型的大词汇量。从那至今,科学家们认为HMM框架仍然在语音识别中被广泛应用。
1.1.3 语音识别技术的应用
从2009年以来,语音识别技术有了日新月异的发展,它的发展是基于机器学习和大数据资料的积攒。
在许多机器的声学模型训练的研究,尝试使用语音识别的研究,在全球科学研究机构领域的RBM预训练的多层神经网络,以此来改善声学模型的精度。研究人员来自微软公司在此获得了前所未有的起色,基于此的深层神经网络模型(DNN),它的错误率大大的降低了,自此20年来,这是语音识别技术最快速的取得的进步。
当前主流的语音识别解码器已被用于解码的有限状态机的网络(WFST),网络能把辞书和语言模型,声音特性集成到统一的一个大的解码网络,大大提高了它的实时应用,如为语音识别提供了基础。
随着互联网应用的迅速普及发展,且移动电话和其他移动终端,目前可以得到大量的来自多个来源的文本或语音库的方面,这是训练语音识别的语言模型和声学模型供应了丰盛的资本来为大型语言模型和声学模型的建造创造了条件。训练数据的匹配和丰富性,这是在语音识别中能升高系统性能最重要因素之一,但目标和主体积累和沉淀的需要长期分析,在大数据时代到来之际,资源积累的大量语料将被提到战略高度。
近来,语音助手、互动工具等类似软件在移动终端上的出现屡见不鲜,这也就表明着语音识别现下成为最为热烈的领域。因此大多数的互联网公司倾巢出动,利用它们强大技术来对语音识别技术进行研究,开发新产品利用这些技术的新颖和方便的方式可以迅速攻下新的一批客户群。在此方面一直是国外苹果的siri为其中的翘楚。而在国内,市场上最为火热的一些产品或多或少的直接或间接的引用了这项技术。
1.2 语音识别的研究现状
1.2.1 语音识别的分类
从语音识别的说话人的讲话方式可分为孤立词识别、连接词识别和连续语音识别。通常情况下孤立词识别用于语音电话拨号系统,每次只能说一个词或短语,在词汇表中这些都看作是一个词条;简单的家用电器一般使用连接词识别,因为它的内部会有一个状态机,这个能够支持小的语法网络。连续语音识别,顾名思义,它是可以识别人们日常生活中的自然发音,所以它可以用作录入语音的听写机。
从识别对象的类型语音识别可以分为:特定人语音识别和非特定人语音识别:由字面意思得知,特定人就是针对特定一个人的语音识别;而非特定人就是不针对一个人,针对多个用户。
从识别系统的词汇量语音识别可以分为小词汇量语音识别系统、中等词汇量的语音识别系统和大词汇量语音识别系统。由字面意思可以得知,小词汇量语音
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jxgc/zdh/4167.html