语音识别系统最多应用到哪些方面
语音识别是不是人工智能?
语音识别是不是人工智能?
语音识别是属于计算机的技术:
语音识别是模式识别的一个分支,属于信号处理科学领域。它还与语音学,语言学,数理统计学和神经生物学学科有着非常密切的关系。另一方面,言语也是人类赖以思考的主要工具。因此,这门科学与认知科学和人工智能领域的研究密不可分,是信息科学研究领域发展最快的领域之一。
语音识别研究的目的是让机器“理解”人类的口语。它包括两个方面:一是逐字理解未翻译成书面语言的单词;另一种是理解口语中包含的要求或查询,并正确回答,而不受所有词语的正确转换的约束。语音识别系统可分为三种类型:孤立词,连接词和连续语音。从客户的角度来看,它可以分为特定的人和非特定的人。也就是说,该系统仅适用于一个用户或可用于任何用户。
语音识别研究始于20世纪50年代初,并开始成为20世纪60年代中期的一个重要课题。如今,随着DTW的引入,HMM的引入,语言模型的建立等,语音识别研究取得了很大进展。自20世纪80年代以来,一些相对简单的语音识别系统已进入商业化阶段。在20世纪90年代,语音识别的主要方向被定义为连续语音,大词汇量,非特定人识别算法和系统开发。到目前为止,以IBM的Via Voice为代表的“听写机”系统已正式投放市场,并逐渐被人们接受。语音识别,语音合成,多媒体等技术的结合将为计算机提供友好的交互模式,为网络技术,计算机应用和普及提供必要的条件。
声识别是根据什么来的?
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。
其工作原理:
动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。
从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。
平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果。
想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的,所以语音识别系统会结合个人身份号码识别或芯片卡。
语音识别系统得益于廉价的硬件设备,大多数的计算机都有声卡和麦克风,也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化,所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率,因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说,系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池