声纹识别,也称说话人识别,就是根据人的声音特征,识别出某段语音是谁说的。声纹识别分为话者辨认和确认。辨认是从有限的话者集合中分辨不同的人,系统性能随着话者集合增大而降低;确认是系统只给出接受或拒绝两种选择。从电视讲话判定说话人,如是否是其本人,就属于确认的过程,它的难度往往更大一些。前面的一些文章中我们介绍了指纹门禁一体机,指纹门禁读头,指纹门禁考勤一体机的工作过程中的指纹匹配的过程,下面我们介绍一下生物识别技术的模式匹配过程。
(1)矢量量化。指纹门禁一体机,指纹门禁读头,指纹门禁考勤一体机嵌入了声纹识别技术,验证准确度将大大提升。
通过把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为标准。其识别精度较高,判断速度较快。
(2)概率统计。
考虑到短时间声音信息相对平稳,通过对稳态特征如基音、声门增益、低对反射系数的统计分析,利用均值、方差等统计量和概率密度函数进行。其优点是不用对特征参量在时域上进行规整,适合文本无关的说话人识别。
(3)动态时间规整。
说话人声音信息既有稳定的因素如发声习惯、发声器官结构,又有时变的因素如请速、语调、重音、韵律等。将识别模板与参考模板进行时间对比,并按照某种距离测定得出两模板间的相似程度。
(4)人工神经网络。
这种分布式并行处理结构的网络模型在某种程度上模拟生物感知特性,具有自组织和自学习能力、很强的复杂分类边界区分能力,及对不*信息的鲁棒性,其性能近似理想的分类器。缺点是训练时间长、动态时间规整能力弱,并且网络规模可能随说话人数目增加到难以训练的程度。
(5)隐马尔可夫模型。
这种基于转移概率和传输概率的随机模型,被美国的IBM公司用于声音识别。它把声音看成由可观察到的符号序列组成的随机过程,该序列是发声系统状恋序列的输出。识别时,为每个说话人建立发声模型.通过训练得到状态转移概率矩阵和符号输出概率矩阵。具体应用时,计算未知声音在状态转移过程中概率,根据概率对应的模型进行。它不需时间规整,可节约的计算时间和存储量。这是目前广泛采用的一种技术,其缺点是训练时的计算量较大。
上一篇:什么是船用电缆
全年征稿/资讯合作
联系邮箱:1271141964@qq.com
免责声明
- 凡本网注明"来源:智能制造网"的所有作品,版权均属于智能制造网,转载请必须注明智能制造网,https://www.gkzhan.com。违反者本网将追究相关法律责任。
- 企业发布的公司新闻、技术文章、资料下载等内容,如涉及侵权、违规遭投诉的,一律由发布企业自行承担责任,本网有权删除内容并追溯责任。
- 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
2025第十一届中国国际机电产品交易会 暨先进制造业博览会
展会城市:合肥市展会时间:2025-09-20