欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 通讯论文 > 基于语音存在概率的语音活动检测方法

基于语音存在概率的语音活动检测方法

日期:2023-01-24 阅读量:0 所属栏目:通讯论文


  【 论文 关键词】语音增强 语音活动检测 语音存在概率

  【论文摘要】首先 总结 了几种常见的语音活动检测(vad)方法,然后从 计算 每帧每个频率点的语音存在概率出发,提出了一种新的vad方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。

  1引言

  日常生活中,人们说话有间隙,有必要对一段语音进行检测,以确定哪些时间上是有语音,哪些时间上没有语音。在语音编码中,语音活动检测(voice activitydetection,vad)用来区分有语音段和无语音段。如果一段时间被判断为无语音段,则不需对其编码。这样可减少信道带宽的占用,使有限的带宽得到合理使用。在语音增强中,vad用来判断一段时间上是否存在语音。如果某段时间内不存在语音,那么这段时间就只有噪声存在,因此可以被用来估计和更新噪声功率谱。在语音增强领域,vad的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计,如果噪声功率谱估计不准确,就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。

  笔者提出了一种新的vad方法,这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。

  2语音存在概率估计

  为进行vad,首先对每帧每个频率点进行语音存在概率估计,该估计大致分为两步:(1)估计是否存在强语音成分;(2)估计语音不存在概率和语音存在概率。含噪语音由纯净语音和噪声叠加而成,所以假设

  y(k,l)=x(k,l)+d(k,l)(1)

  其中,y(k,l)为含噪信号,x(k,l)为纯净语音,d(k,l)

  为噪声,k为某一帧的频率点编号,l为帧编号。

  2.1估计是否存在强语音成分

  含噪语音中某些地方会有明显的语音存在,由于后面估计语音不存在概率需要用到相邻帧的信息,所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断,如果是,那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。

  对于含噪信号,要进行两次平滑,一次是帧内平滑,一次是帧间平滑。首先进行帧内平滑

  

  其中,αs为平滑参数且0<αs<1。然后搜索d帧中各频率点的最小值,即smin(k,l)=min{s(k,l′)|l-d+1≤l′≤l}(4)根据 文献 [1]可找到bmin,满足e{smin(k,l)}=b-1min·λd(k,l)(5)也就是说可通过一个补偿因子bmin估计出当前帧的噪声功率谱。定义

  

  根据γmin和ζ,按照下面的判决准则,判断当前帧是否含有强语音成分

  

  其中,“0”为有强语音存在,“1”为没有强语音存在,γ0=4.6,ζ0=1.67。

  2.2估计语音不存在概率和语音

  存在概率利用前面强语音成分判断的结果,可通过先排除含有强语音成分的频率点,再进行帧内平滑和帧间平滑,最后得到对应于每帧每个频率点的估计量。这个估计量反映了该帧每个频率点上能量情况。如某帧是无语音帧,则其各频率点上的估计量将会较小。再通过对一段区间上搜索最小估计量,将搜索到的结果作为参照标准。当某帧某个频率点的估计量超过参照标准的若干倍时,即判定此处含有语音,否则就不含有语音。首先,利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。先进行帧内平滑

  

   的计算用到了i(k,l),排除了强语音存在的频率点。再进行帧间平滑

  

  然后同前面估计是否存在强语音成分一样,进行区间最小值搜索

  

  定义

   l )=e{d(k,l)2}。由于按照式(13)计算语音存在概率需要估计先验信噪比ξ和后验信噪比γ,如果估计不准确,必然导致vad结果不准确。故这里对此进行简化,直接用1减去q(k,l)作为语音存在概率p(k,l)。

  3利用语音存在概率进行vad

  3.1检测指标计算

估计出语音存在概率后,还不能直接用来进行vad,因为这些概率是针对每一个频率点的,需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察,发现有2项指标可被用来比较准确地辨别出有声段和无声段,分别是

  

  其中,pt为某一帧所有频率点的语音存在概率之和,pe为某一帧上语音存在概率为1的所有频率点个数,m为有频率点数。但是,实验表明,这两个参数虽然总体上可以看出哪些是无声段哪些是有声段,但起伏可能非常剧烈,所以需要进行平滑处理。设定

  

  其中,采用了当前帧前面4帧的数据进行平滑。

  3.2参数设定

  判断是否存在语音主要看式(17)~(18)中2个指标是否超过某个门限。具体为

  

  其中,式(19)~(20)对一段含噪信号最开始一段的2个指标求平均,然后利用式(21)~(22)得到正式的门限;w为每帧有频率点数。其判断结果

  

  其中,“1”为有语音,“0”为无语音。

  4实验结果

为  评价该vad方法的性能,设定如下指标

含噪信号是人工合成的,其中纯净信号来自一段评书,噪声信号取自noisex-92噪声库,包括白噪声、粉红噪声、f16战斗机噪声、沃尔沃汽车噪声、闲聊声和工厂噪声等,信噪比均为6 db。所有指标均与 文献 [3]中的方法对比。含语音帧总数和纯噪声帧总数根据纯净信号人为判定。将文献[3]中的方法称为方法a,本文方法称为方法b。3项指标的 计算 结果列于表1~3。

可看出,在大部分情况下,方法b要优于方法a;但当信噪比降低到一定程度后,方法a要优于方法b。图1给出了背景噪声是白噪声时,2种方法的性能比较。可看出,当输入信噪比大于5 db时,方法b明显优于方法a;但当信噪比降到0 db后,方法a好于方法b。

  5 总结

这  种新的vad方法在信噪较高时,效果非常好。如实验发现,当背景噪声为白噪声,信噪比为18 db时总体准确率可达0.961 8,而文献[3]中的方法只能达到0.831 3。但当信噪比下降到0 db后,新的方法表现不如文献[3]中的方法。另外,在背景噪声为非平稳噪声时,效果也不够理想,有待改进。

   参考 文献

  [1]martin power spectral density estimation basedon optimal smoothing and minimum statistic    [j]. speech and audio processing,2001,9(5):504-512.

[2]cohen spectrum estimation in adverse environment:improved minima controlled recursive averaging[j].ieee speech and audio processing,2003,11(5):466-475.

[3]吴平,谷源涛,崔慧娟.一种稳健的背景噪声监测方法[j].电声技术,2003(11):42-45.

本文链接:http://www.qk112.com/lwfw/jsjlw/txlw/261995.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学