基于H.323协议的音频混合方案设计

日期：2023-01-24 阅读量：0次所属栏目：应用电子技术

摘　要：本文根据H.323协议，分析了多点处理单元（MCU）的组成，包括多点控制器（MC）和多点处理器（MP）。并在详细的分析了音频多点处理器后，提出了只对满足条件的m个信道的音频进行音频混合的方案，有效的刻服了现在比较流行的平均调整权重算法的音频混合方案所产生的缺陷和不足，大大提高了系统对音频混合的效果。

关键词：H.323协议；音频混合；设计
近年来，由于网络技术的快速发展为IP网络实现多媒体通信提供了基础条件，IPTV、视频会议、多媒体远程教育等宽带网络应用成为热点。而视频会议在实用化方面取得了迅速的发展，功能也己由原先单纯的电视会议功能发展成远程教学系统、远程监控系统、远程医疗系统等多方面的综合业务。
1、多点控制单元(MCU)
　　H.323协议在逻辑上可以分为四个组成实体:终端(Terminal)、网关(Gateway)、网守(Gatekeeper)、多点控制单元(MCU)。
　　多点控制单元用于支持三个以上端点设备的会议。在H.323系统中，一个多点控制单元由一个多点控制器(MC)和几个多点处理器(MP)组成，但也可以不包含MP。多点控制器处理终端间的H.245控制信息，从而决定它对视频和音频通常的处理能力。在必要情况下，多点控制器还可以判断哪些视频流和音频流需要多播，以控制会议系统使用的资源。
　　视频会议中，在集体讨论和自由发言的情况下，可能会有多个与会者同时发言。为了使每个与会者能同时听到其他所有发言者的声音，采用了音频混合技术。音频混合单元从各个终端取得音频信号，经过混合编码后再发送到各终端。该技术的引入使得各终端在接收多个发言人的音频信号时，在带宽占用和信号处理方面，与接收单一发言人的音频信号相比，不会增加任何额外负担。
　　为了实现音频信号混合功能，系统必须具备语音信号编解码和音频码流转换功能。H.323要求所有终端必须支持G.711语音标准，而对G.722，G.728，G.723.1和G.729标准则是可选择的。对于能够提供高速带宽环境的网络，为了保证语音的高质量，可以采用速率较高的编码方式，如G.711, G.722;对于远程接入系统，由于带宽昂贵，则可以采用码率较低的编码方式，如G.723.1。相应地，MCU必须支持以上各种语音编码标准。
　　音频混合单元要求输入的各路语音信息属于同一种编码，但实际应用中由于各个终端选用的编码器可能不同，因而发往MCU的音频码流也可能不同。为了解决这个矛盾，必须在混音之前先进行码流转换，将不同的码流转换成同一种编码，再送入音频混合处理单元。
2、音频混合方案设计
　　在实际应用中，如果与会人数只有两人，则只要保证通信是全双工的，就可以正常地进行会议，而无须进行混音。如果与会人数超过3人，则需要采用混音或者转发机制。
　　转发机制有两种策略：其一，将其他端点的数据都转发给一个端点；其二，按照约定的某种规则选出一路进行转发，也就是常见的“话筒传递”模式。这两种模式虽然可以满足一定层面的需求，但都存在明显的缺陷。前者会增加网络的传输负担和端点的处理负担，后者在多人会议的讨论中有明显的反应慢效果差的缺陷。如果与会者希望能够进行比较频繁的切换发言或者讨论，则会出现明显的断续和切换失效等情况。
　　而实时混音则能很好地解决这些问题。实际应用中，一般的混音方案都会采用时域叠加作为基本的处理手段。但是根据前面的分析可知，由于数字音频信号存在量化上限和下限的问题，则因叠加运算肯定会造成结果溢出。通常的处理手段是进行溢出检测，然后再进行饱和运算，即超过上限的结果被置为上限值，超过下限的值置为下限值。这种运算本身破坏了语音信号原有的时域特征，从而引入了噪声。这就是在某些系统中会出现爆破声和语音不连续现象的原因。同时，随着参与混音的人数增加，出现溢出的频率也不断上升，所以这类方法存在一个上限，而且这个上限值很低，实验证明，一般在4个终端参与混音时其结果就有很多噪音和断续，无法分辨语流了。
3、音频混合方案的改进设计
　　直接将各路音频流算术相加得到音频混合信号，其优点是简单且易于实现。经测试，在输入语音流少于4路时，能清晰地分辨各路语音信号。但系统仍存在问题。
　　在前述方法的基础上稍作改进可得到另一类混音设计方法，即将各路音频码流解码后，先对解码语音信号作一定程度的衰减，再进行算术相加。一般是在各路语音上乘以一个衰减因子1/n，其中n为进入混音器的语音流数目。这种方法能绝对保证相加后的语音信号不会溢出，而且对原算法的修改极少，极易实现。但是它存在的关键问题是，当进入混音器的语音流数较多时，各路语音信号的衰减程度都比较大，混音的结果是所有信号都比较弱，无法突出重点，严重时可能所有声音都听不清楚。
　　实现这一改进策略时，仍然是在每个语音通道上绑定一个解码器，负责该路语音的解码，但无需再绑定编码器。系统中最多同时存在m+l个编码器，其中m个分配给m路被选中的语音通道，另一个分配给音频混合信号S，对S编码后的码流发送到所有未被选中的终端和广播终端。由于解码器的运算复杂度远小于编码器，因此系统的计算负荷大大降低。改进后的混音器只选取音量最大的m路进行混音，其余信号被衰减，合理选择m的值，不仅使会议发言重点得以突出，与会者能获得最重要的发言信息，而且一般情况下都不会发生溢出情况。这一改进措施同时解决了前述两种方法所存在的问题和缺陷。
　　某个编码器在由一个语音通道转而分配给另一个语音通道时，必须先进行初始化(G.711a/u除外)。必须注意，要尽量减少编码器和语音通道之间对应关系的改变。
4、结束
　　本文在研究了H.323协议的基础上，研究了MCU的音频混合模型，并详细阐述了音频混合方案，为了过滤混合时的嘈音和增加临场感，提出了音频混合方案的改进方案。
参考文献：
[1] 陈丽霞，范士勇等。基于H.323视频会议系统及其组成。通信技术。2008.6
[2] 张明德，王永东视频会议系统原理与应用[M]. 第1版. 北京:北京希望电子出版社，1999.1~49 本文链接：http://www.qk112.com/lwfw/jsjlw/yydzjs/232907.html

上一篇：一种CDMA系统功率控制新算法

下一篇：浅谈计算机在发电厂对继电保护的作用

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

基于H.323协议的音频混合方案设计

相关文章

期刊推荐

论文中心 更多

应用电子技术排行