欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 应用电子技术 > 基于H.323协议的音频混合方案设计

基于H.323协议的音频混合方案设计

日期:2023-01-24 阅读量:0 所属栏目:应用电子技术


摘 要:本文根据H.323协议,分析了多点处理单元(MCU)的组成,包括多点控制器(MC)和多点处理器(MP)。并在详细的分析了音频多点处理器后,提出了只对满足条件的m个信道的音频进行音频混合的方案,有效的刻服了现在比较流行的平均调整权重算法的音频混合方案所产生的缺陷和不足,大大提高了系统对音频混合的效果。

关键词:H.323协议;音频混合;设计
近年来,由于网络技术的快速发展为IP网络实现多媒体通信提供了基础条件,IPTV、视频会议、多媒体远程教育等宽带网络应用成为热点。而视频会议在实用化方面取得了迅速的发展,功能也己由原先单纯的电视会议功能发展成远程教学系统、远程监控系统、远程医疗系统等多方面的综合业务。
1、多点控制单元(MCU)
  H.323协议在逻辑上可以分为四个组成实体:终端(Terminal)、网关(Gateway)、网守(Gatekeeper)、多点控制单元(MCU)。
  多点控制单元用于支持三个以上端点设备的会议。在H.323系统中,一个多点控制单元由一个多点控制器(MC)和几个多点处理器(MP)组成,但也可以不包含MP。多点控制器处理终端间的H.245控制信息,从而决定它对视频和音频通常的处理能力。在必要情况下,多点控制器还可以判断哪些视频流和音频流需要多播,以控制会议系统使用的资源。
  视频会议中,在集体讨论和自由发言的情况下,可能会有多个与会者同时发言。为了使每个与会者能同时听到其他所有发言者的声音,采用了音频混合技术。音频混合单元从各个终端取得音频信号,经过混合编码后再发送到各终端。该技术的引入使得各终端在接收多个发言人的音频信号时,在带宽占用和信号处理方面,与接收单一发言人的音频信号相比,不会增加任何额外负担。
  为了实现音频信号混合功能,系统必须具备语音信号编解码和音频码流转换功能。H.323要求所有终端必须支持G.711语音标准,而对G.722,G.728,G.723.1和G.729标准则是可选择的。对于能够提供高速带宽环境的网络,为了保证语音的高质量,可以采用速率较高的编码方式,如G.711, G.722;对于远程接入系统,由于带宽昂贵,则可以采用码率较低的编码方式,如G.723.1。相应地,MCU必须支持以上各种语音编码标准。
  音频混合单元要求输入的各路语音信息属于同一种编码,但实际应用中由于各个终端选用的编码器可能不同,因而发往MCU的音频码流也可能不同。为了解决这个矛盾,必须在混音之前先进行码流转换,将不同的码流转换成同一种编码,再送入音频混合处理单元。
2、音频混合方案设计
  在实际应用中,如果与会人数只有两人,则只要保证通信是全双工的,就可以正常地进行会议,而无须进行混音。如果与会人数超过3人,则需要采用混音或者转发机制。
  转发机制有两种策略:其一,将其他端点的数据都转发给一个端点;其二,按照约定的某种规则选出一路进行转发,也就是常见的“话筒传递”模式。这两种模式虽然可以满足一定层面的需求,但都存在明显的缺陷。前者会增加网络的传输负担和端点的处理负担,后者在多人会议的讨论中有明显的反应慢效果差的缺陷。如果与会者希望能够进行比较频繁的切换发言或者讨论,则会出现明显的断续和切换失效等情况。
  而实时混音则能很好地解决这些问题。实际应用中,一般的混音方案都会采用时域叠加作为基本的处理手段。但是根据前面的分析可知,由于数字音频信号存在量化上限和下限的问题,则因叠加运算肯定会造成结果溢出。通常的处理手段是进行溢出检测,然后再进行饱和运算,即超过上限的结果被置为上限值,超过下限的值置为下限值。这种运算本身破坏了语音信号原有的时域特征,从而引入了噪声。这就是在某些系统中会出现爆破声和语音不连续现象的原因。同时,随着参与混音的人数增加,出现溢出的频率也不断上升,所以这类方法存在一个上限,而且这个上限值很低,实验证明,一般在4个终端参与混音时其结果就有很多噪音和断续,无法分辨语流了。
3、音频混合方案的改进设计
  直接将各路音频流算术相加得到音频混合信号,其优点是简单且易于实现。经测试,在输入语音流少于4路时,能清晰地分辨各路语音信号。但系统仍存在问题。
  在前述方法的基础上稍作改进可得到另一类混音设计方法,即将各路音频码流解码后,先对解码语音信号作一定程度的衰减,再进行算术相加。一般是在各路语音上乘以一个衰减因子1/n,其中n为进入混音器的语音流数目。这种方法能绝对保证相加后的语音信号不会溢出,而且对原算法的修改极少,极易实现。但是它存在的关键问题是,当进入混音器的语音流数较多时,各路语音信号的衰减程度都比较大,混音的结果是所有信号都比较弱,无法突出重点,严重时可能所有声音都听不清楚。
  实现这一改进策略时,仍然是在每个语音通道上绑定一个解码器,负责该路语音的解码,但无需再绑定编码器。系统中最多同时存在m+l个编码器,其中m个分配给m路被选中的语音通道,另一个分配给音频混合信号S,对S编码后的码流发送到所有未被选中的终端和广播终端。由于解码器的运算复杂度远小于编码器,因此系统的计算负荷大大降低。改进后的混音器只选取音量最大的m路进行混音,其余信号被衰减,合理选择m的值,不仅使会议发言重点得以突出,与会者能获得最重要的发言信息,而且一般情况下都不会发生溢出情况。这一改进措施同时解决了前述两种方法所存在的问题和缺陷。
  某个编码器在由一个语音通道转而分配给另一个语音通道时,必须先进行初始化(G.711a/u除外)。必须注意,要尽量减少编码器和语音通道之间对应关系的改变。
4、结束
  本文在研究了H.323协议的基础上,研究了MCU的音频混合模型,并详细阐述了音频混合方案,为了过滤混合时的嘈音和增加临场感,提出了音频混合方案的改进方案。
参考文献:
[1] 陈丽霞,范士勇等。基于H.323视频会议系统及其组成。通信技术。2008.6
[2] 张明德,王永东 视频会议系统原理与应用[M]. 第1版. 北京:北京希望电子出版社,1999.1~49 本文链接:http://www.qk112.com/lwfw/jsjlw/yydzjs/232907.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学