网站首页 > 论文范文 > 教育论文 > 学前教育 > 语音自动断句及外语视听教学资源的同步整合

语音自动断句及外语视听教学资源的同步整合

日期：2023-01-24 阅读量：0次所属栏目：学前教育

　　中图分类号：TP319 文献标志码：A 文章编号：1006-8228（2014）06-04-04

　　0 引言

　　外语教学具有很强的实践性，要获得好的教学效果，学生须经常进行反复的视听训练，训练元素可以是单句、段落或意群。然而，无论是传统的录音/录像带，还是当前的数字化音像制品，要迅速精确地选定训练元素（如：句段），单靠人工操作是一件很困难的事情。

　　此外，有效的视听训练不仅需要生动的音视频资源，还需要内容丰富的文本资源（如中外文字幕、生词注释、句段讲解、背景知识等），以及经科学整合而形成的一个声（像）文一体、同步可控、操作便捷的语言训练环境。

　　总之，实现句段的精准定位和视听资源的科学整合，是有效改善视听教学的两个重要条件。语音自动断句则是实现这两个重要条件的关键技术，是高效率地进行复读、跟读、听抄、会话等多种语言训练的技术基础。

　　1 外语教学资源概述

　　“教学资源已成为影响课程教学质量的一个制约因素，教学资源建设不仅需要媒体资源的数量，更需质量[1]。”外语教学资源是实施外语教学的重要元素，特别是视听资源，它在整个语言学习过程中起着至关重要的作用。丰富生动的高质量音视频资源，可为学生提供一个最真实，最具趣味性的语言环境，通过视、听、说、读等全方位的综合训练，使各种语言感官同时受到刺激，进而取得良好的教学效果。

　　1.1 外语教学资源的类型

　　从广义角度来说，教学资源是实施教学所需的包括人力资源、教材资源、环境设备资源、教学信息资源等在内的各种软件和硬件资源，比如：教学场地、教学设备、教育制度、师资、教法、教材、课件、参考资料等。

　　本文所说的外语教学资源，主要指教学课件、教学素材及教学平台等软件资源，从媒介形式上分，有音频、视频和文本等。

　　⑴ 音频资源

　　语言本身是通过声音来传递的，因此音频资源是外语教学中普遍使用的、最基本的教学资源。传统的音频资源是以录音带为载体的模拟信息，目前已不能满足现代外语教学的需要；而现代的音频资源则是以光盘、磁盘或网络为载体的数字化信息，它在外语教学中越来越表现出明显优势和不可替代性。

　　⑵ 视频资源

　　视频是声像一体的教学资源（如电影、教学片等），它在外语教学中是不可或缺的。认知心理学的研究结果表明，人的一生中所掌握的信息有94%是通过视觉和听觉获得的，其中88%通过视觉，12%通过听觉[2]。可见，如果能够充分利用视频资源进行生动、形象的外语教学，使各语言感官同时受到刺激，学生会有身临其境的感觉，学习效率和教学效果将得到明显提高。

　　⑶ 文本资源

　　文本（如字幕、生词注释、句段讲解及背景知识等）探讨最基本的外语视听教学资源，它能精准地表达语言本意，可描述任何语法现象和语篇细节，这是音像资源所不及的。尽管有越来越多新型的教学媒体和资源产生，但文字资源始终占有重要地位，是其他资源无法替代的。一九八一年三月十六日，被美国媒体称为“打破寂静的日子”的首部字幕电视剧播出，从此，失聪及听觉有障碍的观众便可以通过字幕来欣赏电视节目了[3]。这充分表明，字幕就是一种很好的教学资源，具有较强的学习功效。充分发挥文本资源的优势，将其与音视频资源进行有机结合，可使外语教学获得良好的效果。

　　1.2 教学资源的开发现状

　　目前，随着网络与多媒体技术的发展，人们可通过多种途径轻易获得各式各样的外语视听素材，如：录音、录像、讲座、教学片及相关文本素材。但由于多种因素的制约，这些素材还远未发挥出其应有的作用，还存在着如下几个问题。

　　⑴ 自动化程度低

　　学好外语要靠大量反复的听、说、读、写训练。这有赖于操作简单、自动化程度高的视听资源的支持。学生要反复进行某一句段的训练时，希望视听环境能提供迅速精准的句段定位功能，只需轻点一下鼠标即可如愿，以利于实现强化训练。然而，经笔者进行大量的调查统计发现，目前97%以上的教学资源不具备这些功能，自动化程度极低。比如，音视频文件一般都未进行句段标识和断句处理，直接导致句段查找与精确定位的困难，以及学习效率的低下。分析其原因，主要是目前能够提供自动断句功能的软件很少，只有Aboboo、RepeatPlayer、EditLrc等为数不多的几个，且自动断句及资源整合功能大多较弱；而手工断句的工作量大，开发效率低，极大影响了外语教师对教学资源开发的热情。

　　⑵ 整合度差

　　外语视听教学资源涉及到音频、视频、文本等多种形式和多项元素。各元素须经过科学整合才能形成一套完备实用的教学资源或教学系统。并且，“一个好的视听教学系统，必须考虑对上述教学元素的同步控制，使其在视音频信息流动的同时自动定位或展示其他教学元素。这样，受训者随时都能受到多角度、全方位的训练，也能极大提高训练效率和教学效果[4]。”然而，目前相当一部分视听素材都是从网上下载的，缺乏科学整合，音视频与文本素材相互脱节、杂乱无序、系统化程度较低，如直接使用，则难以收到良好的教学效果。

　　造成外语教学资源整合度差的原因主要有：①资源类型较复杂，既有文本又有音视频，整合难度大；②资源的开发整合技术较复杂，涉及计算机、多媒体、网络及教育技术等，较适用的开发平台不多。

　　⑶ 通用性不强

　　目前，很多外语视听教学资源的开发都是外语教师自发进行的，既没有明确的标准，又缺乏技术人员的支持，开发工作不少还停留在较初级阶段；开发的资源不具有较强的规范性、适应性和共享性，难以进行交流和推广，重复开发现象比较普遍。　　2 语音自动断句技术

　　语音自动断句是开发具有较高自动化程度的外语视听教学资源的关键技术。采用该技术可对音视频资源进行语音句段的自动分割，有利于提高外语视听教学资源的整合水平。下面介绍语音断句的概念、基本算法以及自动断句的实现方法。

　　2.1 语音断句的概念

　　语音断句，就是对数字音视频素材的语音信号以句段为单位进行切分处理。语音断句是通过形成一组句段标识数据而实现的对音视频文件进行的逻辑分割。这组标识数据用来标识一整段音频（或视频）中每个句段的起止位置，进而在程序的控制下，实现播放句段的灵活选择。

　　语音自动断句，实质上就是通过程序设计的方法来自动获得各句段的标识数据。这有利于学习者和课件制作者能够专注他们的教学活动。

　　语音自动断句是进行视听资源整合的基础，其自动化程度，直接关系到外语视听教学的训练效率、训练强度和学习效果，也决定着相关教学课件的开发水平。

　　2.2 语音断句的相关算法

　　目前，语音断句技术所涉及的主要算法有：基于隐形马尔科夫模型（HMM）方法、基于动态时间伸缩（DTW）方法、基于小波变换（wavelet transform）方法，以及基于粒计算（granular computing）方法等。

　　由于音视频样本中声音信号的复杂性，尽管语音断句的研究工作已有较长历史，并取得了很大成绩，但仍面临许多困难，如：算法的适应性较差、强背景噪音下分段困难、一些能量较低的爆破音和鼻音难以判断等。要克服这些困难，需对现有方法进行详细研究和比较，再辅以其他手段并施加一定的人工干预（比如，人工判断背景噪音等情况并设置相关语音参数）。

　　笔者在编程实践中，自动断句的语音参数主要采用背景噪音、句间停顿、最短句长、允许杂音数等四个。通过改变它们的设定值，可灵活寻找句间停顿，并收集断点信息，能有效提高断句的精度。这四个参数的意义如下（如图1所示）。

　　⑴ 背景噪音：小于该值的样本算做静音，设定值越大，切分出的句段越多。

　　⑵ 句间停顿：大于该值的停顿才算句段，设定值越大，切分出的句段越少。

　　⑶ 最短句长：大于该值的非静音采样才被认定为句段，设定值越大，切分出的句段越少。

　　⑷ 允许杂音数：句间停顿允许存在的杂音数，设定值越大，切分出的句段越多。

　　2.3 自动断句的实现方法

　　考虑到语言训练重复性强的特点以及与其他资源整合的需求，我们采用将音视频中的句段起止时间记录于媒体播放器外挂文件的方法，来实现逻辑上的语音断句。外挂文件有多种，我们开发的FLAVS针对的是lrc文件。

　　⑴ lrc文件的作用与结构

　　对于lrc文件，经常听音乐的朋友一定不陌生，它记录的是音视频文件中各句段的起始时间和同步歌词（或字幕），其作用就是为自动断句程序提供断点数据，为视听资源的整合提供同步数据。基于此，我们就可以设计程序，通过外挂文件来控制音视频文件的播放进度，进而实现语音自动断句。

　　外挂文件的文件名一般与相应的音视频文件相同，其扩展名则决定于外挂文件的类型，如lrc外挂文件的扩展名为“.lrc”。lrc外挂文件的结构如下：

　　上述文件中的前4行是通用信息，不是我们关注的重点。第5行以后的内容是文件的主体，每行都由“时间”和“文本”这两个字段组成。其中，[ ]中的内容是时间字段，表示当前句段的开始时间，格式为“HH：MM：SS.mmm”，若时间小于60分钟，则表示为“MM：SS.mmm”；[ ]后的内容是文本字段，是本句段的同步显示文本，可设置歌词（或中外文字幕）、生词注释、句段注解等。

　　⑵ 断句的实现

　　实现语音自动断句需做两个方面的工作：一是准确采集音视频样本中各句段的时间轴（即时间字段）数据，并将其写入lrc文件；二是根据时间轴，来控制播放指针的启停位置。这里的关键是如何准确采集时间轴数据。

　　为此，我们在FLAVS早期版本的基础上，为其增加了语音自动断句功能，形成了FLAVS（v3.2）。程序中对时间字段的采集主要采用上述基于语音参数的断句算法，并设置了“背景噪音”、“时间停顿”、“最短句长”和“允许杂音数”等4个调节钮（如图2所示）。当各参数值调节到满意效果时，程序自动对音视频样本中各句段的起止时间进行采集，并写入一个与音视频文件同名的lrc文件中，进而可实现语音自动断句。

　　下面是使用FLAVS（v3.2版）进行语音断句的操作过程：

　　① 先通过“打开”按钮打开要断句的音视频文件（如The_Sound_of_Music.avi）；

　　② 再通过“断句”按钮进入断句参数调整窗口，来调节“背景噪音”、“句间停顿”、“最短句长”、“允许杂音数”等参数（见图2）；

　　③ 最后按“保存”按钮即可自动生成一个与音视频文件同名的包含时间字段的句段切分文件The_Sound_of_Music.lrc，并将句段切分情况显示于句段编辑面板中，如图3所示。

　　从位于图3下半部的句段编辑控制板中可以看出，经FLAVS（v3.2）的断句处理后，影片《The Sound of Music》的所有句段已全部被自动切分。之后，学习者只需轻轻点击句段编辑控制板中的某个句段，播放指针便会迅速准确地自动指向该句段的开始，以利于反复进行视听训练。

　　3 视听资源的同步整合

　　前面我们对视听资源之一的音视频样本进行了断句处理，为句段的快速选择和精准定位提供了必要条件。然而，要全面有效地提升学生的外语实践能力，仅有音视频资源是不够的，还需扩展和提供中外文字幕、生词注释、句段注解、背景知识等文本资源，并实现声文资源的同步联动，使之形成一个句段选择精准、声（像）文一体、融合度高的资源结构体。　　3.1 何谓同步整合

　　所谓“同步”，是指音视频资源与相关文本资源（如字幕、生词注释、句段讲解、背景知识等）在播放与展示时间上的吻合，即：在音视频文件的播放过程中，相应的文字信息以句段时长为切换节点而进行的同时展示。

　　所谓“同步整合”，则是指对视听教学中需要同时展示的相关资源所进行的同步设置和有机融合，实现对音视频资源与文本资源的联动和灵活控制。

　　“混合性、整合性、技术性是屏性媒介具备的重要的视觉特质”[5]，在传统的音像作品中，有的嵌入了歌词或字幕，这勉强也算是一种同步整合，但不是真正意义的整合。真正的资源整合，是各种资源的表现方式不是呆板的、固定的，而是既相互关联又灵活可控的。这种灵活可控性（以字幕为例，其他资源类同）主要表现在：字幕的出现时机和文种变化，应由学习者根据学习进度来自主选择，自由控制。

　　此外，在外语视听训练的不同阶段，字幕及文种变化，对学习效果的影响是确定的。调查统计表明：在训练的初始阶段，外文字幕的同步展示有助于“听清”，即听清楚每个句段的正确发音；在训练的中级阶段，中文字幕的同步展示有助于“听懂”，即听懂每个句段的真正含义；在训练的高级阶段，字幕的隐藏有助于“听熟”，即听说能力的加强、巩固和熟练。

　　3.2 同步整合方法

　　视听资源的同步整合需在自动断句的基础上，通过程序设计的方法进行。

　　⑴ 程序设计思想

　　同步整合的实质是以lrc文件中的每个句段为单位，将各文本字段写入相应的时间字段之后，并控制其内容（如字幕、生词注释、句段注解等）跟随音视频的播放进度，在时间轴指示的节点上得到同步展示。

　　FLAVS（v3.2）系统就是依照上述设计思想而开发的。该系统具有整合效率高、性能稳定、资源灵活、操作简单等特点，既适于音频文件，又适于视频文件，还可将外文字幕、中文字幕以及句段注解等内容分类录入。

　　由于lrc文件是很多播放器共同知识的外挂文件，所以采用这种思想整合的视听资源具有很强的规范性和通用性。

　　⑵ 同步整合的具体实现

　　在完成断句的基础上进行视听资源的同步整合，其主要任务有两个：一是向lrc文件布局各句段的文本字段；二是控制相关资源的同步展示。后一项任务完全由程序自动完成，只有前一项任务需要人工干预和手工录入。

　　具有资源整合功能的软件有Aboboo、EditLrc、EnMp3Player及FLAVS（v3.2）等，建议优先选择FLAVS（v3.2）。

　　使用FLAVS（v3.2）进行资源的同步整合，可在如图4所示的听抄窗口中进行，以句段为单元将各类文本分别输入相应文本框，待所有句段都输入完毕，按“确认退出”按钮保存。

　　实现视听资源同步整合的前一项任务，还可不通过纯手工的方法完成。该方法不需要专门的软件，而是使用任何一种普通文本编辑器（如Windows系统自带的“记事本”）直接对lrc文件进行编辑，将需要同步的字幕、生词注释、句段注解等文本资料录至相应的时间字段后。使用该方法，要注意“|”和“^”这两个字符的使用，因为FLAVS（v3.2）使用这两个特殊字符对lrc文件进行了兼容性扩展，其中“|”用于分割外文字幕和中文字幕，“^”用于分割中文字幕和注解。比如，图4中的句段内容在lrc文件中表示为：

　　4 结束语

　　对于外语教学，其实践性强的特点决定了受训者只有进行多角度、全方位、不间断的语言训练才能提高训练效率和学习效果。这在客观上要求外语教学必须有内容丰富、通用性强、整合性好、自动化程度高、训练效果明显的视听资源作支撑。而语音自动断句技术，则是进行外语视听教学资源同步整合的基础，也决定着数字化外语教学课件的开发质量。尽管外语教学资源建设还存在着语义识别困难、语音背景噪音复杂等多种问题，但随着计算机、多媒体等技术的不断发展和进步，相信这些问题会逐步得到解决。

本文链接：http://www.qk112.com/lwfw/jiaoyulunwen/xueqianjiaoyu/236839.html

上一篇：CAN总线仿真环境的构建及在教学中的应用

下一篇：浅析现代信息技术与语文教学的整合

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

语音自动断句及外语视听教学资源的同步整合

相关文章

期刊推荐

论文中心 更多

学前教育排行