新一代英语口语教学机技术分析

2006年07月19日

The article introduces the third generation of spoken English teaching device and describes its IC structure, system software module,etc.

英语口语的教学和学习一直是中国人在学习英语中的难题。本文回顾了外语口语学习机发展的三个历史阶段。文章详细描述了全新的第三代英语口语教学机所采用芯片的结构,系统软件模块,核心算法模块以及发音质量评价系统。

随着全球经济一体化以及中国开放进程的飞速发展,中国与世界各国交往日益频繁,学习掌握外语,特别是英语已经成为人们生活和工作必不可少之工具。随着学习英语需求的飞速增长,众多语言学校、教学工具、教学方法层出不穷。但口语的教学和学习一直是国人在学习英语中的一个难题,究其原因,主要在于以下两个方面:

1. 汉语发音的特点和英语发音特点有很大差异,使得在母语的深厚影响下学习外语的中国人会犯许多自己很难察觉或根本无法察觉的发音错误。

2. 在国内极度缺乏合格的外语口语教师。即使是大中城市的中小学校也很缺乏自己发音标准并能准确指导口语学习的英语老师。而一般的媒体教学,也只能单方面地进行传授而不能针对学生的特定情况,教师与学生互动地进行口语教学,因而也不能起到很有效的作用。

如果能开发一套针对说汉语的中国人的具有自动口语发音评价功能,并完全模仿老师现场指导的英语口语学习系统,将获得很大社会效益和市场价值。

外语口语学习机发展历史

外语口语学习机的发展分三个阶段:

第一阶段为复读机,从90年代至今,它就是在一台模拟磁带录音机上加上可将一小段语音数字化存储的装置,这一小段语音可以多次重复读出,利于学习者重复听音。近十年来,复读机应用非常普遍,只步步高一个厂就已生产了一千万台以上,其价格在200元人民币上下。

第二阶段为数字化外语学习机。由于全数字化存储,因而可以对单词、句子、课文进行跟读,重读,自发音与标准发音对比等功能,而且检索查询很方便。这一代外语学习机还有一个特点是具有显示汉字和英文的功能,可边放音边显示文字,有利于学习记忆。为了多一个卖点,往往还把MP3集成在一起,这一类学习机有的还可以通过网络下载学习材料。现有的学习机为了节省存储量和成本,音质普遍不理想,由于频带宽度的限制,清辅音的发音模糊不清。近几年这类产品大量出现,其价格为1,000元上下。

第三代外语口语学习机除了第二代的所有功能之外,最为突出的特点是增加了口语发音评测及语音识别等智能语音信号处理功能。在学习过程中,它可以对学生所读单词、句子和课文的发音进行评测打分,指出发音中的错误并指导学生进行纠正,它还可以帮助学生进行口译和情景对话练习。它为学习者营造了一个互动的外语学习条件,模仿老师的现场指导,很大地提高学习效率。

全新的第三代英语口语教学机

清华大学电子工程系通过几年的研究,完成了语音评测、汉语和英语语音识别、单词和课文的快慢读调整、说话人身份认证等一系列计算机辅助语言学习软件的研究,并且在国内首次在教育部组织的大学生计算机外语教学系统中部分应用。现清华大学电子工程系正在将这些外语学习软件嵌入到清华大学与英飞凌公司合作研制的语音处理专用芯片上,研制成高性能低成本的便携式外语口语教学机,并且计划开发一套课件制作工具,协助教学工作者制作外语教学课件,可以通过网络或光盘提供学习者下载应用。这将是中国第一套全新的第三代外语口语教学机和英语口语计算机教学系统。

国外自上世纪九十年代,尤其九十年代末期不断有关于计算机辅助语言口语学习方法的报导和论文发表,如美国的MIT、英国的剑桥大学、日本的京都大学、荷兰的Nijmegen大学、韩国的汉城国立大学和香港地区的香港科技大学等皆不断有论文发表。国外也有应用软件发布,如IBM的Watch Me Read。这款软件面向儿童,可教儿童学习发音、造句；而CMU speech研制的Fluency则可以检查和纠正学习者发音的韵律问题。在嵌入式系统方面,只见到韩国汉城国立大学关于基于ARM7的嵌入式语调质量评价系统的报导。这一报导中只采用了简单的基音变化轨迹作为发音质量的评价,此方法过于简单,因而评价性能有限。

北京凌声芯语音科技有限公司和清华大学电子工程系共同合作,开发了具备语音发音客观评测的学习机产品,该项目同时受到了电子产业基金和北京市科委科技攻关项目的支持。我们对计算机辅助英语口语学习方法已进行了五年的研究,对发音质量的评价方法进行了各种研究,包括音素发音正确的评价；重音、音调及语气发音的评价；母语为汉语学习英语发音的特点研究。这些研究成果于2004年5月已经应用于清华大学出版社推出的大学英语教学软件中,在当前这是独一无二的。此外,我们在语音识别方面的研究已有二十余年,亦走在前列。

凌声芯语音科技有限公司所开发的学习机产品在硬件上采用清华大学和英飞凌公司合作开发的语音处理专用芯片UniSpeech,并且已经将语音识别、语音编解码、语音合成软件都嵌入到此芯片上,无论性能和成本都处于国际先进水平。现在又将口语发音评测软件嵌入到此专用芯片上,因而可以研制出性能高、体积小、耗电少、成本低的学习机。图1是UniSpeech芯片的结构图。

图1:UniSpeech芯片结构图

UniSpeech系列语音处理芯片采用0.18微米工艺生产,其中集成了两个核,一个是16bit定点DSP(OAK)。另一个是8bit微控制器(M8051)。双核之间的通信通过芯片内部的双向FIFO实现。此外,UniSpeech芯片中还集成了2路12bit的ADC和2路11bit的DAC。

整个系统的软件部分包括系统程序、算法程序和应用程序,如图2所示。

图2:系统软件的结构框图

系统程序是整个软件系统的核心,为准实时操作系统,包括硬件驱动和系统调度两部分。硬件驱动是指控制外围器件,读写Flash存储器的数据,处理键盘的按键消息,控制液晶显示屏的显示,向CODEC传送数字语音数据以及控制USB接口实现与PC的USB通讯(用于下载课件和上传用户数据等)。系统调度是指系统程序调用所说的算法程序和所说的应用程序,控制系统的运行流程,实现机器的教学功能。

算法程序包括语音的编解码程序、发音质量的评价程序、语音识别程序(如图3所示),其程序的特点是需处理的数据量大、运算量大。

图3:嵌入式语言学习机的核心算法模块

具体的程序模块包括:提取语音特征；标准发音的播放和语速调节；学习者输入语音的录音、回放、语速调节以及发音质量评价,以及基于语音识别技术的口语对话系统。

凌声芯语音科技有限公司采用了基于重叠调制变换的宽带语音编码技术,语音的频带宽度为50~7kHz,使学习机的放音质量达到了较高的发音品质,完全可以听清楚清辅音的发音,这样的放音音质更利于英语学习。

基于隐含马尔可夫模型的发音质量评价系统借鉴了语音识别中利用置信测度(Confidence Measure, CM)确认识别结果是否可靠的思想,其实现框架如图4所示。

图4:基于HMM的发音质量评价系统框图

假设已知说话人所说的文本内容,需要研究的主要问题包括:语音特征、标准发音模型、背景模型、标准发音网络以及置信分数的构造方法等。语音特征采用Mel频标倒谱系数(MFCC)、基音、短时能量以及语段时长。

标准发音模型和背景模型采用隐含马尔可夫模型(Hidden Markov Models, HMM)。标准发音网络是通过文本分析得到的以标准发音模型为节点的网络,将其与语音特征矢量序列进行强制匹配得到最优匹配路径。通过最优路径和背景模型构造置信分数。最终,通过某种映射函数输出客观发音质量分数。该发音质量评价方法与主观评价的相关性达到了0.78以上。

基于语音识别的口语对话系统按照预先设计的故事脚本引导学习者学习语言知识和发音,例如情景对话、看图识词等。其核心部分是一个高性能的嵌入式英语识别引擎。该引擎使用连续隐含马尔可夫模型,以音素模型为声学模型的基本划分单元,采用了一种高效的两级搜索框架进行识别,通过特征空间压缩和状态模型共享的算法达到了高识别性能、低资源消耗的目的。该语音识别引擎对600词的孤立词识别任务,识别率为95.2%。

应用程序是一个开放式软件平台,解释具体的课件内容。课件需要组织的内容有学习文本、标准发音、标准发音的字幕、为了进行发音质量评价所需的标准发音的网络、预先训练好的标准发音模型以及语音识别的声学模型等。课件的设计包括课件的编排和课件的保存两个方面,课件的编排采取菜单和脚本结合的方式。

这里所说的课件是各级层次结构,处于不同层次的多个菜单和脚本形成一个分叉树结构,脚本必须处于分叉树结构的末端,每一级菜单或脚本编制成一个独立的数据包并被分别独立编号。通过不同的课件设计可以实现丰富的英语学习功能,包括:单词、语句的发音练习(跟读、复读、背诵、组词造句、对读音的评测),模拟课堂教学,情景对话,口语英汉互译,口语测试等。

此外,在系统上还嵌入了G.723、G.729、G.722语音压缩编解码算法,汉语语音合成及说话人认证算法,这些都为口语教学机打下了语音压缩记录、放音、口语翻译练习以及情景对话练习等功能的基础,最终设计成功的机器上可以包括下列功能:1. 单词、语句、课文的标准发音放音；2. 单词、语句的跟读和复读,并对读音评测,指出发声中的错误,发出改正提示；3. 情景对话练习；4. 口语互译练习；5. 口语表达能力测试及打分；6. 发音与中英文同时显示；7. 为了仔细听清标准发音,有快慢读调整功能；8. 具有USB接口,可下载学习课件,也可以将练习和测试结果上传到学习组织者或考评部门(有被考人认证的功能,不可能代考)。

供稿:北京凌声芯语音科技有限公司

标签：新一代英语口语教学机技术分析我要反馈

新一代英语口语教学机技术分析

社区