当前位置: 首页 > 语言文字办公室 > 语文生活

语音信息处理产业发展概况

时间:2014-11-03         来源:北京市语言文字办公室
分享:

  郭婷 李艳

  当你发送微信语音消息时,所发送的声音和真实声音是不是很接近?如果没有输入法我们将怎样输入文字?你有没有数过每天点击搜索引擎多少次?其实,这些日常生活工作中所习以为常的方方面面,都和语言文字信息处理产业有关。

  语言文字信息处理产业,是指设计、开发、生产语言文字信息处理产品的产业,其以语言文字和语言文字所负载的信息作为加工对象,满足和引导市场对语言文字信息处理产品的需求。

  目前,语言文字信息处理产品主要涉及语音识别、语音合成、键盘输入、文字识别、字库字形、电子排版、搜索引擎等方面。结合市场发展现状和学术界的已有研究,语言文字信息处理产业又可分为语音信息处理和文字信息处理。语音信息处理是语言信息处理技术在实现智能化方面的一个重大挑战,其技术市场领域历来被国内外科学界和产业界所关注。

  一、语音信息处理产品类型

  语音信息处理产品包括语音合成产品和语音识别产品两大类:

  1.语音合成

  语音合成系统又可分为:(1)有限词语的编辑合成系统。有限词语的编辑合成系统以语句、短语、词或音节为合成单元,将某一人发的数量有限的语词录音后进行数字化编码,组成一个合成语音库,使用时从语音库中提取一个个的单元数据编辑在一起,经解码后还原成语音。典型的编辑合成系统是自动报站系统,另外还有自动拨号、报时和报警系统等。(2)无限词语的规则合成系统。规则合成系统的语音库中所存的是较小的语音单位( 如音素、双音素、半音节或音节) 在声学上的合成参数。每一语音单位的音色、音高、音强和音长由代码表示并利用规则对合成参数进行修改和调节,而后由语音合成器合成出连续的语句来。可见,规则合成系统的开发紧密地依赖于语音学的研究。

  2.语音识别

  如果说语音合成技术是要让机器“说话”的话,那么语音识别技术就是要机器“听懂”人说的话。由于每个人语音的各要素的参数都存在很大差别,即使是同一个人的发音也存在着音变的情况。而且,即便是机器正确地识别了人的语音,对于人类自然语言的正确理解也需要解决。

  同时,机器在识别人的声音时,还会受到周围环境嘈杂度的影响。因此,语音识别技术的研究发展成为语音技术界和产业界棘手而迫切的问题。上世纪80 年代,我国的语音识别技术已经开始走向应用。语音识别技术产品开发主要有两个方向:

  一是大词汇量连续语音识别系统的开发,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另一重要的方向是小型化、便携式语音产品的应用,如手机拨号、汽车设备的语音控制、智能玩具、家电遥控等应用,这些应用系统大都使用专门的硬件系统实现。

  二、语音信息处理产业现状自1997 年以来,IBM 推出的中文语音识别产品ViaVoice 抢占了中国90% 的语音识别市场。此外,英特尔、微软、L & H、摩托罗拉等公司也都瞄准了中文语音市场,投入了大量的人力、物力和资金,中文语音市场正面临着国际竞争的巨大压力。

  在中国的语音技术市场竞争格局中,美国Nuance 公司、北京捷通华声语音技术有限公司、安徽科大讯飞信息科技股份有限公司长期形成三足鼎立的关系。

  美国Nuance 公司是全球最大的语音识别技术供应商,致力于语音识别技术的研究和应用,语音识别市场份额占到80% 以上。北京捷通华声语音技术有限公司语音技术国内市场占有率达到50%。安徽科大讯飞信息科技股份有限公司的国内语音核心技术市场占有率超过80%。目前占有中文语音技术市场60% 以上市场份额,语音合成产品市场份额达到70% 以上,在电信、金融、电力、社保等主流行业的份额更是达到80% 以上。

  语音合成方面,我国语音合成技术产品的开发从上世纪80 年代初起步,目前市场上的语音合成技术产品种类繁多,遍及银行、医院、政府、机场、车站、学校等众多场所,并逐渐深入到通信、导航、移动娱乐设备等高科技领域,市场应用前景广泛。

  目前,中文语音合成技术的应用领域主要有三大方面:

  一是基于PC 的办公、教学及娱乐等智能多媒体软件领域,二是声讯服务领域内的智能电话查询系统,三是嵌入式语音合成技术领域。目前,像安徽科大讯飞公司推出的“畅言2000”产品、北京捷通华声推出的“盲人手机导航”项目等,都取得了很好的市场反响,并对汉语语音合成技术的推广产生了巨大影响。

  随着手机、电子书等为代表的高性能嵌入式设备的涌现和嵌入式语音合成技术的进一步成熟,嵌入式语音合成技术的应用市场日益活跃。典型的嵌入式语音合成产品的应用环境包括以手机为代表的移动通信环境、以GPS 导航为代表的汽车环境和以电子书、电子词典为代表的随身数码娱乐设备。而中国的手机、汽车和数码市场持续火爆,嵌入式语音合成产品市场也将前景广阔。

  语音识别方面,目前,我国语音识别技术大规模应用于通信行业,在中国移动增值业务上有所突破。另外,语音识别技术开始应用于金融系统,如手机银行和电话银行根据用户的声音辨别真伪。

  为考察当前语言文字处理产业市场相关人员从业情况、行业需求现状,北京市语言产业研究中心课题组以国内大型在线招聘网站和人力资源服务网站为数据来源,对北京地区语音信息处理业和文字信息处理业相关职位需求状况进行了检索和数据统计。

  在语音信息处理业的相关职位检索中,按照语音信息处理产业基本分类指标,分别以“语音识别”、“语音合成”、“语音工程”、“语音系统(开发/ 运维)”、“语音产品(开发/ 策划/ 销售)”、“语音数据”作为模糊关键词,在“前程无忧”、“智联招聘”、“中华英才网”、“Hiall”、“首都人才网”、“58 同城”和“赶集网”国内7 大招聘网站及人力资源服务网站进行检索。

  从检索统计数据可以看出:1、语音信息处理业在人员需求上,在语音识别技术,语音产品的开发、策划、销售上具有相比于其他类别更多的需求,但总体来看市场整体需求不大。2、相比于语音信息处理业,文字信息处理业对市场相关人员的需求更大,特别是在对信息检索算法、搜索引擎技术等方面的需求较大。

  三、语音信息处理产业发展趋势

  随着语音合成、手写识别、语音识别等智能人机交互技术的不断完善,智能手机、平板电脑、导航仪、电子书、电子辞典、学习机、电子书包等众多智能终端设备中开始融入语音技术,使消费者的多元化需求得到了更好的满足。

  目前,捷通华声的语音合成技术已可实现对各类信息以及电子书内容的语音播报。在汽车行驶过程中,驾驶员只需提前做好设置,当接收到新邮件或想听书时,语音合成技术便可将文字自动转换成声音播报出来。语音合成技术应用于医院热线服务及排队叫号系统中,使就医者在分诊、划价、交费、取药的等候中,都可以获得及时的语音服务。在银行等金融领域、电力等公用事业领域、博物馆等公共文化领域以及机场、车站等交通领域,自助语音服务也得到了普遍地使用。如今,一种新的语音合成技术开始运用于电影院的LED 公告栏中,公告栏在显示文字信息的同时,还可以清晰播报出即将放映的电影名称、影厅号码及放映时间,使观影信息服务更加人性化。

  在语音合成方面,据专家对未来2-3 年内国内市场预测,语音合成系统的个人用户市场潜力为18-20 亿元人民币,而应用于行业的电话语音查询系统的市场份额将至少在30-50 亿元人民币以上。据国家发改委专家组的评估,语音技术在未来5 年内市场总潜力就有50 亿元人民币以上,可带动相关产业500 亿元以上。

扫一扫分享本页


您访问的链接即将离开“北京市教育委员会”

门户网站 是否继续?