当前位置: 首页 > 语言文字办公室 > 语文生活

文字信息处理产业发展概况

时间:2014-11-03         来源:北京市语言文字办公室
分享:

  马绍娜 李艳

  字信息处理产品的产业,其以语言文字和语言文字所负载的信息作为加工对象,满足和引导市场对语言文字信息处理产品的需求。目前,语言文字信息处理产品主要涉及语音识别、语音合成、键盘输入、文字识别、字库字形、电子排版、搜索引擎等方面。

  一、文字信息处理产品类型

  文字信息处理所涉及的技术和产品种类繁多,主要包括以下几类:

  1.汉字键盘输入

  汉字键盘输入方法通常指一个编码方案配有相应的软件系统实现在计算机上输入汉字。输入法产业虽然是IT行业中一个较小部分,但由手机输入法所带来的手机应用的创新已成为一个客观的利润来源,其价值保守估计将达到8000 亿元。

  2.汉字识别

  汉字识别主要分三大类: (1)联机手写汉字识别,采用一块专用书写板与计算机相连,用户在书写板上写字,机器识别处理,识别以笔画为单位,然后根据一个汉字的笔画组合、笔画之间的相对位置和关系,最终识别出汉字。(2)印刷体汉字识别,我国汉字识别研究的主流,包括单体印刷体汉字识别和多体印刷体汉字识别两小类,均达到了世界先进水平。(3)脱机手写识别,其难点主要在手写汉字单字识别上,脱机手写汉字识别研究的一个趋势是转向应用研究,如清华大学计算机系的“四库全书录入系统”,北京汉王科技有限公司的邮政地址识别系统和银行票据识别系统,北京邮电大学的银行票据识别系统等。

  3.字形技术

  汉字字形技术主要包括字形数据的产生、压缩以及字形的还原技术。汉字字形库,依据其描述技术的不同,可分为点阵字库、矢量字库和曲线轮廓字库。点阵法是最早使用的一种描述字形的方法,它利用位于一定栅格内的点来表示字形。我国从80 年代初开始研制点阵字库,并相继颁布了多种点阵字库的字模集和数据集国家标准。矢量法用直线描述字形轮廓。一般说来,矢量字库已能满足高质量输出的要求且具有存储量小的优点。到1993 年,矢量字库已比较多地用于高档汉卡和激光打印机,并已有相应的国家标准。曲线轮廓法是一种最新的字形描述技术。这种技术将字形看作是一种图形,采用特定的数学曲线描述字形。目前有代表性的曲线轮廓技术有两种:分别是美国Adobe公司的PostscriPt 字形技术和Apple 公司的TrueTyPe技术。TrueType 描述字形用的是二次Bezier 曲线, 而PostscriPt 用的是三次Bezier 曲线,一般认为三次曲线描述的字形质量更高,其复杂性也更高。

  4.激光照排技术

  激光照排技术是文字信息处理技术的综合应用,它融合了文字输入和输出技术,以及字形技术等。

  5.信息检索

  信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。目前,我们熟悉的基于网络的搜索引擎,实际上是汉语信息检索应用基础研究技术的一部分。

  二、文字信息处理产业现状

  1.汉字键盘输入。我国于1978 年5 月,推出了汉字信息处理实验样机,这是中国自主完成的第一个汉字编码输入系统。1993 年,亚伟速录技术的诞生可以说是汉字键盘输入,尤其是中文信息处理产业化发展的新的里程碑,突破了“速记电脑化”和“实时记录语言”两大国际难题。亚伟速录技术的广泛应用不仅带动了一个产业的发展,还催生了速录师这一新型职业,2003 年,劳动和社会保障部专门编订并颁布《速录师》国家职业标准。目前,亚伟速录技术已经广泛应用于各种会议、法院庭审,新闻采访、电视字幕以及场记、网络直播记录等,一个速录从业人员群体已经形成。

  当前,汉字键盘输入技术的一个重大发展方向就是智能化输入技术。智能化输入技术只需将欲录入的汉字转换成汉语拼音,然后逐字连贯地输入由拼音组成的序列,系统就会一一排除同音字的干扰,在屏幕上显示出要表达的汉语,实现整句输入。同时,系统会自动存储下来用户的更正信息,并且会每次自动记忆用户输入的词频和字频,使原来由人记忆的大部分内容都让计算机来承担,具有了学习、记忆和判断的功能,这就大大增加了文字输入的速度。目前,清华紫光、微软拼音、搜狗、QQ 以及百度输入法等智能输入法软件使用广泛,倍受用户的青睐。

  2.汉字识别。当前, 印刷体汉字识别在多字体的识别、大字符集识别、中英文混排识别、版面恢复和中文名片识别等方面取得了突破。目前,“汉王OCR”能够在不降低识别率和识别速度的情况下支持宋体、仿宋体、楷体、黑体、园体、隶书、隶变、魏碑、行楷等字体的识别。市场方面,“汉王OCR”、“清华OCR”和“丹青OCR”软件占据了扫描仪捆绑的绝大部分份额。

  3.字形技术。20 世纪80 年代以来,在中国大陆和中国香港、台湾地区逐渐涌现出一批电脑字体开发商,中国的字体设计开始驶入市场化轨道。方正、华文、汉仪、华康和中国台湾文鼎等十几家开发商迄今已有20 多年的发展历史,字体开发规模都在百种以上。 近几年,随着信息技术尤其是嵌入式技术的发展,中文字形处理正得到越来越广泛的应用。上海汉峰科技有限公司于2004年成功完成了MiniType 字形技术和字库产品的研制,MiniType 字形技术是一种结构化构字技术, 其字库含27484 个汉字,分为宋体、仿宋、楷体、黑体4 种字体,可生成各种大小尺寸的汉字及其他语言字符。与同类字库相比,其存储量只有1/10,占用存储的空间少,且字形更加优美。

  4.激光照排技术。我国激光照排系统的研发始于1978 年。当时,由北大王选教授等人研制的激光照排机的诞生,正式宣布我国的新闻出版行业告别了“铅与火”的时代,进入了“光与电”的时代,被誉为中国印刷技术的再次革命。

  1987 年5 月,《经济日报》成为世界上第一张采用计算机组版、整版输出的中文报纸。目前,激光照排技术应用于 99%的国内报业市场、90%的书刊(黑白)市场以及90%的海外华文报业市场。2007 年,方正集团发布了数字出版战略,从汉字激光照排系统向全媒体的数字复合出版技术发展,积极研发包括数字印刷、手持阅读、互联网出版等在内的数字复合出版技术,这也被称为方正的“第二次技术革命”。方正阿帕比成为最大的中文电子书运营商和最专业的电子公文技术提供商,中国80% 以上的出版社应用方正阿帕比技术平台出版发行电子书,方正阿帕比电子书已成功应用在全国80% 的省级公共图书馆、76% 的“211 高校”大学图书馆。

  5.信息检索。随着网络和信息时代的到来,搜索引擎市场拥有着越来越庞大的用户群,搜索引擎产业也呈现出客观的市场收益。根据iResearch 推出的《2009-2010年中国搜索引擎行业发展报告》统计,2009 年中国搜索引擎市场规模达69.5 亿元,相比2008 年的50.3 亿元增长38.2%。艾瑞数据显示,2009 年,百度网页搜索请求量份额达到76.0%。百度2009 年财报显示,其全年总收入达到快44.5 亿元人民币,年同比增长39.2%。中国互联网信息中心(CNNIC) 发布报告显示,2012年上半年,搜索引擎用户规模达到4.29 亿,较2011 年底增长2121 万人,半年增长率为5.2%;在网民中的渗透率为79.7%,使用比例与2011 年6 月、12 月基本持平。手机搜索用户规模达2.6 亿, 相比2011 年, 规模增长17.3%;使用率达66.7%,排名第二位,相比2011 年,使用率增长4.6 个百分点。

  三、文字信息处理产业发展建议

  随着语言信息处理技术的不断发展,以及社会的日益信息化,更需要对汉语言在语义层面上进行深层次分析和挖掘,实现汉语言文字信息处理真正面向对象服务的目标。这就需要语言学( 包括计算语言学)、语音学、信息科学、智能科学、计算机科学、哲学等各个领域的研究者建立合作,共同就语言文字信息处理所面临的问题进行研究。包括:

  第一,开展信息处理用汉语言资源数据库的研究与建设;第二,结合汉语言文字自身的特点,构建适合汉语语义信息处理技术的理论体系和计算机技术实现体系;第三,逐步形成“产学研”一体的开发体系,在“理论探索”、“基础开发”、“实践应用”三者之间形成一个良性循环系统,从而更好、更快地促进汉语言信息处理技术的可持续健康发展。

扫一扫分享本页


您访问的链接即将离开“北京市教育委员会”

门户网站 是否继续?