• 79阅读
  • 0回复

“君子动口不动手”——浅谈国际语音技术 [复制链接]

上一主题 下一主题
离线admin
 

只看楼主 倒序阅读 0 发表于: 1998-12-21
第7版(国际)
专栏:科技漫话

  “君子动口不动手”
  ——浅谈国际语音技术
  刘仲华
  “君子动口不动手”,只要会说话,谁都会使用计算机。这是语音技术带给计算机行业的新境界。
  日前,由英特尔公司牵头、有7家世界著名学术机构参与的国际语音技术研究组织在北京正式成立,以共同推进语音技术在全球范围内的发展和应用,尤其是致力于中文语音技术的开发。自1981年第一台个人电脑问世以来的近20年里,个人电脑性能不断提高,已成为人们生活、工作、娱乐不可缺少的伙伴和工具。但人与电脑的沟通总要通过西文键盘、鼠标等,这对非专业使用者尤其是非英语用户造成很大障碍。随着微处理器性能的迅速提高,人们期待着更加智能化的电脑。而语音技术的出现将真正改变人与计算机的互动模式,使电脑人性化———能“听”、会“说”、善“做”,领会每个人的工作方式,从而使人们的双手得以真正的解放。
  长期以来,计算机专家一直希望电脑能识别和理解人的“自然语言”。语音识别技术的研究始于50年代,但直到现在,一些关键性技术的突破,才使得语音技术的广泛运用成为可能。这些技术包括:计算能力日益强大,而计算机成本不断降低;计算机平台技术的整体发展,例如通用串口总线技术和更快的存储技术;语音算法和信号处理技术的改进;软件编程水平的提高等。1997年以国际商用机器公司推出的语音听写软件为代表的一系列语音软件问世后,语音技术开始走向成熟并进入市场。据估计,1997年语音技术的总销售额为5亿美元,到2000年这个数字将增加一倍。今年以来,英特尔、国际商用机器公司、朗讯公司等都竞相推出了更先进的语音技术产品,语音技术已成为整个计算机行业瞩目的焦点。
  语音技术的发展有三个步骤:语音识别、语音合成、自然语音合成——不但能将人的话转化成文本,还能理解语意,并有相应回应。在开发语音识别技术方面,一个很大的困难是让计算机理解人的“自然语言”。人们常常不按语法说话,有时还说俗话、玩笑话和省略语等,给理解其意义造成了困难。语音识别要克服的另一大障碍是人们说话时吐字速度变化不定,科学家用动态时间离散技术解决了这个问题。
  语音识别技术的应用主要有两方面:一是用于操控电脑和人机交流。动动口,就能打开或关闭程序,改变工作界面。无论你在家、办公室或在路上,只要用声音控制,你就可电话购物和取款、投资股市、上网处理电子邮件乃至开车等。安全系统也可用语音识别输入密码,应用于办公区、禁区、银行等。二是用于语音输入和语音(合成)输出。以中文输入而言,普通人用键盘输入一般每分钟30—50字,而语音输入则能达到每分钟150字。不必动手,就能完成从文字输入到格式编排的全部工作。直接听写使人讲话更连贯,思维更流畅,灵感不会受拼写和拆字的影响。装有语音软件的电脑还能用根据需要用各种语言将文件“说”出来,这将大大推动远程通信、网络电话和盲人电脑的发展。
  现阶段,语音技术将主要用于电子商务、商业服务和教育培训中。在服务业、医药、法律等领域,语音识别技术的开发与应用已逐步产生效益。据估计,应用语音技术将带来60%的年收益率。朗讯公司将其开发的语音识别装置应用于银行和金融公司的电话中心,在客户打进电话时,为每位客户节省了20—25秒时间。联合包裹公司过去在每年业务最繁忙时,都要雇用临时人员以加强电话中心的工作,1997年该公司以语音识别系统代替了临时雇员,成本仅为雇用人员费用的1/3。日本京都的高级电信研究所为自动翻译系统开发了语音识别技术,在这个系统中,打电话人说的是英语,而传到受话人耳中时,已是人工合成的日语了。飞利浦公司开发的医疗语音系统软件也很受放射学家欢迎,原来医务人员每天要填写数十份临床化验报告,改用向机器口述后可使时间缩短40%。下一代奔驰豪华汽车的驾驶者可用声音来操纵车上的电话、收音机和激光唱机,无需动手,只要动口,车上的声控计算机将执行驾驶者的命令。
  人生下来就有用语言交换信息的能力,语音技术让人直接和计算机说话,是最自然的人机交流方式,它比键盘更方便,比鼠标更直接。语音技术将跨越非英语国家使用计算机和因特网的一个主要障碍,即对于西文键盘的依赖,从而使更多的人进入计算机的天地,将给全球计算机用户及信息产业乃至全球经济带来极大好处。
快速回复
限200 字节
 
上一个 下一个