• 66阅读
  • 0回复

全汉字系统:计算机叩响文学研究的大门 [复制链接]

上一主题 下一主题
离线admin
 

只看楼主 倒序阅读 0 发表于: 1988-04-13
第8版(副刊)
专栏:

全汉字系统:计算机叩响文学研究的大门
——访中国社会科学院文学研究所计算机室负责人、副研究员栾贵明
钱宁
计算机正静悄悄地改变着世界。未来学家们很早就描绘过这样辉煌的远景:图书馆里浩如烟海的藏书将被输入小小的磁盘中,任何研究专题的检索都将在几秒钟内完成,人们将坐在家中,利用终端机进行学术研究和交流,人工智能将根据人类思维的逻辑去解决长期困惑人类的疑难……这一不断被今日科技发展所证实的辉煌远景,对于几千年来习惯于用方块象形字来记录和表达思想情感的中国人来说,却一直显得有些黯淡:每秒钟能运行上千万次的计算机面对4万多个愣头愣脑的汉字常常感到束手无策。计算机中文信息处理技术成为世界性难题。
1988年2月5日,中国社科院文学研究所的一个由三个半正式职工(其中一人系新近调入)组成的计算机研究室研制出的“全汉字系统”在北京通过了专家鉴定……
记者:自计算机引进我国,汉字处理技术在不断进步。据最保守的估计,目前国内各种汉字编码系统至少在500种以上。在这种情势下,你们新推出的汉字系统是否具有什么特别意义呢?
栾:我们这套系统最大的特点就是建立了一个“全汉字字库”。目前国内其它汉字系统都是在国家规定的一、二级标准字库(字数总计6763个)的基础上开发研制的,字库量一般只有六七千字,加上造字能力,汉字处理的总数也在万字以内。也许有人会以为这样的字库量在一些专业领域里运用已经足够了,没有必要进一步突破。我们对此有不同的认识,这不仅仅因为小字库根本无法处理浩如烟海的古典文献,更重要的是,计算机如果不能处理所有汉字,中文信息处理技术就不能算真正完成,计算机就难以真正进入文学研究领域。基于这种认识,我们以《中华大字典》为基础,根据台湾朱邦复先生70年代提出的
“中文字母法”设想而创制了一套编码系统,建立起一个收字43000左右的“全汉字字库”,并利用这一字库,完成了“《论语》数据库”、“全先秦两汉魏晋南北朝唐诗数据库”、“《中华大藏经·般若波罗密经》数据库”以及相应的处理软件。
记者:这一步深圳大学似乎走在了前面,他们在1986年就已将《全唐诗》、《红楼梦》输入了电脑。
栾:计算机运用于古代文化研究必须尊重传统研究方法和中国文化的特性。因此,有两个标准应当坚持:一是字的处理,二是全文输入。而要达到这两个标准,“全汉字系统”是不可或缺的基础。我们知道,古籍中的用字不可轻易改动,一改,原意就变,其研究价值也就大值得怀疑了。你想,以六七千字数量的字库来处理各种典籍,不免要对许多原文进行适应性改动,这很可能引起许许多多意想不到的混乱与麻烦,说不定百年之后,我们为恢复古籍的历史原貌而不得不再搞一个“电子乾嘉学派”。有了“全汉字系统”,我们就可以将古籍,包括全部异文、异题、异作者,一字不动地输入电脑,形成一个与善本古籍价值完全相等的“电脑文本”。说到研究,现在通行Dbase数据库管理软件,虽然简单易行,但有多种限制,往往要先入为主地设计选题,影响了计算机研究功能的进一步发挥。我们充分考虑到中西文的不同,把计算机对古典文献处理建立在每一个汉字处理的基础上,自行编制了处理软件,不仅具有全文逐字检索、书本索引编制功能,而且能适应各种已经设想和尚未设想的研究的需求。前不久,我们根据“《论语》数据库”,在机上完成了逐字索引、字频统计,并尝试将学术界公认比较准确的杨伯峻先生的《论语词典》输入该系统,发现了百余条误漏统计。由此可见,计算机完全可以担负一些人脑难以胜任的工作。
记者:据说,当年叶圣陶先生编纂《十三经索引》时,不得不动员全家苦战。
栾:这样的事儿我也干过。我编永乐大典索引和《四库辑本别集拾遗》一书,用了整整十年的时间,摘了25万张卡片。说起来,这方面的笑话还不少,有一次,上面让查马恩全集中“异化”一词最早的出处,那也是全所动员!……当然,计算机只是工具,有了计算机并不等于有了计算机应用,特别是买计算机仅仅是为了出国或安排子女就业……但计算机应用的前景极其广阔,我们现在正在设想研制一套与“全汉字系统”相配套的高精度汉字库,使现有系统的输出质量提高到排版印刷水平。这样,印刷行业将有可能摆脱捡字排版的古老方式。如果再进一步,将现在键盘输入方式改为扫描阅读输入方式,大量的文化典籍就能更准确地输入电脑,储存在磁盘中,这一点,将为我们图书馆的现代化奠定基础。
记者:由书本到磁盘,虽是信息储存方式的改变,但必然导致阅读方式的改变。这肯定会使人们对文化遗产的理解生出许多颇有意味的变化吧?
栾:是的。文学史上许多长期争论不清的问题经过计算机处理后往往不成为问题。关于《论语》成书问题,争论了几千年,我们通过用字对比,发现书前一部分用字与后一部分用字完全不同,显然不是同时的产物,只是后面第十二卷里的一小部分,有点像前面的东西。再如,李贺的诗向来以奇险怪特著称,似乎是一位用字冷僻的诗人,但计算机的统计结果令人吃惊:他全部诗作(五卷)用字仅2637个,他奇诡的诗风显然得力于他遣词造句的功力……
记者:如果根据中文构词用字的特点,设计一些程序,将初唐、盛唐、晚唐的诗比较比较,结果一定更加饶有趣味。
栾:我们这一代人对计算机技能的掌握应当说是有限的,但下一代人在这方面肯定大有作为的。将计算机技术运用于文学及其它社会科学研究领域已经成为了世界性潮流。我国在这方面一直进展缓慢,说到底,就是因为汉字处理技术不过关。是不是计算机与汉字彼此格格不入呢?曾有人提出要“改革汉字以适应计算机应用的要求。”我们认为那完全是一个本末倒置的观点。中国人用汉字记载了自己民族几千年的文化和历史,我国的权威学者以大量论据指出汉字蕴含着丰富的辩证法,其表达方式在更深的程度上影响着我们民族的思维方式,这一切能轻易改掉吗?因此,只能是计算机去适应汉字,而不能让汉字去适应计算机,这是一个方向问题。说句实话,我们搞“全汉字系统”,目前效应是为了处理古典文献,但真正的志向却在于使中国古老文化乘上现代化的列车。
(附图片)
苗 地画
快速回复
限200 字节
 
上一个 下一个