• 144阅读
  • 0回复

第一个现代汉语计算机分词系统问世 “现代汉语词频统计”通过鉴定 [复制链接]

上一主题 下一主题
离线admin
 

只看楼主 倒序阅读 0 发表于: 1986-06-30
第3版()
专栏:

第一个现代汉语计算机分词系统问世
“现代汉语词频统计”通过鉴定
本报讯 记者艾笑报道:由国家科委下达、国家标准局主管的一项规模巨大的系统工程——“现代汉语词频统计”科研项目,已由北京航空学院与中国人民大学、北京大学等十个单位协作,用四年半时间圆满完成,6月30日在北京通过国家鉴定。
这项国内规模最大、分科最多、被统计材料时间分布最长的现代汉语词频统计,对现代汉语教学、文字改革、机器翻译、计算机汉字编码及国家标准词库的建立,有重要意义。
“现代汉语词频统计”是对日常使用的词语,如“国家”、“蛋白质”、“唯物主义”等在不同学科领域、不同历史时期所出现频度进行的统计。
这项工程的选材范围是从1919年至1982年,分为民主革命、社会主义建设、“文革”和调整等四个历史时期;内容包括社会科学和自然科学两大类,分为政治经济、文化艺术、新闻报道、工业、农业及基础知识等十个学科,共选取了近三亿字的原始素材,从中抽取两千多万字的样本,然后利用计算机根据现代汉语词典、辞海、汉英词典等二十三部词典汇集的十三万余词条作底表,按专门的分词原则进行自动分词统计,共得出不同类别、学科、时期、排序的五十多种统计结果。研究表明,一字词条中,“的、在、是”频度最高;二字词条中,“我们、可以、他们”频度最高;三字词条中,“进一步、为什么、它们的”频度最高。
这项研究曾得到王力、钱伟长、支秉彝、王湘浩等专家学者的热情指导。
快速回复
限200 字节
 
上一个 下一个