一、引 论
近年来,有关字本位和词本位的争论一直在进行着,人们从各种不同角度来阐述各自的立场和观点。我们也曾讨论过类似的问题。在《对外汉语书面词汇教学要从汉字抓起》一文中我们曾提出,“汉语词大多数可以见字知义,汉语字比词的使用效率更高”[1]; 在之后的研究中,我们“发现现代汉语常用字比常用词具有数量更少、更具操作性、更方便教学等优点”[2]。本文拟在大规模语料库数据的支持下,相对客观地讨论一下现代汉语中字与词的使用状况。
二、基于语料库的字与词使用数据的对比与分析
我们选择了近年来较有影响的《中国语言生活状况报告》(2005-2011年7个年度)中的数据来进行对比分析。[3-9]《中国语言生活状况报告》(以下简称“绿皮书”),是对各年度国家语言生活的若干方面所作实态调查报告,是个庞大的动态数据库。充分利用其丰富详实的数据,对其成果进行再度开发,有利于我们对国家语言生活的全面了解和深度把握,同时,还会为新的研究提供方向上的引导和数据上的支持。绿皮书每年都会发布年度媒体用字用语调查,其语料库规模超大,除了2005年外,其他年份都稳定在10亿字以上,因此,其数据具有较好的代表性。本文的数据基本上是来自这7年的媒体用字用语的统计分析结果。
高频字词的覆盖率是考察字词使用状况的一个常用数据。这里以2005-2011年7个年度的绿皮书中的相关数据为基础,来考察高频字与高频词在实际文本中的覆盖率。
表1的数据表明,10%左右(950个上下)的高频汉字覆盖了文本的90%,25%左右(2350个左右,个别年份达到了2431个)的高频汉字覆盖了文本的99%。这些数据清楚地说明:高频汉字的使用效率非常高,只要掌握了高频汉字,就能认识文本中绝大多数的汉字。高频汉字以覆盖率90%作为标准的话,只有不到1000个字,以覆盖率99%作为标准的话,也不超过2500字。2500个汉字基本上是我国小学语文教学要求小学生掌握的汉字总量。
由此,高频字的使用规律可以简单总结为:高频字比例(相对量)较高(覆盖率90%时基本上在10%以内,99%时基本上在25%以内),数量(绝对量)较小(覆盖率90%时基本上在1000字以内,99%时基本上在2400字以内)。
据表2,高频词的使用更为集中,覆盖率为90%时,所用的词只占总词种数的0.53%-0.68%,跟汉字的10%左右相比,比例显然是很少的; 覆盖率为99%时,所用的词只占总词种数的7.34%-8.81%,跟汉字的25%左右相比,显然也还是比较少的。这说明高频词的使用比高频字的使用更为集中。这主要是因为低频词比低频字多得多,这从词种总数比字种总数多得多(相差好几个数量级)可以看出来。然而,从字词的绝对数量来看,1万多(词)是900多(字)的10多倍(覆盖率为90%时),十几万(词)是2400(字)的六七十倍(覆盖率为99%时)。从教学角度看,1万多词可能还是一个可以接受的词汇数量(但也已经很难了),而十几万词则显然不是一个可以接受的量了。因此,高频词的使用规律可以总结为: 高频词比例(相对量)很低(覆盖率为90%时基本上在0.70%以内,覆盖率为99%时基本上在9%以内),数量(绝对量)很大(覆盖率为90%时基本上在13000左右,覆盖率为99%时基本上在180000左右)。
2.绿皮书中字与词共用独用的对比与分析
接下来我们从字与词跨年度共用、独用的角度来作对比分析。
表3数据表明,除了2005年由于总字种数较少之外,其他4年的共用字(7257个),占各年度总字种数的比例在71.12%-78.62%之间,后4年这个比例的平均值为74.92%。后4年独用字在367-823个之间,4年平均为593个,占各年度总字种数的比例居于3.96%-8.07%之间,4年平均值为6.02%。后4年部分共用字在1557-2124个之间,平均为1858个,各年度部分共用字字种数占当年总字种数的比例在16.87%-20.82%之间,4年平均值为19.05%。这说明5年共用字已经占了三分之二以上,加上部分共用字,则已经占到93%以上,有的甚至已经达到98%以上。因此可以说,5年中所有使用的汉字变化还是很小的。
表4数据表明,除了2005年由于总词种数较少,共用词、部分共用词和独用词三者占总词种数的比例分别为20%、30%和50%。后4年,33万多共用词,其占各年度总词种数比例居于14.07%-16.34%之间,4年平均值为14.84%。部分共用词数量在66万多到76万多之间,4年平均为72万多,各年度部分共用词词种数占当年总词种数的比例在30.92%-33.74%之间,4年的平均值为32.62%。独用词数量在103万多到129万多之间,4年平均为117万多,各年度独用词词种数占当年总词种数的比例在51.01%-55.01%之间,4年平均为52.53%。这说明5年共用词数量不到总词种数的15%,即使加上部分共用词,也不到48%,还没有一半,而独用词则超过一半,超过52%。所以,可以说5年中共用词只占很少的一部分,所有使用的词语变化是比较大的。这跟前面汉字的情况很不一样:5年共用字占三分之二以上,加上部分共用字,则占到93%以上,独用字则只占百分之五六。也就是说,5年中所有使用的汉字变化很小,而词语变化则较大。前者独用部分只占百分之五六,而后者独用部分则占一半以上。
三、基于语料库的高频词使用次数的统计分析
另外我们还计算了高频词的平均使用次数及不同音节词的覆盖率。根据计算,2010年25546个高频词的平均词长为1.58。其中单音词共2760个,其累计频率即对整个语料的覆盖率为42.61%;双音词共18322个,其覆盖率为45.45%;多音词(3-8音节)共4464个,其覆盖率为3.20%。2011年26023个高频词的平均词长为1.59。其中单音词共2757个,其累计频率即对整个语料的覆盖率为41.69%;双音词共18558个,其覆盖率为46.24%;多音词(3-8音节)共4708个,其覆盖率为3.34%。比较一下,可以发现,2011年的数据与2010年的数据非常相似。从这些数据中可以看出,双音词的覆盖率基本上占了一半,而单音词也几乎占了一半,超过两个音节的多音词只占很低的比例。单音词虽然词种数量不多,可是它们的平均使用次数却非常高,是高频词平均使用次数的4倍多,远高于双音词和多音词。具体数据详见表5。
四、结 论
本文根据2005-2011年7个年度的《中国语言生活状况报告》相关数据,经过对比统计、分析后发现:
1.高频字比例(相对量)较高(覆盖率为90%时基本上在10%以内,为99%时基本上在25%以内),数量(绝对量)较小(覆盖率为90%时基本上在1000字以内,为99%时基本上在2400字以内),简言之“高频字比例较高,数量较小”。
2.高频词比例(相对量)很低(覆盖率为90%时基本上在0.70%以内,为99%时基本上在9%以内),数量(绝对量)很大(覆盖率为90%时基本上在13000左右,为99%时基本上在180000左右),简言之“高频词比例很低,数量很大”。
3.不同年份之间共用字已经占了三分之二以上,加上部分共用字,则已经占到93%以上,有的甚至已经达到98%以上,即不同年份使用的汉字变化很小。
4.不同年份之间共用词不到15%,即使加上部分共用词,也不到48%,还没有一半,而独用词则超过一半,达到52%多,即不同年份使用的词语变化较大。
5.高频词中单音词的平均使用次数远高于多音词。
因此从汉语的使用来看,字比词的使用效率要高;为了适应汉语使用的需要,在汉语教学中,强调字的教学会比词的教学更有效率。
参考文献:
[1]郭曙纶.对外汉语书面词汇教学要从汉字抓起———基于汉语字与词对比数据的一项研究[C]//李晓琪.汉语教学学刊(第5辑).北京:北京大学出版社,2009:176-186.
[2]郭曙纶,现代汉语常用字与常用词的比较统计和分析[C]//《语文现代化论丛》编辑委员会.中国语文的现代化与国际化.北京: 军事科学出版社,2012:30-37.
[3]国家语言资源监测与研究中心.中国语言生活状况报告(2005):下编[R].北京:商务印书馆,2006.
[4]国家语言资源监测与研究中心.中国语言生活状况报告(2006):下编[R].北京:商务印书馆,2007.
[5]国家语言资源监测与研究中心.中国语言生活状况报告(2007):下编[R].北京:商务印书馆,2008.
[6]国家语言资源监测与研究中心.中国语言生活状况报告(2008):下编[R].北京:商务印书馆,2009.
[7]国家语言资源监测与研究中心.中国语言生活状况报告(2009):下编[R].北京:商务印书馆,2010.
[8]教育部语言文字信息管理司组编.中国语言生活状况报告(2011)[R].北京:商务印书馆,2011.