关于古籍电子化的一些思考
古籍电子化正在改变中国文史哲古代研究的局面,这一点已经越来越清楚了。这里仅就自己在使用有关成果时的一些想法草成此文,由于长期从事汉语史的研究,所以不免于偏向语言学,这可能是一些片面之词,不揣冒昧写出来以就正于广大古籍电子化的专家学者。
一
汉字随着时代的发展有越来越多的趋势,笔者在《汉语新论》中曾经指出:“据说,最早的字书是《史籀篇》,可惜已经亡佚了。小篆李斯有《仓颉篇》、赵高有《爰历篇》、胡毋敬有《博学篇》,是当时的字形规范及识字课本,可惜都已亡佚了,据《汉书·艺文志》记载,汉人所增订的《仓颉篇》“断六十字为一章,凡五十五章”,共有小篆3300字。许慎统计自《仓颉》到《训纂》等14种字书,共收字5340字。现存的有关小篆的字书是《说文解字》,有9353个字(不计重文,如计重文1163,则有10516个字)。反映汉代一般用字的有西汉元帝时的《急就篇》,流传至今的不同本子字数各异,如34章本就有2144个字,不过其末尾的128字为后人所加。也就是说,当时的最常用字不过两千字左右,常用字则为三千字左右。”“中国学者按数理语言学的齐普夫定律计算过汉字容量应该是12366个。但是实际上汉字的总数自秦以后是不断增加的。三国魏张揖的《广雅》收字18154个,晋吕忱的《字林》收12824个,梁顾野王的《玉篇》收16817个,隋陆法言的《切韵》收12158个,宋陈彭年的《广韵》收26194个,而丁度的《集韵》收字53525个,为以前工具书之最(《康熙字典》收字47073个,《中华大字典》收字48000多个,都不及《集韵》,但是《集韵》往往一个字收了许多的异体字,有的七八个,有的甚至超过十个)。《汉语大字典》收字54678个,还有一本《中华字海》,据说收字超过8.5万。当然这里绝大多数是极其罕用的字(有的其实只是个别人、特殊的社会集团所写的‘错字’或‘异体字’,有的则是早已‘死亡’的字)。实际运用的只是其中的一小部份,比如传统的十三经,只使用了6544个汉字,《红楼梦》则仅使用了4462个汉字。据新华社技术研究所的统计,1986年全年90627篇稿件中,使用了6001个汉字。看来,在任何一个共时阶段,一般用字都不会超过7000的(这也是国家语委等单位所颁布的《现代汉语通用字表》的字数)。当然,从历史的积淀来研究,我们就必须考虑到古今字、异体字、繁简字、正俗字等等问题并由此出发进行论证。”计算机汉字库的不断变更也说明了中文信息处理的进步。而有关字频研究的成果也证明了本文前述说法。
现代汉语字频词频的研究成果很多,而古代汉语则相对较少。《》据约十亿字的语料推出了前5000字的汉字使用次数资料,书同文公司则据《四库全书》和《四部丛刊》约八亿字的语料出版了《古籍汉字字频统计》一书,书中对30136个汉字的使用次数、使用频率等进行了统计。笔者在自己的科研项目中也对十三经的6536个汉字使用情况做过统计,现将其中的前50词使用情况列在下面(《》仅以前5000字的出现次数为总数)。
前50字字频
汉 字 | 字 数 | 占总字数的百分比 |
之 | 4919015 | 1.7833 |
不 | 325%1693 | 1.284 |
以 | 2551477 | .925 |
人 | 2378126 | .8622 |
一 | 2305774 | .8359 |
为 | 2280907 | .8269 |
有 | 2193204 | .7952 |
其 | 1881838 | .6822 |
而 | 1824822 | .66616 |
也 | 1745517 | .6328 |
者 | 1629565 | .5908 |
无 | 1504830 | .25%56 |
子 | 1443096 | .5235 |
是 | 1442580 | .523 |
曰 | 1437511 | .5212 |
大 | 1380053 | .5003 |
十 | 1356877 | .4919 |
中 | 1196329 | .4337 |
所 | 1193504 | .4327 |
三 | 1147590 | .416 |
二 | 1142691 | .4143 |
上 | 1078124 | .3909 |
如 | 1072444 | .3888 |
于 | 1033983 | .3749 |
此 | 1033057 | .3745 |
年 | 993623 | .3602 |
得 | 966202 | .3503 |
道 | 942913 | .3418 |
下 | 94150%6 | .3414 |
天 | 931698 | .3378 |
事 | 921094 | .3339 |
书 | 905197 | .3282 |
日 | 901350% | .3268 |
王 | 898950 | .3259 |
生 | 883723 | .3204 |
自 | 882562 | .32 |
来 | 875973 | .3150% |
时 | 25%5960 | .3103 |
文 | 25%2833 | .3092 |
至 | 817310 | .2963 |
在 | 811009 | .294 |
可 | 79825%1 | .2895 |
言 | 793101 | .2875 |
行 | 789282 | .2861 |
见 | 787022 | .225%3 |
云 | 783283 | .284 |
故 | 50%0271 | .2756 |
与 | 739983 | .2683 |
知 | 739051 | .2679 |
四 | 737863 | .2675 |
275832419 | 23.95156 |
书同文前50字字频
汉字 | 出现次数 | 万分之 | 累计覆 盖率 | 序号 |
之 | 19891628 | 252.2099 | 2.5221 | 1 |
不 | 09733996 | 123.4193 | 3.7562 | 2 |
以 | 09486560 | 120.2059 | 4.9583 | 3 |
也 | 07881524 | 99.9314 | 5.9576 | 4 |
而 | 07697614 | 97.5996 | 6.9336 | 5 |
其 | 06896797 | 87.4458 | 7.8087 | 6 |
人 | 06750929 | 85.5964 | 8.6640 | 7 |
為 | 06625021 | 83.8731 | 9.5028 | 8 |
有 | 06209740 | 78.7345 | 10.2901 | 9 |
者 | 05587903 | 70.8501 | 10.9986 | 10 |
一 | 05279990 | 66.9460 | 11.6681 | 11 |
曰 | 05235232 | 66.3785 | 12.3319 | 12 |
子 | 04979575 | 58,0653 | 12.9125 | 13 |
於 | 04305732 | 54.5932 | 13.4585 | 14 |
十 | 04185422 | 53.0678 | 13.9891 | 15 |
大 | 03590583 | 45.5257 | 14.4444 | 16 |
所 | 03516804 | 44.5902 | 14.8903 | 17 |
二 | 03437197 | 43.5809 | 15.3261 | 18 |
三 | 03338241 | 42.3262 | 15.7494 | 19 |
中 | 03184692 | 40.3793 | 16.1532 | 20 |
無 | 03175745 | 40.2659 | 16.5558 | 21 |
丨 | 03166824 | 40.1528 | 16.9573 | 22 |
年 | 03163339 | 40.1686 | 17.3584 | 23 |
則 | 03054578 | 38.7156 | 17.7456 | 24 |
下 | 02960595 | 37.5379 | 18.1210 | 25 |
天 | 02919091 | 37.0117 | 18.4911 | 26 |
上 | 02887089 | 36.6059 | 18.8571 | 27 |
此 | 02834051 | 35.9335 | 19.2169 | 28 |
王 | 02754461 | 34.9243 | 19.5657 | 29 |
書 | 02619030 | 33.2072 | 19.8978 | 30 |
是 | 02602664 | 32.9997 | 20.2278 | 31 |
公 | 02576421 | 32.6669 | 20.5545 | 32 |
事 | 02519440 | 31.9444 | 20.8739 | 33 |
自 | 02480552 | 31.4514 | 21.1884 | 34 |
在 | 02428095 | 30.7863 | 21.4963 | 35 |
可 | 02422115 | 30.7104 | 21.8034 | 36 |
言 | 02368329 | 30.0285 | 22.1037 | 37 |
至 | 02344512 | 29.7265 | 22.4009 | 38 |
五 | 02342263 | 29.6980 | 22.6979 | 39 |
如 | 02338972 | 29.6563 | 22.9945 | 40 |
日 | 02325150 | 29.4810 | 23.2893 | 41 |
山 | 02299699 | 29.1583 | 23.5809 | 42 |
四 | 02293069 | 29.0742 | 23.8716 | 43 |
故 | 02268200 | 28.7589 | 24.1592 | 44 |
文 | 02232019 | 28.3002 | 24.4422 | 45 |
與 | 02204117 | 27.9464 | 24.7217 | 46 |
又 | 02194105 | 27.8195 | 24.9999 | 47 |
得 | 02190762 | 27.7771 | 25.2776 | 48 |
時 | 02172369 | 27.5439 | 25.5531 | 49 |
行 | 02106107 | 26.7037 | 25.8201 | 50 |
十三經前50詞語頻率表
1 | 之 | 22979 | 3.619817552 |
2 | 也 | 14356 | 2.261460498 |
3 | 不 | 12036 | 1.895997391 |
4 | 子 | 11986 | 1.888121031 |
5 | 以 | 10740 | 1.691842139 |
6 | 人 | 9856 | 1.552588093 |
7 | 其 | 9764 | 1.538095591 |
8 | 曰 | 9641 | 1.518719745 |
9 | 而 | 8621 | 1.691842139 |
10 | 有 | 6601 | 1.039837054 |
11 | 公 | 6392 | 1.006913869 |
12 | 于 | 6036 | 0.950834185 |
13 | 者 | 5830 | 0.918383582 |
14 | 為 | 5424 | 0.854427538 |
15 | 大 | 4988 | 0.785745679 |
16 | 君 | 4480 | 0.705721861 |
17 | 於 | 4411 | 0.694852484 |
18 | 則 | 3916 | 0.616876519 |
19 | 王 | 3728 | 0.587261405 |
20 | 侯 | 3617 | 0.569775886 |
21 | 月 | 3408 | 0.536852701 |
22 | 夫 | 3350 | 0.527716123 |
23 | 無 | 3289 | 0.518106964 |
24 | 何 | 3117 | 0.491012286 |
25 | 如 | 3035 | 0.478095055 |
26 | 齊 | 2808 | 0.44233638 |
27 | 晉 | 2625 | 0.413508903 |
28 | 三 | 2520 | 0.396968547 |
29 | 天 | 2506 | 0.394763166 |
30 | 國 | 2467 | 0.388619605 |
31 | 二 | 2462 | 0.387831969 |
32 | 師 | 2454 | 0.386571751 |
33 | 與 | 2441 | 0.384523898 |
34 | 十 | 2378 | 0.374599684 |
35 | 使 | 2227 | 0.350813077 |
36 | 矣 | 2220 | 0.349710386 |
37 | 是 | 2151 | 0.338841009 |
38 | 言 | 2142 | 0.337423265 |
39 | 可 | 2125 | 0.334745302 |
40 | 我 | 2119 | 0.333800139 |
41 | 諸 | 2110 | 0.332382394 |
42 | 禮 | 2107 | 0.331909813 |
43 | 命 | 2024 | 0.318835055 |
44 | 事 | 2020 | 0.318204946 |
45 | 乎 | 2014 | 0.317259783 |
46 | 下 | 1996 | 0.314424293 |
47 | 故 | 1991 | 0.313636657 |
48 | 上 | 1963 | 0.309225896 |
49 | 焉 | 1916 | 0.301822117 |
50 | 一 | 1854 | 0.292055431 |
《》前50字的覆盖率是23.95156%,书同文公司的是25.8201%,而十三经的则是37.70571083%。估计是因为十三经都是上古语料,且使用字数较少,而《》与书同文公司的语料则时代跨度相对较大,用字更多。所以覆盖率相对较小。
前50字对比如下:
《宝典》有而《十三经》没有的汉字是(汉字后面的数字是该字在《十三经》中的序数):中68、所58、此109、年66、得116、道106、书150、日78、生157、自62、来87、时152、文140、至81、在61、行60、见113、云408(另有雲1390,合计其序数当在352或353)、知108、四56。
《寶典》有而《十三经》與書同文都没有的汉字是:道106、生157、来87、見113、云408(353)、知108。
书同文有而《十三经》没有的是:所58、中68、丨、年66、此109、書150、自62、在61、至81、五70、日78、山244、四56、文140、又178、得116、時152、行60。
书同文有而《十三经》與《寶典》都没有的汉字是:丨、五70、山244、又178。
我们看到,其实三处差别不算太大,其他则基本只差几位或几十位,只有几个字相差才有一百多位(相差最大的是云字,相差了287位)。这说明几千年所使用的文言文其常用字还是比较稳定的,与先秦变化不大(另外书同文公司所统计的字符“丨”其他两处均未见不知何故。)。
从发展来讲,我们希望能按照语料的不同时代以及其性质进行统计,比如按照上古、中古、近古,或者更详细一点来划分,如先秦、两汉、魏晋南北朝、隋唐、宋、元明清。而且要分清是文言文还是古白话或者近代汉语(如一些翻译的佛经、 和尚以及道学家的语录、一些笔记小说以及话本、戏曲等等)。当然,即使是文言文也有不同的文体,而且还有骈文、赋、诗词。诗也要分古体、近体等等。只有这样我们的字频统计才会更有意义。
如果我们要做一个古今对比,也很有意思。下面是现代汉语使用频率前50字的表:
ID | 字 | 频度% |
1 | 的 | 3.235992 |
2 | 国 | 1.386861 |
3 | 人 | 1.055654 |
4 | 一 | 1.052022 |
5 | 中 | 1.00115 |
6 | 学 | 0.9439352 |
7 | 在 | 0.865377 |
8 | 大 | 0.772002 |
9 | 有 | 0.7666595 |
10 | 年 | 0.7550798 |
11 | 了 | 0.7341573 |
12 | 是 | 0.6876276 |
13 | 和 | 0.6010425 |
14 | 不 | 0.5645136 |
15 | 为 | 0.5436964 |
16 | 上 | 0.5385381 |
17 | 会 | 0.4849027 |
18 | 家 | 0.4707702 |
19 | 生 | 0.4635855 |
20 | 业 | 0.453611 |
21 | 地 | 0.4523478 |
22 | 出 | 0.4295567 |
23 | 个 | 0.4058709 |
24 | 工 | 0.4055287 |
25 | 这 | 0.3971071 |
26 | 以 | 0.3925278 |
27 | 成 | 0.3864221 |
28 | 发 | 0.3853957 |
29 | 作 | 0.3852641 |
30 | 我 | 0.3833956 |
31 | 日 | 0.3710789 |
32 | 来 | 0.3550251 |
33 | 科 | 0.3527355 |
34 | 行 | 0.3506827 |
35 | 到 | 0.3476299 |
36 | 市 | 0.3384976 |
37 | 多 | 0.3297075 |
38 | 要 | 0.3248914 |
39 | 时 | 0.3196016 |
40 | 经 | 0.3164961 |
41 | 高 | 0.3096009 |
42 | 外 | 0.2837833 |
43 | 员 | 0.283678 |
44 | 公 | 0.2811252 |
45 | 对 | 0.276967 |
46 | 海 | 0.2749405 |
47 | 部 | 0.2743352 |
48 | 们 | 0.2721508 |
49 | 分 | 0.2708613 |
50 | 进 | 0.2704929 |
27.6048753% |
如果我们以更多的汉字来进行比较,就可以发现同西方传统的语言年代学不同的结论。
二
关于汉语有没有“词”以及如何划分语素、词、短语,这是一个争论问题。,我们不想在此进行阐释。我们主张以单字、骈字、三字串、四字格来进行划分统计。所谓骈字,就是经常出现在一起的两个字,清代的《骈字类编》就是很有名的工具书。只要是经常连用就没有必要去区分词还是短语。同样三字串就是经常在一起连用的三个汉字的字符串,四字格则是成语、俗语、惯用语最常见的格式。这需要我们建立相应的字符串库以便统计。
对于骈字,2011年初,网友yixuan统计了《全宋词》中的高频词语,并在自己的博客上列出了一个特别的排行榜:
1 空 1485 2 东风 1382 3 何处 1230 4 人间 1202 5 风流 857
6 归去 812 7 春风 802 8 西风 779 9 归来 771 10 江南 765
11 相思 753 12 梅花 732 13 千里 676 14 回首 656 15 明月 651
16 多少 648 17 如今 642 18 阑干 630 19 年年 613 20 万里 590
21 一笑 582 22 黄昏 550 23 当年 542 24 天涯 537 25 相逢 528 310
26 芳草 527 27 尊前 516 28 一枝 512 29 风雨 505 30 流水 472
31 依旧 472 32 风吹 471 33 风月 461 34 多情 457 35 故人 451
36 当时 450 37 无人 445 38 斜阳 438 39 不知 430 40 不见 429
41 深处 422 42 时节 403 43 平生 398 44 凄凉 398 45 春色 394
46 匆匆 383 47 功名 383 48 一点 378 49 无限 377 50 今日 369
51 天上 368 52 杨柳 362 53 西湖 356 54 桃花 354 55 扁舟 353
56 消息 351 57 憔悴 344 58 何事 339 59 芙蓉 338 60 神仙 334
61 一片 334 62 桃李 333 63 人生 332 64 十分 331 65 心事 329
66 黄花 328 67 一声 325 68 佳人 324 69 长安 321 70 东君 319
71 断肠 316 72 而今 315 73 鸳鸯 314 74 为谁 313 75 十年
76 去年 309 77 少年 308 78 海棠 307 79 寂寞 306 80 无情 306
81 不是 305 82 时候 304 83 肠断 303 84 富贵 303 85 蓬莱 303
86 昨夜 303 87 行人 302 88 今夜 301 89 谁知 300 90 不似 299
91 江上 298 92 悠悠 296 93 几度 295 94 青山 295 95 何时 294
96 天气 293 97 惟有 293 98 一曲 291 99 月明 291 100 往事 290
于是一些网友便以各种各样的数字带入这个“密码”来填词。比如网友“达芬奇的鸡蛋”将圆周率的数字,与“宋词”的高频词表序号一一对照,“创作”出一首《清平乐·圆周率》:“回首明月,悠悠心事空,西湖何事寂寞中,风吹斜阳匆匆,芳草平生斜阳,风吹寂寞今日,一枝富贵年年,断肠长安不知。我们发现,这些网友的所谓“词”只是灵活地利用了这些常用骈字,再加上一些自己选择的单字而成的。尽管不够地道,但是究竟有那么一些味道。
三
关于句子,如何定义同样是众说纷纭。印欧语言所谓简单句是一个主语与一个谓语组成的,谓语必须要有一个动词作核心,即S=NP+VP,一个句子只能有一个谓语动词,而且必须跟主语保持一致。但汉语并非如此。连动句的动词没有任何形态上的差异,而且一个句子中的多个动词其施事很可能并不一样。如《左传》“谏而不入”这个句子谏与入(=纳)的施事就不相同。更不用说“鸡声茅店月,人迹板桥霜”这样纯粹由名词组成的句子了。汉语句子的任何成分都可以省略。因此相关的争论时时可见。中国第一部语法著作《马氏文通》的作者在《例言》中说,“是书本旨,专论句读”。但正如吕叔湘、王海棻在《马氏文通读本》中所说的那样,“句读可以说是全书中最不容易弄懂的部分”。我们同样不想对此置喙,我们知道,国学网为了制作辅助标点系统已经建立了一个非常庞大的句库,在进行时代、文体辨析与分类后我们可以对独词句、两字句、三字句……等进行研究,并确定相应的句型、句类,并说明其功能。我们相信这将有巨大的意义,因为许多汉语语法学者,如王力先生,正是在对句型的分析中发展出自己的体系,做出其巨大的贡献。
作者单位:黑龙江大学古籍所