古籍数字化与文献利用

吴夏平

内容提要】古籍数字化成果显著,但其应用也存在不少问题。数字化本身的障碍、研究性质的差异、数字化导致思维方式的转变等因素,都影响到学术研究。因此,在利用时应具审慎态度。只有坚持现代信息技术工具本位,创建个性化的数据库,才能更好地利用数字化文献推进科研的发展。

关键词】古籍数字化;文献利用;工具本位;个性化数据库

 

一、古籍数字化现状

  一般来说,古籍数字化指的是利用现代信息技术手段,将传统纸质文献典籍转换成为可在计算机上进行操作的过程。这个过程包含两个层级:将印刷、抄写或其他形式的文献用数字方式来表达,属于第一层级;第二层级指的是能够比较客观、完整地反映对象内容与思想的文献,这是数字技术与文献内容的完美结合,数字型的文献能够真实、完整地再现实体型文献的内容。[1]从目前进程来看,第一阶段发展得较好。

  总体来看,古籍数字化的进程有几个特点:其一,台湾地区中文古籍数字化建设起步较早。台湾地区的中文古籍数字化工作从1984年开始,台湾“中央研究院”就着手进行古籍数字化工作。目前,已开发的古籍检索系统有汉籍电子文献瀚典全文检索系统,文物图像研究室资料库检索系统,历史语言研究所藏内阁大库档案。台湾大学中华电子佛典线上藏经阁大正藏全文检索系统,台湾元智大学“网路展书读”等。基本涵盖了唐代以前绝大部分传世文献。其二,香港地区古籍数字化建设成果丰硕。从20世纪80年代末开始,香港中文大学中国文化研究所下属的“汉达古文献数据库中心”所开发的全文数据库资料包括甲骨文数据库、竹简帛书出土文献电脑数据库、金文全文计算机化数据库、先秦两汉一切传世文献计算机化数据库、魏晋南北朝传世文献数据库,中国类书数据库等等。其三,大陆古籍数字化建设奋起直追。从20世纪90年代开始,大陆一些图书馆进行了古籍数字化建设的尝试。1996年,上海图书馆与长江计算机集团合作,建立了古籍影像光盘制作及检索系统,到1999年4月,该系统已经完成古籍善本1000多种60万页的扫描和标引工作。一些有前瞻意识的公司先后研制推出大型古籍数字化成果,如迪志公司、书同文公司研制的《文渊阁四库全书》、《四部丛刊》电子检索系统。国学公司研制的包括二十四史、《全唐诗》、《全唐文》等在内的大型古籍文献数据库《国学宝典》等。其四、中文古籍的数字化建设不仅在国内开展,在国外也有一定的研究,如美国的普林斯顿大学建设了中文古籍善本书目数据库,挪威的奥斯陆大学建设了先秦诸子百家全文检索系统,这些都丰富了中文古籍数字化建设的内涵.[2]另外,各地方图书馆也纷纷整理开发地方文献,特别是很有特色的地方志数据库,许多地区已经做得非常好。

  数字化古籍最大的特点是具有检索功能。以《国学宝典》为例,《国学宝典》大型古籍文献数据库全文检索系统,含二千多部重要古籍文献,具有全文逐字索引、字词频统计、智能模糊查询、自动卡片生成等功能,基本上能满足学术研究和科研开发的需要,在辞书编纂、主题查找、统计分析、古书辑佚等方面具有极大的辅助作用。

  古籍数字化工作不断进展,最新的成果是由北京大学李铎博士等研发的《全宋诗电子分析系统》。这个系统名称以智能“分析”替代全文“检索”,因为“它是由计算机提供经过分析筛选的条理化的信息,已经带有智能化的特点,可以直接完成一些人力无法完成而又是十分重要的课题,如‘字频分析'、‘格律分析'、‘用韵分析'、‘重出诗提取'、‘话语系统分析'等等。”[3]据李铎博士介绍,将来可以利用计算机智能化特点,让计算机自主学习,标点《四库全书》。我们深切地期望此嘉惠学林之举能进一步深入。

二、数字化古籍利用应注意的问题

  毫无疑问,数字化古籍对科研工作带来便利。古籍数字化是前无古人的,我们甚至可以设想,传统私人藏书在不久的将来会消失,一台计算机甚至一个智能U盘,就是可以随身携带的图书馆,而且这个图书馆具有强大的全文检索功能。所有这些都将改变整个学术结构。但是,问题也随之而来。我们所思考的是,在古籍数字化时代,如何最大限度地利用古代文献,尽可能地避免因信息技术与传统的矛盾而产生的消极影响。我们的担忧不是毫无理由,具体表现在以下几个方面。

  (一)数字化本身的障碍

  作为一般科研人员,在使用现有数字化成果时,恐怕最多的还是它的全文检索功能。但是,检索功能因数字化本身的技术障碍而产生许多问题。国家图书馆副馆长陈力先生曾对这个问题进行了深刻的分析,指出古籍数字化汉字处理中的问题:(1)异形字处理;(2)避讳字处理;(3)通假字处理;(4)Unicode中的汉字编码及其相关问题。其结论是目前全文检索功能并不完善。如《四库全书》电子版,检索时容易产生“噪音”。例如,检索乾清宫之“乾清”二字,将同时检索“軋”、“乾”、“干”、“”和“清”、“氵乾”、“请”,其中“氵乾”就是“清”的变体字。查询结果如下:除了“乾清”二字被查到外,还有“干请”与“干清”被查到。又如,检索“分类”,将同时检索“分”、“兮”、“匪”和“类”、“”,其结果是,查“分类”与查“匪类”是一样的结果,都是相同的1304条。其中“分”与“兮”根本就是两个不同的字。[1]笔者在使用时,也发现类似问题。比如《四库全书》中有不少因避讳产生的字体,如“玄”字最后一点的缺笔。在检索的时候没有问题,可是复制时由于字体识别技术问题,难以显示出来,在windows系统中,往往只是出现字符“□”。

  另外,由于古籍的装帧与排版形式给数字化工作带来困难,古籍特殊的材料构成和文物价值间接地阻碍了数字化工作的进展,古籍在流传过程中出现亡佚现象等方面的原因,数字化工程还存在很大的拓展空间。因此,从绝对数量上来看,数字化古籍并不能解决所有问题,这也使它的检索功能大打折扣。

  (二)研究性质差异

  全文检索功能无疑有助于类似于辞书编纂、古籍整理以及一些需要量化数据的研究工作。但是,全文检索只能提供基本数据,依赖检索并不能完成所有工作。其原因是多方面的,比如对检索内容的理解,各学科研究性质的差异等等,都导致文献利用方面问题的产生。

  如果对检索内容理解出现偏差,其结果不全面。举例来说,比如唐太宗贞观年间将史馆独立出来,对中国史学产生十分重要的影响。如果研究唐代史馆与史官,对监修制度的考察不可或缺。仅仅利用检索系统查询相关文献,那是完全不够的。原因是文献中“监修国史”的使用较为混乱,有监修国史、兼修国史、修国史等多种称谓,而其内涵则不完全相同。[4]40-44如果仅输入“监修”或“国史”来查询,其结论因缺漏过多而不可信。

  上述偏差还属于浅层次的。进一步来说,古代文献因古汉语特性,往往简略,事物之间的联系隐藏于字面背后,需要大力爬梳剔抉,厘清头绪,方可还其本来面目。比如考察中唐诗人孟简生平,两《唐书》均只言进士第,登宏词科,累官仓部员外郎,而登第时间及登第后任职都没有记载。要弄清楚这些,恐怕很难依靠检索来完成。考《全唐诗》卷379孟郊《送从叔校书简南归》及同卷《感别送从叔校书简再登科东归》:“长安车马道,高槐结浮阴。……菱唱忽生听,芸书回望深”,知孟简为秘书省校书郎。据《旧唐书·孟简传》:“擢进士第,登宏词科”,知孟简再登宏词,孟郊在长安送别。又据《全唐诗》卷372孟郊《贫女词寄从叔先辈简》,知简登第先于郊。再据《登科记考》卷十三,郊贞元十二年登第,贞元十六年选为溧阳尉,离开长安。则知孟简仕进之初期经历是:约在贞元十二年前进士及第,及第后除授秘书省校书郎,最迟在十六年参加博学宏词科考试。这个结论,当然可以借助检索系统,但其内在联系的推理,则不是全文检索能够完成的。

  孟简初期任职经历的考察,还可以部分借助检索系统。但对于“隐性材料”,则无法检索。比如李清照《武陵春》词作年的考订,就无法利用全文检索。《武陵春》作于金华没有争议,但创作时间不能确定。有关李清照去金华次数的材料仅有两则,一是《打马图序》所说的绍兴四年十月,一是《金石录后序》记载的绍兴元年春由衢赴越。人们一般根据前一则材料认为此词作于绍兴五年(1135)。可是却忽略了后一则隐性材料,原因是《金石录后序》“庚戌十二月,放散百官,遂之衢,绍兴辛亥(即绍兴元年)春三月复赴越”这一段,隐藏了从衢州到越州,婺州(州治在金华)是必经之地这一事实。如果缺乏相关地理知识,又不能合情合理地去理解《武陵春》的内容,就很难得出这首词写于绍兴元年(1131)的结论。虽然此结论并不一定完全确立,但亦可备一说。[5]由此可见,要真正还原历史,光依靠检索查询的方式相当困难。

  上述三个例子,由浅入深地讨论了全文检索的价值。旨在说明:中国古代文献,由于汉语的模糊性和不确定性,容易产生歧义,字面所反映的并不一定就是事物的真实意义,如果要了解事物的全部内容,则必须从字里行间去寻找“言外之意”或者“微言大义”。这警示我们,在利用数字化古籍时必须格外的小心谨慎。

  (三)数字化引起思维方式的改变

  古籍数字化对学术研究产生积极作用,极大地推进了学术活动的深入,给科研注入了创新活力,这些都是业已存在的事实。我们认为,学术研究中最基本的素养就是要善于反思。反思的重要性在于利用检讨的手段达到改进和完善的目的。事物具有两面性的真理告知我们,古籍数字化也是一柄“双刃剑”,看到“利”的同时不能忽略其“弊”。因此,我们应认真对待数字化时代因阅读和写作方式的变化所导致的思维方式的改变。

  阅读方式傅斯年先生曾主张,上穷碧落下黄泉,动手动脚找资料。重视第一手材料的学术传统,影响到学者的阅读方式。在前计算机时代,边读书边作卡片,几乎是所有先生对弟子的最基本的要求。众所周知,钱锺书先生著述《谈艺录》、《管锥编》是在几大麻袋笔记的基础上完成的。任半塘先生当年在四川大学,用以作笔记的纸片竟然大多是旧报纸和废日历。在这样艰苦的条件下,任先生完成了《唐声诗》和《敦煌歌辞总编》等著作。除卡片式记录之外,另一种重要的阅读方式是边读边作批注,这个传统由来已久,明代李贽、金圣叹,清代脂砚斋都是著例。马茂元先生讲到祖父抱润公手批韩集时十分动情,说:“曩余于家中藏书得先大父抱润公批校东雅堂本《韩集》一部,朱笔细字,遍布书中,手泽所存,珍护靡已。”[6](叙例)

  传统阅读的笔记和批注,数字化古籍基本上也可以做到,在形式上它们没有截然的分别,但是两者的本质并不相同。纸质书籍无论是装帧排版还是具体内容,其直观性都和电子版图书不一样。纸质图书阅读过程中的翻页动作,以及油墨香味都是电子图书所没有的。这些看似表面的变化,实质上能引起思维方式的改变。苏东坡在《又答王庠书》里说:“书富如海,百货皆有。人之精力,不能兼收尽取,但得其所欲求者尔。故愿学者每次作一意求之。如欲求古今兴亡治乱,圣贤作用,但作此意求之,勿生余念。又别作一次,求事迹故实;典章文物之类,亦如此。他皆仿之。”后人视之为“八面读书”或“一意求之”读书法。东坡读书之法,实际上告诉人们,传统阅读的笔记和卡片中已暗含着读者的思考,隐藏着读者对事物的认识态度和分类意识。每次求一物,勿作它想,这与电子检索查询之间的差异何止十万八千里。

  写作方式前计算机时代的写作和古籍数字化时代的写作相较,表面形式的不同是前者不具备后者超强的剪切和拷贝功能,其实质区别是由功能引起的构思的变化。纸笔书写和键盘敲打到对文章构思的影响是不一样的,主要因为前者调整难度较大,而后者则随着写作进度随意调整。即就是拼凑文章而言,前者必须具备剪刀和糨糊两种实物,而后者则只需要“Ctrl+X”、“Ctrl+C”、“Ctrl+V”几个键盘就可以任意拼凑了。打个不完全恰当的比方,好比建房子,纸笔时代要通盘考虑,先打好基础,画好图样,准备充足的材料才能开工。而数字化时代某些“大胆的建筑商”只要有构思就可以开工,没有材料,边建边找,所缺材料只要利用数字化古籍的全文检索基本上都能找到。以这种方式建筑的房子,其质量可想而知。

  (四)正确利用

  分析古籍数字化利用应注意的问题,还应指出解决方法。我们认为,只有正确的观念才能引导正确的利用。根据以上分析,在学术研究过程中,电脑和人工智能永远只是一种辅助工具,而不能成为学术本身。学术研究中问题意识非常重要,而自觉的问题意识表现在“善于从大量原始文献中发现问题和解决问题,尤能从无疑处质疑,廓清许多积非成‘是'之点。”[7]序章原始文献、质疑精神、廓清是非等都是培养问题意识的基础,决不是依赖电脑检索系统所能解决的。

  以解决问题为核心的学术研究,计算机和人之间的权界其实是不存在的。因为“人类智能的本质特征和最高表现形式是创造。计算机人工智能模拟人的智能,其难点不在于人脑所进行的各种必然性的演绎推理,而是最能体现人的智能特征的创造性思维,是那些具有某种不确定性的归纳、类比以及模糊推理等,包括学习、修正、推理、复杂条件下的判断等。”[8]也就是说,计算机虽然在一定程度上能够模拟人的思考,甚至在某些方面要比人强得多,但是它不具备人类最本质的创造性思维。举例来说,比如校勘工作,在辨别不同版本文字异同方面,可能计算机要比人完成得更好。但一般的校勘,在比较文字异同之外,判断是非更为重要。这种判断是非的能力决不是设计某种电脑语言程序所具备的,因为这需要深厚的学术涵养和学术积累。

  学术研究在某种程度上来说,就是对历史信息的处理。历史信息基本上有三种形态:原初形态、历时性形态、个性化形态。我们很赞成这样的观点:有深度的分析研究,其实应该是在这三者相互渗透和互动的基础上形成的,在这种相互渗透和互动的过程中,电脑及其分析能力和方法可能永远只是一种工具而不可能成为这种互动关系的组织结构本身。[3]

  在观念修正之外,还要积极借鉴古籍数字化所体现出来的方法、理论和手段。这就是笔者曾经一再强调的创建个性化、私人化,具有特色的数据库。拙文《数据库与古代文学研究》就借鉴古人编纂类书的方法建立数据库展开讨论,认为“可以在电脑中依据个人的需要创建各种文件夹,这相当于《北堂书钞》所分的‘部',也相当于白居易(《六帖》)的七层架子。在文件夹之中又可以根据需要创建许多文档,这些文档相当于《书钞》的‘类'和白居易的‘陶家瓶'。在每类之下我们可以精括摘录内容标出小标题,所摘录之内容注明出处。”[9]依据这种方法建立起来的数据库,同样具有检索功能。当然,这种方法对于经常使用电脑的人来说并不是难事。

  笔者想强调的是,现代学术研究应该从古籍数字化过程中得到方法和理论上的启发,并为我所用。我们以戴伟华先生《地域文化与唐代诗歌》为例来说明。唐代文学研究中地域文化视角得到了应有的重视,归纳起来大致有六个层面:(1)以本贯、占籍为切入点;(2)以隶属阶层为切入点;(3)以南北划分为切入点;(4)以文人的移动路线为切入点;(5)以诗人群和流派为切入点;(6)以文化景观为切入点,等等。那么,面对这样丰硕的成果,要从诗歌自身来讨论地域文化问题有相当的困难。如果以诗歌创作为本位切入地域文化与唐代诗歌研究,可能会更贴近唐诗的实际。正是基于这样的考虑,戴先生从唐诗创作地点切入,花费大量时间创建两个必备的数据库,一是《唐文人籍贯数据库》,一是《唐诗创作地点考数据库》。在此基础上,戴先生将过去主要以诗人籍贯为主的分析,转换为以诗歌创作地点为主的地域文化与文学的研究。[10]

  因此,对数字化古籍正确利用必须注意两点:一是观念上的工具本位意识,一是借鉴其理论方法,创建个性化数据库。我们认为,只有在这样的前提下才可能更有效地将古籍数字化成果与学术研究紧密结合起来,推动学术发展。

 

  综上所述,我们得出这样一个结论:古籍数字化发展到今天,虽然时间不长,但成果显著。这意味着现代学术研究获得新的生命起点,在古籍数字化时代,学术转型是无可逆转的大趋势。我们最为关注的是现代信息技术与学术研究之间互通互动的问题。根据分析,由于数字化本身的障碍、研究性质的差异,数字化引起思维方式的变化诸方面的因素,在文献利用时不得不具审慎的态度。一方面,我们期待更好更多的数字化成果;另一方面,我们认为应坚持现代信息技术工具本位,同时积极借鉴数字化的方法理论,创建能为我所用的独具特色的数据库。

参考文献

[1]陈力.中文古籍数字化的再思考[J].国家图书馆学刊,2006(2).

[2]龚娅君、刘春金.中文古籍数字化建设[J].浙江大学学报(人文社会科学版),2006(1).

[3]李铎、王毅.关于古代文献信息化工程与古典文学研究之间互动关系的对话[J].文学遗产,2005(1).

[4]吴夏平.唐代中央文馆制度与文学研究[M].济南:齐鲁书社,2007.

[5]戴伟华.李清照〈武陵春〉词应作于绍兴元年考——兼说‘隐性'材料的价值和利用[J].学术研究,2003(3).

[6]马其昶.韩昌黎文集校注[M].上海:上海古籍出版社,1987.

[7]李浩.唐代三大地域文学士族研究[M].北京:中华书局,2002.

[8]郑永晓.古籍数字化与古典文学研究的未来.[J].文学遗产,2005(5).

[9]吴夏平.数据库与古代文学研究[N].光明日报,2004-09-29.

[10]戴伟华.地域文化与唐代诗歌[M].中华书局,2006.

注释

Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。比如,简体中文(GB)、繁体中文(BIG5)、日文中,“赵”都是一个字,但是编码不同。在不同的编码下,BIG5的赵是0xBBAF,而0xBBAF在GB里面就被显示为“化”,这就是乱码。而Unicode采用统一的编码,“赵”只有一个,不必管他在哪种文字里。

 

作者简介】吴夏平,1976年生,男,江西都昌人,贵州师范大学文学院副教授,博士。研究方向:中国古代文学与文化。