试论中国古籍数字化与人文学术研究

史 睿

  【内容提要】本文从人文研究角度出发讨论古籍数字化意义及解决方案,强调了在数字化时代传统古籍整理工作的重要性。史文认为古籍数字化能为人文研究提供便捷、准确的查询工具,但要实现这一目标,必须对传统古籍整理工作进行变革,要求建立数据库统一的规范,包括分类法、著录格式都要有一定的修改,以建立国家标准,并使古籍数据库与数字图书馆的其他数据库保持整体的统一性。文章对计算机技术也给予了同样的重视,分析了人文研究对计算机技术的要求,计算机技术为古籍数字化准备的条件,并讨论了两者的有效结合。

  【关 键 词】人文学术研究;数据库;知识发现;中国古籍数字化解决方案;图书馆自动化

 

  中国古籍的数字化是一个非常复杂的跨学科课题,本来应由专家来解决,绝非学识浅陋如不佞者所应妄言的。但是,计算机产业界的专家对于计算机技术在人文学术研究上的应用缺少了解和兴趣,而学术界的专家都忙于各自的名山事业,两方面又无良好的沟通,所以创获甚少。此前虽有学术机构曾进行过类似课题的研究,获得了初步的成果,但旧的思路和成果已很难跟上计算机技术飞速发展的步伐[1]。鉴于目前中国古籍数字化问题的日益紧迫和相关专题研究的相对滞后,笔者不揣谫陋,撰此小文,以期引起有关专家就例如数字化、网络化时代对人文学术研究提出怎样的机遇和挑战,如何利用计算机及网络技术推动人文学术研究的发展以及如何规划、评估古籍(以至一切图书文献)的数字化方案等问题的深入讨论。

一、古籍数字化——现代学术研究的基础

  我们中华民族创造了无比丰富的历史文化遗产,对于世界文化具有巨大贡献。古代典籍是中国历史文化遗产最为重要的物质载体,面对蕴藏于浩如烟海的古籍之中的文化思想,究竟应该如何解读,如何履践,不免令人有“一部十七史,不知从何说起”的感觉。胡适之先生认为传统的经史研究存在范围太狭窄,注重功力而忽略理解,缺乏参考比较的材料等积弊,故以清代三百年间第一流人才的心思精力,都用在经学的范围内,却只取得了一点点的成果,关键是缺少对古籍的系统整理,又不注重学术成果的积累,两千四百多卷的《清经解》,大多是一堆流水烂帐,没有条理,没有系统,人人从“粤若稽古”、“关关雎鸠”说起,怪不得学者看了要望洋兴叹了[2]。针对清儒治学方法的缺陷,胡适之先生着重提出,必须系统地整理古籍,包括索引式、结帐式和专史式的整理。此后,学界编纂了多种引得、通检、索引、汇编等工具书,部分完成了索引式整理的目标,拜前辈学者之赐,我们查阅古籍不知享受了多少便利。但是我们也发现,中国古籍汗牛充栋,经过系统整理的毕竟只是少数,方便的检索工具也还嫌太少,离胡适之先生的标准还有相当的距离。即使是已有索引的古籍,我们用来解决具体问题时仍会感觉到种种不便。至于结帐式的整理,则尚未受到学术界的普遍重视,而在未有结帐式整理之前,所作的专史研究,其完整性、可靠性都值得怀疑。刘家和先生在《〈崔述与中国学术史研究〉序》中说道:“记得从前有一位学术前辈说过:‘上穷碧落下黄泉,动手动脚找材料。'这已很不容易。而现在是要‘上穷碧落下黄泉,以求有所新发现',这就更是难上加难了。由此我想到了美国科学哲学家库恩(Thomas Kuhn,1922—1996)的一篇文章《必要的张力:科学研究中的传统和创新》(The Essential Tension:Tradition and Innovation in Scientific Research)。他说,科学的发现,既需要发散思维,即对于传统具有突破性的创新思维,又必须有向心思维,即深入传统的思维。这是因为,没有前一思维,就会限于传统而失去创新的可能;没有后一种思维,就不能深知传统中的问题与病因所在,就不知到底为何需要突破,应该从何突破,即使突破也破不到点子上,何来创新?所以他概括地说:‘成功的科学家常常必须同时扮演传统主义者和离经叛道者的角色。'库恩讲的是科学发展的要求,其实对于史学的发展来说,这几乎是同样适用的。这就是要‘上穷碧落下黄泉',要有微观与宏观、传统与创新两极之间的张力。”[3]确如刘家和先生所说,经常保持这种张力是推动学术创新的要素,如果认真反省一下就不难发现,在人文学术研究中,我们有时忽视对古籍文本的深入解读,导致研究结论发生偏差;有时又被前人的成说所左右,不能有所推进。为了中国现代学术的自主、自立,促进中外学术的对话,我们必须比以前任何时候都更加致力于中华元典以至全部古代典籍的深入解读,以求在此基础之上作出更大的学术突破。有人看不起古籍点校或是索引、目录、汇编的编纂,可又有谁能说自己的名山事业从未受惠于点校本《二十四史》、《资治通鉴》或是《二十史朔闰表》、《中国历史地图集》、《十三经索引》、《二十四史人名索引》这样经典的点校本或检索工具呢?人文学术研究是个人的事业,一个人的精力和时间是有限的,而人类知识的积累又绝非一个人所能把握的,如果我们不能大幅度地提高自己的学习效率,而是将有限的时间、精力都花费在浩繁、琐碎的翻检工作之中,那么还谈何学术进步呢?为此,我们需要有经过认真梳理的、反映全部前人研究成果的古籍文本供学术界使用,需要有便捷、高效、准确的查询工具为人文学术研究服务。

  古籍数字化是一项重要的人文学术研究基础工程,不仅需要全体学术研究者和计算机专家的勤奋和努力,更需要现代化技术的支持。我们认为,利用计算机及网络技术进行深入的古籍整理工作,在当今数字化时代势在必行,它必将大幅度地提高我们学习中国古代文化的效率,定会将学者的时间和精力从艰苦而繁琐的爬梳、翻检工作中解放出来,用于推动人文学术研究的发展,对此我们充满了希望。同时我们还应认识到,古籍文献的数字化实际上也是全部中文文献数字化事业的一个复杂特例,它所积累的经验和取得的成果必能广泛地应用于后者,而中文文献的数字化又是数字化图书馆事业的一部分,是国家知识基础设施(National Knowledge Infrastructure简称NKI)的一部分[4],具有十分广阔的应用前景。此外,积极建设网上中文资源库,打破某些国家或某种语言对网络资源的垄断,这将有利于中外学术文化的交流,树立中国人的学术自信心和自尊心。

二、古籍数字化的理论思考

  当前,衡量个人电脑的性能标准已不再是中央处理芯片(CPU)的时钟频率,而是看它的整体可用性如何。软件亦是如此,应用放在了越来越重要的位置上。由于缺乏利益驱动,计算机软件在传统人文学术研究领域的应用还远未提到中国计算机产业界的议事日程上来,这不能不说是一种遗憾。目前,台湾中央研究院已建立起十余个重要的古籍资料库,并逐渐开放于网络[5]。近期日本出版了一本《电脑中国学》(东京好文出版社,1998年11月),书中探讨了计算机技术应用于中国研究的问题,并且提供了大量与中国研究有关的网址,其中绝大部分是属于台湾学术机构的。本来应由最具人才资源和技术优势的大陆学术界完成的事业,却被台湾学术界抢先了一步,不能不说又是一重遗憾。最近,大陆出版界推出了几种大型的电子版古籍[6],引起了社会的普遍关注。然而此类电子读物大多难以差强人意,究其原因就在于我国的计算机产业界很少有人专门从事计算机技术在传统人文学术研究领域的应用研究,对中国古籍及其研究方法也缺乏必要的了解。同时,文史研究者不能勇敢地迎接数字化时代对人文学术研究提出的挑战与机遇,积极地参与古籍的数字化工作,则是另一个重要原因。问题的关键在于人文学术研究向计算机提出怎样的要求,当代计算机技术又为古籍数字化准备了哪些条件,两者究竟如何契合。

  笔者认为,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功。而此种理论是基于对人文学术研究一般过程和计算机数据处理基本原理的认识之上的,所以只有学术界与计算机产业界的密切合作,才能达成尽善尽美的结果。笔者认为,以人文学术研究的角度来看,古代典籍一方面是古代先贤完整地表述思想体系的“撰述”,另一方面又可看作是保存古代历史断片的“记注”[7]。研究先贤的思想,固然要尊重其“撰述”的完整性及其内部的逻辑,将其还原于它的时代语境之中,作“同情之了解”;而研究历史则如艺术家一般,将零星的断片(即史料)小心地补缀成一件完整的艺术品。无论何种研究,每当我们将零星的断片按照一定规则重新排列、组合以后,都会有一种豁然开朗的感觉,因为我们由此发现了那些材料在原有脉络(context)之中难于发现的字面之外的第二甚至第三重含义,以及它们之间的各种内在关联,我们对这些含义和关联作进一步的分析或综合,总会有新的发现及解释,这就是人文学术研究的一般过程。其具体操作过程往往是突破文献的原有结构,将原文献划分为若干基本单位,提取其中指向内部含义的关键词,依照它们的属性进行排序、筛选、统计和分类,比较相关文献中的关键词,寻求他们之间的相关性。这一过程在手工查阅纸本文献的时代,需要学者具有深湛的功力,否则很难得到完美的解决,因为纸本古籍大多缺少必要的索引,而纸本检索工具既不能随读者的要求提供多种排检方式,又无法按照读者的要求产生再生资源,可用性有限;此外,研究者对文献本身的认识是随着研究工作的深入而逐步清晰起来的,其工作初期往往难以明确提出与自己的研究题目完全切合的全部关键词,而是要在较大范围内进行模糊查询或渐进式查询,这更是纸本检索工具所不能解决的。当然我们也看到,传统的点校本古籍为数字化古籍提供了基本样式,纸本检索工具为数字化古籍的查询积累了有益的经验。中华书局版《二十四史》,尤其是《前四史》的点校,可称古籍整理的优秀范本,它吸收了此前的全部前人校勘的成果,为学术界提供了准确、可靠的古籍文本。洪煨莲先生主持的哈佛燕京学社编纂的引得丛书、谭其骧先生主编的《中国历史地图集》、中华书局出版的《二十四史人名索引》、上海图书馆编纂的《中国丛书综录》等,都是嘉惠士林的工具书。引得丛书的语词逐字索引堪称同类索引的典范,《二十四史人名索引》严格的规范控制使读者获益匪浅,《中国历史地图集》所具备的古今地名对照、地名方位查询等检索功能,绝非其他类别的工具书可以替代。数字化古籍一方面应继承纸本古籍及检索工具的优点,一方面又要克服其原有缺陷,淋漓尽致地发挥电子媒体的优势。鉴于中国古籍中知识发现的复杂性及其广阔的应用前景,笔者认为古籍数字化事业对计算机产业界是一个严峻的挑战,无论是系统、软件在中文环境下的易用性,还是信息产业的运营和服务的水平,都须经过古籍数字化事业的检验才是真正的合格。

  虽然我们一再强调计算机技术一日千里的发展,但还是有必要检讨一下其为古籍数字化所作的技术准备。首先,网络技术的飞速发展使信息资源的共享成为可能。几年前网络通信还是少数人的奢侈品,如今信息高速公路已经修到我们每个人的家门口,将世界连接为一个名副其实的地球村。依托这条无远弗届的信息通衢,人类的知识传播和知识创新势必发生新的跃迁。国际互联网提高了电子文献的检索效率,扩大了服务范围,具有便捷的信息传递方式,节省了远程通信费用[8]。其次,新一代高性能计算机的海量存储和秒级运算能力十分惊人,以至普通人已难于预测它明天的发展。海量存储设备已逐渐普及,我们再也不必在空间和时间的矛盾中苦苦挣扎了。电脑CPU的时钟频率一路突飞猛进,1GHz的CPU也指日可待了。复次,新的国际计算机信息处理标准的制定和实施为建构全球统一的信息处理系统奠定了坚实的基础。我们知道,最初的计算机使用的字符集是为人熟知的ASCII码,即基本拉丁字符集(ISO646),仅有96个拉丁字母和符号。随着计算机技术在世界各国的普遍运用,多文种信息处理的要求也应运而生,基本拉丁字符集显然已无法满足这种需求,各国所运用的地区性编码又为全球信息处理一体化设置了障碍。于是在国际标准化组织(ISO)引导下,由国际计算机界、语言文字学界的专家共同制定了通用多八位编码字符集(ISO/IEC10646)。我们现在所使用的中文版Windows95就是实现该标准的一个子集,它采用了中国信息标准化委员会1995年11月制定的汉字内码扩展规范(GBK),收入汉字两万多个[9],虽然目前还不能完全满足古籍数字化的要求,但毕竟为汉字信息处理的国际化和标准化开辟了道路,为中国准备了一把开启数字化时代大门的钥匙。再次,新的计算机应用技术,如非键盘输入技术[10],中文数据库技术[11],多媒体压缩与传送技术、安全保密技术、自然语言理解技术[12],尤其是数据挖掘技术的出现,为古籍数字化事业提供了有力的支持。数据挖掘技术又称数据库中的知识发现(Knowledge Discovery in Database,简称KDD),是指从大量数据中提取出可信的、新颖的、有效的并易于理解的知识的高级处理过程[13]。它已广泛应用于市场行销、产品制造、通信网络管理、金融投资、自然科学研究等许多领域[14]。我们相信,数据挖掘技术运用于人文研究领域,必将创造出更卓越的业绩。非键盘输入技术使文献载体转换方式发生了一场革命,例如自动识别输入技术(ODR)使海量信息输入的工作量大大降低,清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部《文渊阁本四库全书》输入计算机内,为同类工作积累了宝贵的技术财富[15]。最后,面向对象的编程工具的出现使人性化应用界面的编制变得轻而易举。

  如上所述,计算机的特长正在于海量数据的存储、运算(包括排序、筛选、统计和分类)和传输,更可深入文献内部,实现知识的发现,这与人文研究工作的一般过程,即关键词的查询、排序、筛选、分类、统计及其相关性的分析十分相似。既然如此,那么我们就发现了计算机科技运用于人文学术研究领域的基本契合点,我们只须以某种方式沟通两者的语言,就可以充分地发挥计算机的优势,大幅度地提高人文学术研究的效率,为学术积累和学术评论提供更为便利的条件和优化的环境,同时,也就找到了比较完善的古籍数字化方案。

  目前对于数据库厂商来说是一个千载难逢的良机,无论是近期的国家古籍整理与规划小组的古籍光盘工程、北京图书馆的数字化图书馆工程,还是未来的国家知识基础设施工程,肯定会带来计算机网络工程、系统集成、数据通信、软件开发以及服务方面的巨额需求,谁先期投入这一事业,制定出一系列行业标准,谁就占据了相关产业的制高点,分得最大的市场份额,必将成为全国以至全球的信息产业界业巨子。

三、古籍数字化解决方案之我见

  数字化古籍究竟是什么样的呢?它需要具备怎样的功能呢?其数据须经如何处理,使用何种技术才能保证它具备我们需要的功能呢?这些都是摆在我们面前的重要问题。

  首先,好的版本和必要的校勘是古籍数字化的重要前提,没有这一前提,一切功能将无从谈起。我们所谈的古籍数字化事业,其目的不是为大众提供普及读本,而是为学术文化的繁荣奠定基础,这应是参与古籍数字化事业的专家的共识。其次,即笔者曾经一再强调的,数字化古籍的功能不仅在于一般的信息查询,更重要的是古籍文献中的知识发现。最后,它应符合各种国际通用标准,具有开放性,可以在网络上传输,实现信息资源共享。中国古籍数字化的过程,基本上可以视为古籍全文数据库的生成过程。一篇古籍文献输入计算机,就形成了无标引的全文数据库,即半结构化的数据库。目前以中国古籍为内容的电子读物多为此类产品,但这远不能发挥计算机的技术优势,也难以达到研究者的要求,其最大的缺陷就在于它不能象结构化数据库一样经由排序、筛选、分类和统计之类的管理过程产生再生资源,更谈不上知识发现。因此,对古籍中的数据进行充分的分析和处理,制成结构化数据库,与半结构化数据库相结合,才是较为完美的方案。

  如所周知,传统的纸本工具书,包括索引、类编、目录、年表、历史地图等,尽管已经提供了相当多的便利,但是仍然不能摆脱纸本检索工具的种种缺陷,如门类不齐全,排检方式单一,缺少综合条件和渐进式检索方式,无法产生再生资源,只能部分地完成信息查询功能,不能做到海量数据中的知识发现,携带不便、复制困难又在其次。笔者所设想的数字化古籍解决方案正是为了解决纸本媒介存在的上述问题,确保信息查询的查准率和查询率,并实现海量信息中的知识发现。其重要步骤包括古籍文献的载体转换、置标,关键词的规范控制、属性描述及多途径排检。

  载体转换是指从纸本文献到电子文献的转换过程,要求快速而又准确,是保证实现进一步文献处理目标的基础。传统的中文键盘输入技术需要新的突破,走出万“码”奔腾或万“码”齐喑的怪圈,才能适应海量信息的、快速准确的载体转换的要求。非键盘输入技术的逐渐成熟显然已向键盘输入技术提出了挑战,清华紫光开发的一种自动识别软件具有非特定人手写识别功能,识别率达到90%以上,如果再加上逻辑或语法判断,则可进一步提高识别率。

  置标或标引是指通过对文献的分析,选用确切的检索标志以反映文献内容的过程。置标,由于古籍文献中含有非常丰富而宝贵的学术信息,因此必须通过置标这一过程,充分地发掘其中的内涵,以便研究者利用。置标的目的是提取关键词,做数据的预处理,故应足够充分,不放过任何有学术信息的关键词,力求做到从任何角度都能检索到读者需要的信息。清代大学者章学诚曾提出,将古籍中人名、地号、官阶、书目等一切有名可治、有数可稽者都制成韵编(即索引),以收事半功倍之效[16]。一般来说,各类文献中的人名、地名、官名、书名、年代、典故、制度、族属、语词、范畴和其它专名等关键词都须制成索引,另外如文献的主题、体裁、结构、类别、标题、韵脚等特征也要当作关键词来提取。目前,计算机尚无法正确标引古代汉语文献,所以将已有的纸本检索工具转换为数据库,并开发出标引古籍的智能化软件,是古籍数字化的当务之急。当然,鉴于古代汉语的复杂性及文献特征的多样性,依托熟悉古籍的专家仍然是必不可少的。

  规范控制是为了保证文献标目的一致性,以便有效地实现对标目进行统一管理的手段,规范标目记录以下内容:规范标目,规范标目与相关标目之间的参照关系,选取标目及确定其参照关系的依据。规范控制在纸本检索工具中曾被广泛运用,并取得了很大成功。但是我们必须注意到,以往的检索工具多为专名类型索引,在非专名类型索引的规范控制方面,学术界的成果和经验还不多,既有的主题词表不仅不能涵盖古籍中复杂的语言现象,更难于跟上人文学术的发展进程,我们有必要重新建立规范古籍语词及专名的标准。

  排检是指检索工具的排序方式和检索途径,它限定着读者的检索策略,直接影响检索效果。一般的纸本检索工具多使用以关键词外部特征为序的排检方式,不能满足读者的信息查询及知识发现的要求。纸本检索工具包含着这样的预设,即认为读者事先已确知所须检索的关键词,但实际上往往并非如此,抑或即使确知,依然需要按其内部特征追寻关键词之间的相关性。不难发现,依关键词外部特征排检的检索工具提供给读者的关键词之间的关联信息较少[17],而依关键词内部特征排检的检索工具则可提供更多类型的关联信息,便于读者发现新知识。但是限于纸本媒体的特征,多功能检索工具的编纂难度很大,而数字化古籍正适于实现多途径排检功能,这就要用到关键词的属性描述方法。

  描述关键词的各种属性是为了计算机能依照属性对关键词进行分类、排序、筛选、统计之类的管理,产生再生资源,以利知识发现。所谓关键词的属性描述,其实质就是将关键词的属性特征作认真严格的分析,制成数据库,再将目前为止学术界所了解的有关它的全部知识都填入数据库之中。研究越深入,所能反映的关键词的内涵及其关联就越丰富,检索效果越理想,发现的知识越新颖而可信,所以我们必须毫无遗漏地将已经取得的研究成果纳入其中。于是,这一数据库的设计就变得十分重要。不同类型的关键词具有不同的属性,如人名的属性显然与书名不同。同一类型关键词因其主题不同又有所区别,如帝王有即位年代的属性,士大夫以下则没有。同时,任何关键词的属性还因其规定性特征有所不同,如官僚所任之官有时代之别,又有品阶和类型(如散官、勋官、职事官、加官、赠官等)之别。为了处理如上十分复杂的情况,我们可以利用中国机读目录格式(China MARC)的思路来设计这种可实现知识发现功能的关键词数据库。机读目录格式是一种多层次的开放式数据库,它原本用来详尽地描述书目型关键词的各种属性,并进行基本管理。由于它允许用户自由定义各字段和子字段的内容,因此可以改造为一种描述和管理各类关键词的数据库。理论上,它应是一种通用的综合的信息管理数据库,能管理各种不同类型的数据,包括文本、日期、逻辑、图像、视频、声音等[18],符合(或者创造)国际标准,具有多个检索出口,可通过多种检索途径实现信息查询和知识发现。它分为记录、字段和子字段三个层次。首先,以对一个关键词的全面描述为一条记录。其次,以记录之下的通用字段描述不同类型关键词的相同属性,如以规范标目字段描述各类关键词的规范标目属性,以非规范标目字段描述相关非规范标目属性,以主题字段描述各类关键词的主题属性,以款目连接字段描述此关键词与它关键词之间的相关性,以附注字段作自然语言的附注等;又以特殊字段分别描述各类关键词的特殊属性,如以籍贯·郡望字段、历官字段、家族谱系字段来描述人名类关键词,以四部类别字段、载体形态字段描述书目类关键词等;最后,以字段之下的子字段反映属性的规定性特征,如以历官字段之下的品阶子字段描述历官的品阶,以类别子字段描述历官的类别,以部门子字段描述历官所属的部门,以年代子字段描述历官的起讫时间等。常规字段规定为必须使用,非常规字段或非相关字段则可选用,字段或子字段依其性质规定为可以重复和不可重复两类。一般的单一条件检索,其检索结果(报表)可以表格形式输出,如果是复合条件的检索,其结果又不便以表格形式表达,就需要编制合乎传统检索习惯的其它输出形式,如职官年表、百官志、家谱、历史地图等形式。以人名索引为例,依照职官年表的方式排检,可由一个人名查到他的同僚、前任、继任,如果按照百官志的序列排检,又可查到他的上级、下级,如果按照谱牒的形式排检,则可查到他的祖先、兄弟、姊妹、子孙及姻亲。以地名索引为例,依照历史地图的形式排检,可查到地名的方位,所属的自然区域、行政区划以及它的历史沿革。机读目录格式包含了供检索用的纪录头标和指针,这样经由基本的数据库管理手段,我们就可以实现数据库的多途径排检功能了。

  除了以上有关古籍全文检索数据库生成的问题之外,还有应用界面的问题需要探讨。笔者认为,浏览界面是古籍数字化解决方案中必不可少的组成部分,如果没有浏览界面,那么古籍就会变成一堆支离破碎的词汇或段落,无法阅读,而阅读是数字化古籍的首要功能,不能放弃[19]。数字化古籍的浏览界面最好以国际通用的HTML语言编写,使用普通的网络浏览器阅读,可用于网络发布和光盘(CD-Web)制作。目录、正文和注释等内容可层级显示,读者可使用目录树直接跳转到需要阅读的正文,也可根据需要仅显示正文或显示部分以至全部注释。充分利用电子媒体的特性,正文之中必要的地方应插入声音、图像或视频剪辑等多媒体,方便读者。它以超文本链接(包括网络映射)揭示文献或关键词的意义及其间的内在关系,例如读者遇到陌生的关键词时可以跳转到网络上权威辞书的相应辞条或最新的研究成果,以扫除阅读障碍,深入解读文献;另一种情况是读者阅读此文献时能够追寻其中引用的彼文献,点击关键词之后可跳转到引用文献的相应篇章、段落或条目;更重要的是以超文本链接的形式将古籍篇章中的基本问题与历代的研究成果联系起来。当然,这样预设的超文本链接必须准确地反映知识体系之间的层次和关联,如果稍有偏差,就会发生失之毫厘,谬以千里的情形。浏览界面最好配合智能网络搜索引擎,允许读者建立自定义的超链接。另外一个应用界面是查询界面,它要与关键词数据库相配合,具有不同类别的各种关键词、同类关键词的不同属性及相同属性的不同规定性特征三层查询条件,还有各种查询条件之间逻辑关系的组合形式。关键词数据库作为后台数据库支持读者信息查询和知识发现的要求。其检索结果以HTML文档的形式显示于浏览器上,建立检索结果到所出文献的超文本链接,读者可由此跳转至原文献,以实现指向文献内部意义的知识发现[20]。无论是浏览界面,还是查询界面,都必须具备人性化特征,符合读者的检索习惯,并辅以必要实用的使用说明(帮助),不给读者增加学习负担。这样就构成了完整的古籍数字化方案。

四、余论:学习的革命

  图书文献的数字化是数字化图书馆事业的基础,而数字化图书馆以及国家知识基础设施的建立势必引发一场知识传播或学习的革命。以往人类传播知识的方式不外文字记载和言传身教两类,前者传播范围广泛,后者易于表述经验,而国家知识基础设施将兼有两者的特长,它通过计算机对公共知识的处理,模拟人类学习知识和形成智能的过程,使人类较为容易地获取知识和经验[21]。更重要的是,仅仅依靠图书分类法来建构人类知识体系的时代已一去不复返了,利用计算机及网络技术,我们能更全面、完整而确切地表达自己的知识、经验和智慧以及它们之间的关联,前贤可以在不知不觉之中将他们毕生积累的知识和经验转化为后学的常识,而且可以不受时空限制地迅速传播。因而人类的学习过程也将变得日益轻松、富于人性化和高效率。那时,我们的学习将从巨人肩膀上起步,彻底抛掉碾碎人类鲜活智慧的教科书,更可以避免不负责任的教育者加之于幼小心灵的伤害。网络将在其中扮演重要角色,它成为一种独立媒体已经为时不远了,它必将与其他四大媒体并驾齐驱,成为传播人类知识的重要媒介,并且决定着我们的思维与生活方式。它还将有助于打破强势话语对知识、思想、信仰的垄断,消除大众文化对精英文化的扭曲,作为民主制度的一部分,服务于社会。

【注释】

[1]中国社会科学院计算机室曾经在栾贵明等先生指导下就此课题进行过探索,见田奕《古籍整理与研究的电脑化》(载《中国文化》9期,1994年2月,85—89页),但其电子版产品并未公开。

[2]胡适《〈国学季刊〉发刊宣言》,原载《国学季刊》一卷一号,1923年1月,此据欧阳哲生编《胡适文集》三,5—17页,北京大学出版社,1998年12月。

[3]邵东方《崔述与中国学术史研究》,《序》1—10页,人民出版社,1998年4月。

[4]国家知识基础设施是应用计算机及网络存储和传播人类知识、经验和智慧,改变人类知识获取方式的全新体系,包括通信网络、高性能计算机群、知识库系统和应用界面四个层次。见曹存根《NKI——21世纪的科技热点》,载《计算机世界》1998年50期,12月28日,产品与技术版,D1,3页。

[5]见黄宽重、刘增贵《中央研究院人文计算的回顾与前瞻》,载《汉学研究通讯》总66期, 145—168页(台湾中央研究院计算中心的网址为(http://www.sinica.edu.tw)。但是中央研究院的资料库也不能完成知识发现功能,所以还有进一步研究的必要。

[6]如武汉大学出版社的《文渊阁四库全书》光盘、上海人民出版社与北京书同文电脑公司合作的同名光盘,以及文物出版社、人民美术出版社、上海人民美术出版社与北京银冠电脑公司合作的《中国美术全集》光盘等。

[7]撰述和记注系借用章学诚的概念,见《文史通义·书教》下,《章学诚遗书》,4页,文物出版社,1985年8月。

[8]见董小英《Internet——数据库产业发展的新机遇》,载《互联网世界》1999年1期,36—38页。

[9]见朱岩《多文种信息处理与图书馆现代化》,载《现代图书情报》1996年5期,6—9页。北京中易电子公司和中国标准化技术开发公司联合开发的“全汉桥2000”汉字系统很可能成为未来的国际新标准,它拥有十万汉字字库。(见《郑码超级汉字系统收集10万汉字》,载《计算机世界》1999年6期,2月8日,综合新闻版,A11页)可用于古籍整理出版,电子版高丽大藏经已用此系统制作成功。(新江、吴宁《光盘版大藏经时不我待》,载《世界宗教文化》1998年4期,6—9页。)

[10]见侯怡波《“笔”妙自生花——非键盘输入技术时代正向我们走来》,载《互联网世界》1999年1期,70—74页。

[11]见王珊、林耀森《中文数据库的研究与展望》,载《计算机世界》1998年34期,9月7日,技术专题版,D1页。又马应章《中文数据库——数据库本地化的重要议题》,载《计算机世界》同期,D4—5页。

[12]孟小峰、王珊《中文数据库自然语言界面研究》,载《计算机世界》1998年34期,技术专题版,D8—9页。

[13]见高文《KDD:数据库中的知识发现》,载《计算机世界》1998年37期,8月28日,技术专题版,D1页。又朱廷劭《数据挖掘——极具发展前景的新领域》,载《计算机世界》1999年1 期,1月4日,产品与技术版,C14页,文中提供了三个网址访问KDD in China :清华AILINUX(http://ailinux.ml.org/~kdd)、中山国际(http://202.96.189.28/kdd/index.html)和沈阳SYNET(http://202.112.29.35/kdd)。

[14]见朱廷劭、王军《数据挖掘应用》,载《计算机世界》1998年37期,9月28日,技术专题版,D5, 8页。

[15]古籍的载体转化固然十分重要,但数字化古籍事业须综合运用多种计算机技术,绝非单凭一项OCR技术能够完成。

[16]见《校雠通义·校雠条理》,《章学诚遗书》,98页。

[17]好的检索工具依关键词的内部特征排列正文,而以其外部特征排列索引,例如《中国丛书综录》“总目”和“子目”的正文以四部分类法(类别属于书目关键词的内部特征)来部勒群书,而辅以书名和作者(关键词)首字的四角号码、笔画、音序(均属外部特征)索引。但是这类检索工具多限于目录(如《中国丛书综录》)、职官年表(如吴廷燮《唐方镇年表》)、法令汇编(如仁井田升《唐令拾遗》)等,而其他类别的检索工具多只依关键词的外部特征排检,不能体现关键词的相关性,读者不能通过查询一个关键词从而查得与此相关联的其它关键词。例如《世说新语笺释》书后附有引书索引,为读者提供了极大的方便,但是我们如果要检索《世说新语》及刘孝标注中所见的家谱,就必须阅览全部的引书索引才能获得检索结果,因为引书索引只有书名首字的笔画排检方式,而没有分类排检方式,读者无法即类求书。

[18]由于高性能计算机具备海量存储设备,而且价格低廉,所以我们不必担心这种数据库占用过多空间。

[19]台湾中央研究院计算中心所制作的某些古籍资料库没有浏览功能,如“二十五史资料库”,这不能不说是令人遗憾的缺失。

[20]其具体的技术实现方法见李泽光《用idc/htx实现网络数据库Web信息检索》,载《计算机世界》1999年5期,2月1日,电脑与生活版,E14页。

[21]见曹存根前引文。

原载《国家图书馆学刊》1999年02期