中文古籍数字化方法之检讨

陈力
(研究馆员 国家图书馆副馆长)

  【内容提要】自上世纪八十年代古籍数字化开始出现到今天,成绩斐然,但也存在不少问题,如缺乏整体规划与协调,相关技术标准与规范不统一,对古籍数字化工作的特点认识不足,对古籍数字化工作的定位不够明确。古籍类型多样,形式与内容有非常密切的关系。根据不同古籍的不同特征选择适当的技术,知识组织模式进行数字化以完整,准确地反映不同类型古籍中所蕴含的信息是提高古籍数字化水平的关键。同时,古籍数字化工作是数字图书馆建设的重要组成部分,因此应该遵循数字图书馆建设的一般规则,古籍的特殊性应该在统一标准规范的框架下进行细化,应该采用开放式的,分层次的,结构化的数据库来组织和揭示资源,应该特别注意在古籍与古籍之间,古籍与现代普通图书之间建立起有机的联系,以为读者提供一个完整的知识体系。

  【关键词】古籍;数字化;数字图书馆

 

  从上一世纪八十年代中文古籍数字化开始出现到今天,已经有二十多年历史了。在台湾地区,从八十年代开始,一些学者和研究机构就已经着手研发以古籍为主的资源库,如罗凤珠先生的“《红楼梦》网络教学研究数据中心”,《全唐诗》,《全宋词》,《宋代名家诗》网络版等。在机构方面,台湾中央研究院研发的“翰典全文检索系统”[1],它不仅收录了不少重要的典籍,同时其强大的文本检索功能也给读者利用古籍带来了全新的感受。台湾汉学研究中心制作的“善本丛刊影像先导系统”等也已陆续提供服务[2]。CBETA中华电子佛典协会的“在线藏经阁”,已经完成了《大正新修大藏经》,《续藏经》以及一些佛教参考文献和工具书的数字化,并提供免费下载服务[3]。近年,台湾有关机构提出了一个庞大的“数位典藏计划”,其制作单位涵盖图书馆,博物馆,研究机构等,与古籍有关的内容包括:善本古籍典藏数字化,金石拓片典藏数字化,古籍附图典藏数字化以及“台湾地区地方文献典藏数位化”和“期刊报纸典藏数位化”等等[4]。

  在香港地区,香港中文大学中国文化研究所先后推出了先秦两汉,魏晋南北朝古籍数据库以及竹简帛书和甲骨文数据库,成绩也相当可观。

  在国外,日本,美国,英国等也都在中文古籍数字化方面作了大量工作,如国际敦煌学项目作为一个国际合作性质的中文(包括一些中国古代少数民族文字)古籍数字化项目[5],目前已经取得令人瞩目的成果。

  大陆地区的古籍数字化工作也开始于八十年代,到八十年代末,也取得了一些成绩,但当时大部分的工作主要还是在学者的书斋中进行的,并没有对社会产生太大的影响。进入九十年代以后,随着计算机的普及及网络技术的发展,古籍作为一种重要的民族文化遗产,受到了高度重视,因此在一些读书网站中,如“黄金书屋”,“新语丝”等就已经有了相当数量的古籍,内容包括古典小说,历代史籍,儒家经典和诸子等等,数字化的形式主要是人工输入的一般电子文本。

  九十年代中期以后,一些大的出版机构,学术机构和商业公司介入了古籍的数字化工作,古籍数字化的规模迅速扩大,例如中国国家图书馆制订了一个庞大的古籍特藏文献的数字化计划[6],包括:“碑帖菁华”[7],“西夏碎金”[8],“敦煌遗珍”[9],“数字方志”[10]以及甲骨文,《永乐大典》等,其中有些项目已经完成,其成果可以通过网络为读者提供服务,有的项目正在进行中。北京大学正在进行的《中国基本古籍光盘库》,计划收录古籍一万种。北京大学图书馆推出了“秘籍琳琅”项目[11],中华书局正在进行中华古籍语料库的建设,上海人民出版社与迪志文化出版有限公司合作推出了文渊阁《四库全书》全文检索版,书同文数字化技术有限公司推出了《四部丛刊》的全文检索版[12],国学公司推出了《国学宝典》等系列产品[13]。

  在上述的古籍数字化项目中,或以文献特色胜,或以数量胜,或以使用功能胜。可以这样说,在公开的中文文献数据库中,无论是数量还是采用的技术手段,古籍数字化工作所取得的成就都是最为耀眼的。

  中文古籍数字化工作如何在现有的基础上继续向前发展这需要对以往的工作进行一番总结,特别是通过对存在的问题的分析,找到解决问题的方法,找到继续向前发展的方向与突破点。下面,我们重点就大陆地区古籍数字化的现状和存在的问题稍作检讨。

  目前,中国大陆古籍数字化工作除古籍爱好者和研究者零星进行的古籍数字化工作以外,成规模的数字化工作基本上是由三种类型的机构来进行:一种类型为教学和研究机构,一种类型为图书馆,还有一种类型则是商业机构。这三种类型的机构在进行古籍数字化时是各有其特点的:

  教学和研究机构对数字化对象选择目的性强,数字化的目标及方法主要是根据教学和研究工作需要来决定,例如中国社会科学院的数字化项目包括:《全唐诗》,《先秦魏晋南北朝诗》,《全上古三代秦汉三国六朝文》,《十三经》,《全唐文》,《诸子集成》等等,北京大学的《全宋诗》等皆是如此。

  图书馆所进行的古籍数字化,则主要是根据其馆藏特色来进行,如中国国家图书馆,北京大学图书馆的古籍数字化项目基本上是按这个原则来规划的。

  至于商业机构,其古籍数字化的内容主要是根据市场来决定的,哪一类文献有市场,就进行哪一类文献的数字化。考虑到市场的运作,常常会选择大型类书,丛书,如《古今图书集成》,《四库全书》,《四部丛刊》等等。

  不同类型的机构根据自己的情况进行有特色的数字化对于推进古籍数字化的工作无疑是必要的,但是,其中所存在的一些问题也不可忽视,有些问题已经引起了人们的注意[14],而有些问题还没有引起足够的重视。

  中国古籍的数字化是一项中华文化遗产的保护和弘扬工作,具有强烈的公益性色彩,需要各方面加强协调,有一个整体的规划。整体规划不仅包括数字化对象的内容确定和合作分工,同时包括相关标准,规范的统一,而恰好这两方面的问题在目前古籍数字化工作中表现最为突出。

  就协作方面的问题而言,主要是关注焦点过于集中,重复建设。

  中国古籍的数字化目前是各自为阵,虽然数量已经不少,但关注的焦点过于集中,并且多数都带有商业色彩或者追求规模与宣传效应,致使古籍的数字化集中于"少数"常用特别是丛书类的古籍,而一些学术界需要的古籍鲜有顾及。例如文渊阁《四库全书》先后已有三家进行过影像的数字化(上海人民出版社与迪志文化出版有限公司的光盘版,武汉大学出版社的光盘版,“中美百万册书数字图书馆”的网络版等),一家进行了影像,全文文本的数字化(上海人民出版社与迪志文化出版有限公司的网络版),此外还有一些机构曾经也进行过相同的工作,只是由于各种原因最后没能面世。至于像二十五史这类规模稍小但更常用的文献,其数字版本就更多了。

  就标准,规范方面的问题而言,由于制作单位不同,各自的利益不同,所制作的古籍数据库常常是封闭的,在技术上很难与其他数据库融为一体,造成知识体系的割裂。同时,出于保护各自的知识产权或有利于产品占领市场,不少机构并不采用通行的工业标准,而是自行设定相关的数字化加工与组织标准。

  上面所提到的问题,无论是协作还是标准与规范,都是属于表面层次的问题,是比较容易发现的,而另外一些问题常常被人忽略,但就其性质而言,更应引起我们的重视:

  第一,对古籍数字化工作的特点认识不够。古籍较之其他类型文献有什么特点如何在数字化时体现这些特点

  第二,对古籍数字化工作的定位不够明确。古籍数字化与其他文献的数字化是什么关系它在整个数字图书馆建设中处于什么样的地位作为文献的一种类型,古籍的数字化与其他文献的数字化相比,有其共性,但也有其个性,为了体现这些个性,需要我们采取一些特殊的加工手段和技术措施。因此,根据古籍的特点来进行数字化是提高古籍数字化水平最主要的途径。

  如何进行古籍的数字化海内外已有不少学者对此进行过专门研究,不过讨论主要集中在汉字字符集,OCR识别及版面还原和全文检索等方面。随着计算机技术的发展,上述问题已经不再是什么大问题了,因此,已有学者开始从更广的角度提出了对古籍数字化更新的功能需求。北京大学李国新教授提出:第一是必须实现文本字符的数字化,第二是具有基于超链接的浏览阅读环境,第三是具有强大的检索功能,第四是具有研究支持功能。

  李国新教授所列前三项是一般文献数字化都应该具有的,也就是说,并非古籍的特性。关于第四项,李国新教授提出的具体内容是:“所谓'研究支持功能'是指能够提供有关古籍内容本身科学,准确的统计与计量信息,提供与古籍内容相关的参考数据,辅助工具。这些信息,数据或工具都是古籍内容的增值或补充。比如古籍字数,字频,词频的统计资料,异体字的汇聚显示,读音的自动标注和朗读,行文风格特点的概率统计,必要的背景知识,参考数据的汇聚,在线标点断句工具的配备,不同版本比勘校对接口的设置,字典词典,历史年表,历史地图等研究工具的载入,等等。”[15]的确,近年来不少机构在进行古籍数字化时,都将注意力逐渐集中到了李国新教授所提到这些方面,在进行数字化时比较注意相关工具的开发。

  除了对相关工具的研发以外,在古籍数字化方面我们还能作些什么也有人提出希望建立古籍整理的专家系统,以实现古籍版本的自动校勘,自动查错,自动断句标点,自动注释,自动翻译为白话[16]等等。数字技术能否取代人脑进行上述有些明显属于思想层次的工作,目前我们并不敢抱太多的幻想[17],不过,今天数字化技术的进步的确已经为我们从更广的领域,更深的层次进行文献加工整理从而向读者提供全新的服务提供了可能。

  在纸本时代,我们对文献的认识与管理主要是针对其物理形态进行的,至多我们能够对其主要内容进行一些抽象的描述。在数字化时代,我们对文献的管理,已经突破了文献的物理形态深入到了它所包含的信息单元,并且能根据我们对这些信息单元的理解与把握将之进行分合,重组,以向读者提供针对性更强,内容更丰富的信息服务,而在进行信息单元的分合,重组时,首先面临的就是对加工对象特点的正确把握与处理。

较之其他类型的文献,古籍有什么特点

  古籍的特点,首先是版本的问题,包括古籍版本的选择问题,古籍版本的比较问题,已有古籍研究成果的利用问题以及一些因古籍的特殊性而产生的全文检索与规范控制等问题。

  关于古籍的版本选择,这是古籍整理与数字化首先要遇到的问题。在传统的古籍整理,研究工作中,它就是学者们普遍遵循的原则之一。就目前的古籍数字化现状而言,由于种种原因,一些机构在进行古籍数字化工作时,通常喜欢选择丛书或易于获得的文献,而不是根据版本的优劣来选择,其造成的后果就是已经数字化的古籍并不是最好的版本,这自然会极大的影响质量。因此,今后的古籍数字化应该聘请专家对古籍的版本进行筛选,尽量选择好的版本进行数字化。

  与古籍版本选择直接相关的就是古籍版本的比较问题。许多古籍都不止一个版本,虽然我们可以勉强说某种古籍的某个版本比较好,但这并非绝对的,因为不同版本之间的异同也许互有短长。同时,根据对不同版本异同的分析我们也许能从中了解更多,更重要的信息。因此,版本的比较在古籍的整理工作中是非常重要的。在利用纸质文献时,我们常常会搜集不同的版本进行比勘。在数字化时代,直接采用扫描的数字化影像文献由于阅读不便,因此即使我们有了不同版本的数字化影像文献,但使用起来会非常困难,远不如纸质文献。如何利用现代信息处理技术来处理不同版本的比较问题将是我们今后必须考虑的[18]。

  全文检索是古籍数字化进程中最先受到重视的技术。简单的全文检索在几乎所有的文本编辑和对象数据库中都能实现,但从目前国内几种使用最普遍的古籍数据库的情况来看,一个比较大的问题就是如何处理古籍的繁简字,异体(形)字,俗字的识别与检索问题。由于在进行大规模的古籍汉字识别时,需要高水平的专家对文字把关,但在实际工作中做起来是非常困难的,一些大型古籍数据库在制作时,操作人员限于水平,不能识别古籍中的异体(形)字,俗字,不得不“依样画葫芦”,其结果就是大量生造Unicode表外字,不仅在检索时一个字列出一大堆繁简字,异体(形)字,俗字,生造字,增加了检索"噪音";同时,由于大量生造的Unicode表外字,也增加了数据库在开放,共享方面的困难。

  在中文数字化工作中,为了提高检索效率,防止过多的“噪音”,因此人们非常重视汉字的标引特别是词典切分标引。词典切分标引对于现代文献可能相对较易,但由于古籍及古代汉语的复杂性,在实际工作中做起来是非常困难的,它不仅要解决防止“噪音”过多的问题,还要解决字,词在特定的语境中含义不同的问题,这已经属于人工智能的范畴了。此外,还有一些问题需要解决,如同书异名,同名异书,同一作者有不同的称谓,其他如职官,地名,事件名等都与现代很不相同,例如“李世民”=“唐太宗”,“南京”=“天京”(太平天国),“太平天国起义”=“洪杨之乱”等,非常复杂,这是一个尚待研究的课题。这些问题有的在传统的文献整序时已经有了解决的办法,也就是我们在文献编目时经常要提到的"名称及主题规范","权威档"(Authority),通过对文献进行规范控制,我们可以基本上解决一般性的异名问题。但是,由于古籍的数字化同现代文献编目不同,它主要是对文献内容的数字化处理,而不是对文献某些特征的抽象性描述,有些问题可能需要建立一些知识性的支撑数据库(或工具库)来解决,如对古籍中地名,职官名的处理。以地名为例,古籍中的地名与今天的地名很不相同,一地有数名,一地的四至(范围)在不同时代各不相同等等,这使得古籍中的地名规范处理起来非常困难,因此,建立一个以现代地理信息系统(GIS)的方式构建的古代地理信息系统就非常必要了,作为全国乃至全世界同行在进行古籍数字化时通用的知识性支撑系统,这个系统并不是简单附上一个电子地图,而应该根据文化的或行政的区划变迁绘制不同的地图,以正确地反映不同时代文化,政治地理的变迁情况,同时辅以古代地名规范数据库。这将是一项极为浩大的工程,需要各方协作。目前,大陆,台湾以及美国的一些学术研究机构已经开始了中国古代地理信息系统的研制,中国国家图书馆也开始了古籍地名,人名等规范数据库的制作。

  关于古籍数字化工作的定位,所涉及的问题更为复杂。就目前的情况而言,中文古籍数字化的成果,无论其制作机构是什么,读者大多是通过图书馆或其他一些文献收藏或传播机构来利用的。由于不同古籍数字化制作机构各有其考虑,各有其利益,因此在标准与规范方面难以统一,独立成库,互不开放,不仅难于与其他古籍数字化项目共享资源,也很难纳入各图书馆整个的文献资源体系之中。

  我们认为,古籍是人类整个知识体系中的一个组成部分,古籍不应该与现代普通文献割裂开来。数字化文献只是我们对文献的一种处理方式,数字化的文献也不应该与非数字化的文献割裂开来。因为,至少在可以预见的将来,我们不可能将所有文献数字化,一个完整的文献信息体系将同时涵盖数字化和非数字化的文献。我们可以通过数字化的手段,如现在一般图书馆都已广泛应用的计算机机读目录将数字化与非数字化的文献连接起来,从而构成一个完整的知识体系。因此,我们希望在一个通用的平台上,读者既可以进行一般性的书目包括现代图书与古籍的查询,同时根据需要可以直接切换到古籍甚至相关的现代研究性著作的全文上,如果再加上一些相关的知识性辅助工具,将使读者对古籍的利用进入一个新的境界。

  古籍数字化工作是数字图书馆建设的重要组成部分,因此应该按数字图书馆的模式去组织,加工,发布。古籍数字化应该是以开放式的,分层次的,结构化的数据库来组织与揭示,在进行数字化加工时应遵循与现代图书统一的标准规范,古籍的特殊性应该在统一标准规范的框架下进行细化。各机构之间或同一机构不同的数字化项目之间,可以通过某种形式的共享协议或技术,使所有的资源能够在同一平台上使用并互相调用。同时,在大多数情况下,古籍与现代图书的知识库应该是可以共享的,如字典,历史年表,纪年换算,历法换算,各类规范数据库,地理信息系统等等。

  如前所述,版本问题是古籍数字化工作中一个非常重要的问题,除了选择好的版本以外,如何让读者能够方便地了解和使用该书的其他版本,或者虽然不同书,但却有相同,相近,相关内容的文献,这也是我们在进行数字化时应该考虑到的。我们当然可以在进行数字化时就将一部书的不同版本一起数字化,但在实际的操作中,这却是很难办到的,在很多情况下,也是不必要的。要解决这个问题,应该将单种的古籍置于一个更庞大的古籍资源体系中来考虑,如果我们在进行数字化时遵循一定的标准,规范,遵循开放性原则,相信可以通过一定的检索手段与内容关联方法给读者提供版本和内容比勘的方便。

  从2002年开始,由科技部委托国家科技图书文献中心协调,中国科学院文献情报中心,中国科学技术信息研究所,国家图书馆,CALIS管理中心,北京大学图书馆,上海图书馆等21家单位联合

  进行了数字图书馆的相关标准规范研究[19],其中直接与中文古籍有关的包括:《舆图描述元数据著录规则》,《舆图描述元数据规范》,《拓片描述元数据著录规则》,《拓片描述元数据规范》,《家谱描述元数据著录规则》,《家谱描述元数据规范》,《古籍描述元数据著录规则》,《古籍描述元数据规范》,《地方志描述元数据著录规则》,《地方志描述元数据规范》等等。此外,还制订了不同类型数字资源的加工标准和规范,如对古籍,拓片,舆图,字画,手稿,文牍,契约以及甲骨,金石,竹简,陶器等实物的三维造型等等。目前,这些标准,规范正在测试之中。我们相信,如果在古籍数字化工作中遵循一定的标准规范,不仅会有利于古籍数字资源的共享,同时,对于古籍内容深层次的揭示,版本的比勘等等都具有重要的意义。

  古籍数字化工作是一项系统工程,无论是从项目规划还是到社会资源的共建共享,都需要以协作和开放的精神来开展工作,不仅在标准与规范上需要协作与开放,在古籍数字化的体系结构上需要协作与开放,在项目的规划与实施上更需要协作与开放。只有集中各方面的智慧与资源,才能使中华民族的文化遗产得到全面的继承与弘扬。

【注释】

[1]http://www.sinica.edu.tw/ftms-bin/ftmsw3,查询于2005年5月12日。

[2]http://www.ncl.edu.tw/f89.htm,查询于2005年5月12日。

[3]http://ccbs.ntu.edu.tw/cbeta/result/index.htm,查询于2005年5月12日。

[4]http://www.ndap.org.tw/,查询于2005年5月12日。

[5]http://idp.bl.uk/,查询于2005年5月12日。

[6]http://www.nlc.gov.cn/nav/insite.htm,查询于2005年6月7日。

[7]http://202.96.31.42:9080/ros/index.htm,查询于2005年5月12日。

[8]http://202.96.31.42:9080/wenxian,查询于2005年5月12日。

[9]http://idp.nlc.gov.cn,查询于2005年5月12日。

[10]http://202.96.31.42/chronic/index.htm,查询于2005年5月12日。

[11]http://rbdl.calis.edu.cn/index.htm,查询于2005年5月12日。

[12]http://www.unihan.com.cn/html/index.htm,查询于2005年5月12日。

[13]//www.trostore.com/cp/cpfront.htm,查询于2005年5月12日。

[14]吴宣德:《古籍数字化:现状,问题与趋势——从一个使用者的角度看》,http://myqf.nease.net/gengyusuoji/guji.htm,查询于2005年5月12日。

[15]李国新:《中国古籍资源数字化的进展与任务》,《大学图书馆学报》,2002年第1期。

[16]潘德利:《中国古籍数字化进程和展望》,《图书情报工作》,2002年7期。

[17]关于这方面的问题,罗凤珠先生曾有专文讨论,参见《在因特网建立汉学研究环境的重要性及可行性——就中国文学而论》,《汉学研究通讯》,第16卷第1期,1997年2月;《台湾地区中国古籍文献资料数字化的过程与未来的发展方向》,《五十年来台湾人文学术研究丛书——文献学与图书资讯学》,学生书局,2000年11月。

[18]高大威先生曾就此问题有专论,并提出了四种解决的方法,但其所谓最佳的二种解决办法皆欲某一文献的所有版本纳入一个树状结构的数据库之中,虽高先生也曾设想“在各古籍,各版本之间研发一套‘整合检索',‘交叉浏览'与‘原文比对',‘随选打印'等功能”,甚至“可另外研发古籍影像系统,两相连结”,但其设计的思路仍是以封闭式的封装数据库结构为基础,较之现代数字图书馆资源组织模式仍有较大差距,不过高氏的观点仍是值得注意的。参见高大威:《汉籍电子数据库建构方式之基本分析》,《文传论丛——2002“第二届汉文化数据库国际学术研讨会”论文集》,http://www.hanculture.com/file/20040421161330_05.pdf,查询于2005年5月12日。

[19]http://cdls.nstl.gov.cn/cdls2/w3c/,查询于2005年5月12日。

原载《国家图书馆学刊》2005年第3期