中文古籍数字化的成果与存在问题

陈 阳
(作者单位:北京大学新闻与传播学院)

  摘 要:我国古籍数字化的发展过程依次经历了数据库检索系统、光盘版古籍、古籍网络化三个阶段,取得了丰硕的成果。数字化古籍具有检索、输出方便,有利校勘,功能多样等优势,其制作技术也日臻完善,但问题仍然存在。

  关键词:古籍 数字化 数据库

 

  浩如烟海的古籍资源是中华文明特有的存留,也是祖先留下的宝贵财富。据杨家骆先生1946年统计,仅西汉前至清末的古籍就有181755部。传统的古籍整理主要依赖手工进行,不但操作费力、效率不高,而且成果的利用也存在种种困难。电脑和网络的出现与普及,不仅为古籍资源整理提供了工具,而且为其成果的传播提供了有效的媒介。有学者认为,数字化将成为保存、整理和利用古籍资源的趋势。

  所谓古籍数字化,是利用现代信息技术将古代文献转化为电子媒体的形式,通过光盘、网络等介质保存和传播。我国古籍数字化的发展经历了古籍数据库检索系统、光盘版古籍、古籍网络化三个阶段。

一、中文古籍数据库

  古籍数据库检索系统的开发始于20世纪80年代初,主要是以数据库的形式储存古籍文献的相关资料,作为古籍研究的辅助工具。它可以利用计算机在资料的储存、整理、检索、数据统计以及索引编制等方面的优越性,改进古籍文献检索方式,对古籍资源的研究和开发非常有利。

  最初的古籍数据库主要是书目数据库,它始于南京图书馆、辽宁图书馆、浙江图书馆等省市级大型图书馆,为方便读者相继建立了馆藏古籍书目数据库。目前,南京图书馆的古籍书目数据库已经建立了40万条中文古籍书目数据。该数据库设有书名目录、著者目录、分类目录等,可以通过输入古籍名称检索该古籍的全部版本,也可以通过输入著者名称检索馆藏全部相关书目。

  比书目数据库在技术上更进一步的是全文数据库,它将古籍资源全文录入,转化为电子文本,供用户查阅,提供了一种以字符为主要处理对象,根据资料内容而不是外在特征来实现检索的先进查询手段。

  在书目数据库与全文数据库检索功能的基础上,出现了综合检索系统。此类系统在检索性能上有了很大改进,不仅实现了任意字、词和字符串的检索,还实现了按条件检索。检索的范围不再局限于书目和文本,而是对古籍的标题、词句、注解等实际内容进行全面检索。此外,综合检索系统还往往具有多种特色检索功能和特定的辅助功能。例如,中国社科院的《全唐诗》数据库检索系统,不仅可供快速查检《全唐诗》中任何作品的字、句、标题、注解,还可以查找该作品在《全唐诗》中的册、页、行数。

表1 现有的部分中文古籍数据库

数据库名称

研发单位

《全唐诗》《先秦魏晋南北朝诗》《全上古三代秦汉三国六朝文》《十三经》《全唐文》《诸子集成》数据库检索系统

中国社会科学院

《红楼梦》数据库

深圳大学

《全宋诗》等古诗研究系统

北京大学

《全唐五代宋词》检索系统

南京师范大学

《全宋文》资料检索系统

四川大学

宋人笔记检索系统南宋主要历史文献全文数据库

河南大学

《古今图书集成》索引续编

广西大学

宋词别集索引三种

湘潭大学

《史记》全文检索系统

哈尔滨师范大学

《贞观政要》综合检索系统

东北师范大学古籍整理研究所

汉及以前全部传世文献电脑化资料库
魏晋南北朝全部传世文献电脑化资料库
竹简帛书出土文献电脑人资料库

香港中文大学

古文书数据检索系统

台湾大学

汉籍全文资料库《二十五史》《十三经》和诸子数据库

台湾“中央研究院”历史语言研究所

中文古籍善本书目数据库

美国普林斯顿大学

先秦诸子百家全文检索系统

挪威奥斯陆大学

二、光盘版古籍

  所谓光盘版古籍,其实就是以光盘为载体的古籍文献或古籍数据库。前期的古籍数据库往往只是某些单位或个人出于辅助研究工作或方便用户考虑,自行开发设计且仅在一定范围内使用的。随着古籍数据库优越性的逐步展现和影响扩大,出于保存、推广古籍的愿望或者商业目的,光盘版古籍纷纷推出,成为当前古籍数字化的主导方向。

  现有的光盘版古籍一般有三种类型:一是图像版,它将古籍直接以图像格式扫描存储,有简单的标题和分类,但缺少检索手段;二是全文版,它存储的不再是图像,而是数字化的古籍文本,是真正意义上的数字化图书,可实现全文检索与查找;三是图文版,它在古籍书页图像存储的基础上,将书中具有检索意义的内容数字化,并辅以数字化的电子工具书,为读者提供快捷有效的检索、统计、整理和编辑功能。

  图像版是利用扫描技术将古籍以图像方式存入光盘,技术简单、容易操作,而且可以保存古籍原貌,因而成为国内采用较多的一种方式。1997年,武汉大学出版社推出的“四库全书光盘版”就采用了这种技术。它以文渊阁本《四库全书》为底本,将全书200余万页逐页扫描,并将“总目”手工录入,压缩到150张光盘中。

  全文版以文本形式将古籍存储于光盘上,并在全文检索系统的支持下,对文本实行逐字逐词检索。它虽然不能像图像版那样保持古籍原貌,而且文字录入的难度也相当大,但由于具备方便快捷的检索功能,且占据的存储空间要远远小于图像版,所以仍有较大优势。

  图文版的优势较之前两类更加明显。其一,它既具备方便快捷的检索功能,又能让用户得览古籍原貌,这对研究者而言非常重要,因为古籍的原始面貌往往能提供很多有用的信息;其二,文本录入不管如何校对都难免存在误差,用户可以对比图像进行查证;其三,当前各计算机系统汉字字库容量有限,出版者在录入古籍文本时往往将异写、通假、避讳等生僻字用常见字进行替换,研究者需要根据图像来查看古籍原貌。香港中文大学的汉达古籍资料库光盘便采用了图文对照形式,它不仅收录了140多万字的竹简帛书出土文献,还可以在视窗系统上直接显示简帛图片和对照文本。

三、古籍网络化

  随着网络技术的迅速发展和普及,古籍资源的网络化也成为一种趋势。它主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用。例如,国学网就拥有《十三经》《资治通鉴》《续资治通鉴》《楚辞》《全唐诗》《全宋词》《人间词话》《文心雕龙》《韩非子》《淮南子》等大量古籍的电子版。

  网络化是古籍数字化未来的发展趋势。当全国各主要图书馆实现古籍数字化以后,就可以建立以网络为纽带的古籍数字化地区联合数据库和全国性数据库,甚至在全世界范围内实现共享。网络化也能够使更多人方便地阅读和使用古籍,为古籍资源的研究和传统文化的弘扬提供一条崭新的渠道。

表2 中文古籍资源相关网站

网站名称

网址

国学网

 http://www.guoxue.com

中国数图网

 http://www.d-library.com.cn

超星数字图书馆

 http://www.ssreader.com.cn

北京大学图书馆古籍数字特藏

 http://www.lib.pku.edu.cn

清华大学网上图书馆

 http://net.lib.tsinthua.edu.cn/tushu.asp

天津数字图书馆

 http://159.226.177.56/gszc/gjcx.asp

上海数字图书馆

 http://dllib.digilib.sh.cn/index.htm

台湾“中央研究院”历史语言所资料库

 http://www.ihp.sinica.cdu.tw

台湾汉学研究中收资料库

 http://www.ccs.ncl.edu.tw/data.html

四、现存的主要问题

  1.技术问题。古籍文本输入的主要方法目前有两个:键盘输入与光学字符识别(OCR)扫描输入。键盘输入属于手工作业,效率低,成本高。OCR则是一种较为先进的自动化信息资源输入技术,但也存在一些诸如图像质量不高,扫描速度低,单位成本高,识别率低等技术性问题。并且,现有的汉字识别系统多数是针对简体的,识别字数一般只有4000左右,识别竖排繁体古籍效果非常不理想。即使是能识别繁体汉字的系统,也由于古籍汉字的频度与现代汉语差异较大,使得识别效果一般较差。

  计算机对文字的处理要通过编码来完成,国标字库(GB)仅收字6763个,国标扩展汉字字库(GBK)收字也只有20902个。与此相对的是庞大的汉字数量,《汉语大字典》收字近6万,《中华字海》收字达8万,古籍通用字约有4万,常用异体字约为2万。相对古籍中众多的繁体字、异体字、通假字、避讳字而言,计算机的文字编码不敷应用,缺字一直是古籍电子化的瓶颈。

  2.人才问题。在古籍数字化过程中,最重要的工作是要在录入文本前对古籍进行整理。因为古籍原本都是竖排繁体字,还包含大量的异体字、通假字等,且没有标点符号,行文格式繁琐,必须先进行整理,而古籍整理工作只能依赖于专业人员。所以,古籍资源数字化是传统学术方法与现代科学技术的结合,它需要一批既懂得古籍整理又精通计算机技术的人才。现状却是古籍整理专业人员不懂电子技术,计算机技术人员缺少古籍知识。古籍资源数字化专门人才的培养亟待提上日程。

  3.统筹问题。我国古籍数量庞大,且往往分散各地,仅由一个单位或组织来负责完成某一专业领域内的古籍书目数据库建设是非常困难的,需要多方合作才能进行。而国内的古籍数字化工作缺乏一个全国性的权威机构的统一指导和协调,开发单位各自为政,热点项目重复建设,冷门项目少有问津。1998年一年至少出现了3种光盘版的四库全书,投资额惊人,造成了人力、物力的极大浪费。长期以来,很多单位都做了古籍书目数据库或古文献资料数据库,并自造了相当数量的字库,浪费了资源。另外,个别单位仅考虑自身利益,拒绝资源共享,致使一些数据库涵盖的文献资料颇为有限,远未能实现对全国范围内的整体检索。

  4.标准问题。规范、统一的数据库形式是数据库的生命所在。要建立全国统一的古籍书目数据库,必须有统一的数据格式要求。如果没有规范的机读目录格式,数据库就无法进行交换,无法真正实现国家乃至世界范围内的资源共享。许多单位设计数据库时采用的标准不一致,导致难以共享使用。此外,还必须对古籍原本进行鉴别和统一著录,执行统一的分类表和分类原则,否则就会出现书目数据不准确,造成不同的书被著录成一种书,或者是一种书被著录为多种书的状况,给读者的使用和研究带来极大不便。

  如果相关部门能够联合从事古籍数字化的主要单位,制订古籍数字化的统一标准,实现标准化、规范化,在此基础上进行分工合作,建立可共享的资源体系,必定能够促进国内数字化古籍的开发与利用。

  5.经费问题。现在拥有古籍文献资料最多的是公共图书馆。它们虽拥有丰富的文献资料和文献处理经验,但因为缺少经费,无法购置必需的设备和软件,也缺乏足够的人力和相关的计算机技术人才,不少已经规划好的项目无法开展。只有投入足够的经费,才能够解决设备、软件短缺问题,引进技术人员,正常开展古籍数字化工作。

参考文献:

[1]王纯.古籍数字化之趋势.图书馆理论与实践,2000(3)

[2]厉莉.古籍数字化的现状及对策.江西图书馆学刊,2002(1)

[3]王桂平.我国古籍数字化的现状及展望.图书情报知识,2000(4)

[4]李为实.关于古籍数字化的思考.四川图书馆学报,2002(3)

[5]王育红.未来古籍出版的对策与趋势分析.科技与出版,2002(3)