关于制作古籍数据库的几点想法
7月8日下午,我应邀参加了在紫玉饭店举行的“《国学备览》光盘出版发行座谈会”。座谈会由首都师范大学和商务印书馆国际有限公司联合主办,主要内容是由所长,亦即国学时代文化传播有限公司总经理尹小林先生演示《国学备览》的功能。尹小林先生的演示极为精彩,充分证明《国学备览》的制作是很成功的。因此,无论对巧思妙用的研制方,还是对卓有眼光的出版方,我都应由衷地表示祝贺和钦感。
和通常意义上的座谈会相仿佛,尽管其形式更多于其内容,但我还是被深深地感动了,感动我的正是《国学备览》的成功所昭示的古籍电子化道路,以及未来发展的广阔前景。《国学备览》光盘小巧,容量巨大,检索手段多样,且图文并茂,配有背景音乐,还附编有多种阅读时使用的工具(字典、年表等)。这些功能大大超出了传统纸媒体书本的负载能力,阅读使用中的便捷,亦非书本所能比拟。这让我不由想到,现在的古籍整理出版工作要想跟上时代前进的步伐,要想取得超逾前人的突破性进展,不正应该从广泛采用电子技术、多媒体技术、数字化技术入手吗?
这个发展的大方向比较容易认清,也比较容易确立。然而要实际做起来,特别是在事情的起步阶段,在决策上如何确定自己的立足点,如何制订符合大方向的可操作性原则,如何解决目前存在的一些具体障碍,则需要认真研究,慎重对待。在座谈会上,我曾匆匆谈了几点建议,表达不甚严谨,不甚完整,为免引起不必要的误解,现在想借助笔谈的方式再补上几句话。
第一个问题是古籍数据库首先应做什么,也就是古籍电子化的立足点问题。古籍数据库的最大特点,不外三条:一是容量巨大,一是检索便捷多样,一是便于永久保存。这是古籍数据库的三大优势,其中不论哪一条都是书本无法望其项背的。那么,这三大优势运用于古籍整理领域,做些什么项目才最能尽展其长呢?从近几年各方面开发古籍电子产品的努力及其结果来看,我以为答案已经明了,而且此答案颇有些说服力。
就以尹小林先生为例,他十数年如一日,苦心孤诣,惨淡经营,所开发研制的《》,共收录经史子集各类典籍3000多种,近7亿字,迄今虽未正式发行,却已不胫而走,泽被万家,学人莫不大受其益,交口颂其功德。这意味着什么?显而易见,这说明电子技术非常适合制作大型古籍数据库项目,而制作大型古籍数据库项目,对于古籍的保存与传播,对于古籍的版本价值、学术价值的发掘和利用,无疑是事半功倍的一项伟大创举。不妨设想一下,如果把《》的7亿字做成书本,那将会是多大篇幅,会占据多么大的空间,当我们阅读使用时,又将会化费多大的气力才能够翻检到所需要的内容啊!
可见计算机技术应用于古籍整理出版领域,最能够发挥其优势,最能够体现其能量的项目,就是制作大型、超大型的数据库。这样的数据库不但信息量极大丰富,而且互相之间可以通检,一查到底,再加上检索方法的多种多样,足可以令人进入随心所欲的境界。制作这样的古籍数据库,我以为目的在于两方面,一是要尽可能多地完好保存古籍,使之永世长存,彻底根除水火之虞;再就是让尽可能多的古籍在广泛的范围内流通和使用,全面快捷,博大精深,更好地为学术研究服务,为培育全民族的文化素养服务。
至少在当前一个时期,这两大目的决定了制作古籍数据库只能是一种提高性质的工作,换言之,我们当前应该集中力量去开发研制各种大型、超大型的(综合的或专题的)古籍数据库,而不必分散精力去做所谓的普及读物。现在推出的《国学备览》,选书81种,简体输入,有插图,有联机字典,有背景音乐和版面设置,有人认为此即一种普及读物的典范。而我则难以苟同,请看它收录的书,统统为无注的白文,别说是高中水平的青少年,即便是大学研究生、讲师,甚至专业研究人员,又有谁能够完全读通读懂呢?假如真的要普及到大众,就不能只是简体白文,还必须加上注释,必须做些节选的工作,方可达到取其精华、去其糟粕、弘扬优秀传统文化的初衷。不过这种普及性工作,用书本来做足矣,而且书本做小一些既便携带,又不需电脑设备,何必一定要杀鸡用牛刀,动用以大见长、以多样性见长的计算机技术去与之较短长呢?
第二个问题是古籍数据库应该用什么字体输入,这不止是手段问题,而主要是一个与终极目标联系在一起的本质性问题。上面已经说到,制作大型数据库的终极目的之一,就是要尽可能多地完好保存古籍,使之远离劫难,永存其真。当然,由纸本转为电子版后,除非扫描,否则原来的行款格式必然会发生改变,但这一切变化都不应成为促使原本文字失真的借口。就是说,行款格式尽可以改变,唯一不能改变、完全可以做到使之不改变的乃是原文。这就牵扯到古籍数据库该用什么字体输入,在输入时应遵循何种原则的问题了。
当前所见到的古籍光盘,大多采用简体输入。这或许主要是考虑到中青年读者的需要(市场化需要),也或许是受到计算机字库的限制不得不尔,不管怎么说,用简体输入的做法是值得商榷的。用简体输入与检索的便捷无庸怀疑,然而不知制作者想过没有,如果一旦要恢复引用原文,用简体版可以做到一字不误吗?试举一例,我在校读《国学研究》杂志(北京大学传统文化研究中心主办)的清样时,常常发现原稿如为简体字,则出版社在恢复为繁体时,其中的引文多靠不住,必须复核原书后才可确保其文字不误。而这种因为由简转繁而带来的复核工作,往往繁琐不堪,让人徒增烦恼。
由此可见,简体字的一字多义的特点,非常不利于古籍在传承中保持原汁原味。再说,古籍原本对于研究者来说,很重要的一个作用就是其版本价值。如果我们采用一种经过今人整理的好本子作底本,却不附原有校记,再用简体输入,那么,其固有的版本价值早已随同重新输入丧失殆尽,即使在制作过程中再三认真校对,又有何用?就如同清人修纂的《四库全书》,我们到如今珍视它,不为别的,只因为它所收录的书品类繁多,有不少属于稀见书、绝版书,取阅方便而已,若论其版本,则委实不足信据也(《四库》独有孤本除外)。
清朝人深恨明朝书商翻刻宋元诸本往往裁篇别出,伪造剜改,版本冗滥不堪,慨叹“明朝人刻书则古书亡”。如果我们今天制作古籍数据库,一概遵从简体,使用者亦就便一切从“简”,久而久之,有几人还能识得繁体古书?简体古籍数据库愈流行,愈便于使用,繁体原文愈少人问津,每想到此处,我真有些杞人忧天,担心后世子孙会不会指责我们这一代人“以简体制作数据库而古籍亡”。所以,我坚决主张从现在开始所有古籍数据库的制作,其输入一定要采用繁体字,而且还可以再保守一点,古籍底本上的异体字、通假字一字不动,悉如其旧,惟有底本的后人避讳字、脱误衍倒之类谬误予以改正,并逐一写成校勘记加以说明。
也许有人会说,用繁体制作数据库,不是成心和当代读者过不去吗?非也。这不是和图书市场对着干,成心做赔本生意吗?不会的。因为现阶段的计算机技术已经可以轻易解决繁简翻转问题,在鼠标一点便可将调出的繁体文字转换为简体的情况下,丝毫不会影响熟悉简体的读者们的阅读兴趣。而对于学术研究者来说,却可以省去翻检原书复核原文的麻烦,径直用古籍数据库替代众多的古籍版本使用,岂不妙哉?
第三个问题是在光盘制作中如何安全通过著作权这一路障,既能保证光盘的学术质量,又可避免陷入无谓的版权之争。现在制作古籍数据库,通常采用两种方法,一是直接选用未经整理的某种古籍版本作底本,稍加点断后改用简体输入;一是借助他人已有的整理本,去其校记和注释改用白文输入。前者虽不会有版权纠纷,但学术质量难以保证。后者学术质量肯定要好些,但弄不好也会露出马脚,遭人诟病。况且这种偷梁换柱的屑小手法,与堂堂正正制作古籍数据库的声势旗帜也有些不合拍。
如何计出两全,我以为应从制作方和出版方两方面着手,共同做出努力。就制作方来说,除了网罗计算机技术的高手,还应该拥有一定的古籍整理人才,二者结合则可以先把未经整理的古籍整理好,然后输入制成光盘,制作方享有著作权,确保自身利益得以实现。有志于此项事业的尹小林先生,现在已经被首都师范大学招至麾下,组建了电子文献研究所(国学时代文化传播有限公司),成了一支威武雄壮的正规军。相信他们会走技术加学术的路,延揽两个方面的人才,自主整理古籍,自主开发数据库,不但在计算机技术上始终走在时代前沿,而且也会发展成为古籍整理研究的一方重镇。
从出版方来说,如何保障制作方的权益是至关重要的。其中最主要的环节是防止盗版,以维持发行数量,实现经济效益。当前要杜绝盗版还是一个难题,但愿伴随政府有关部门治理力度的加大,情况会有根本性改变。我这里想说的主要还不是盗版问题,而是出版方和制作方的合作问题。一些专业古籍出版社如中华书局,古籍整理出版的成果丰厚,堪称资源大户,如能将其已有资源再作数字化开发,必然会在繁荣学术方面做出更大贡献,这件事中华书局固然可以在社内组织力量做,自产自销,但也可以与外部合作,譬如与尹小林先生的国学时代文化传播公司合作,这样可以使双方优势互补,反而会将投入成本降低,产品出得快,质量好。合作的关键是资源如何共享,利益如何分割,不仅制作方、出版方的利益要有保证,而且参与点校的整理者的利益也要有保证。加上学术界的受益,这应该是一种四方共赢的良好结局。
目前的现实状况不容乐观,一则制作方变相使用出版方的资源,出版社的利益流失严重;一则制作方为防授人以柄,干脆摈弃点校精湛、有注有译的整理本,径用白文输入,导致学术上重走回头路。在这两种情况下,古籍整理者的利益根本无从谈起。为使三方愉快合作,避免将书本式整理成果编入数据库时产生版权纠纷,我建议在出版社与古籍整理者签定的出版合同中,事先列入授权日后制作电子版的条款,并提出合理的付酬标准。
第四个问题是综合性数据库和专题性数据库的制作孰先孰后的问题,这只是一种策略考虑,并不存在优劣之分。譬如尹小林先生制作的《》、《中国历代基本典籍库——隋唐五代卷》(商务印书馆国际有限公司2000年版)属于综合性数据库,同样由他制作的《十三经注疏》(商务国际2003年版)、《六十种曲》(附《盛明杂剧》,商务国际2003年版)则属于专题性数据库。这两种数据库各有用途,制作起来也各有难易。不过相比较而言,主题性数据库毕竟范围明晰,做起来可能时间会短一些,也会更精细一些。
凭我个人的感觉,综合性数据库如能分成一个个专题性数据库来做,似乎更易于见成效,最后建成的综合性数据库也更显得基础扎实,检索细密。如上举《中国历代基本典籍库》,它的性质是综合性数据库,而其做法则是分为几步完成。现在完成的是第一步,推出了《隋唐五代卷》。下面将是第二步、第三步、第四步,陆续推出《先秦两汉魏晋南北朝卷》、《宋辽金元卷》、《明清卷》。每一步都可以视为一个专题,每个专题下所收录的内容又是综合性的。《隋唐五代卷》共录入136部有关唐五代的重要文献,总字数多达1亿字,十分了不起。但顺便说一句,也许因为结稿时限紧迫,所收书目思虑未周,间有可商之处。譬如唐代诗文类有总集而无别集,史籍选读类有《唐会要》(宋王溥撰)而无《五代会要》(宋王溥撰),地理文献类不收《元和郡县图志》(唐李吉甫撰),类书类不收《北堂书钞》(唐虞世南撰),其他杂著类不收《续高僧传》(唐释道宣撰)等,均不免令人感到遗憾。
以上所说,是我参加座谈会后的几点感想,无庸讳言,这样的粗浅表述,既缺乏理论研究的深度,也不具备实际操作的经验,之所以贸然形诸文字,无非野人献曝,藉此感谢座谈会主人邀约之殷,同时亦愿向制作古籍数据库的先驱者——我一向敬重的朋友尹小林先生讨教而已。
原载《古籍整理出版情况简报》2003年第11期(总393期)