谈电子版古籍“善本”

李先耕
(黑龙江大学古籍所)

  随着中文信息化进程的发展,“电子版”或“数字化”中文古籍也越来越普及流行。从载体介质上来分,有软盘版(这是早期产品,现在已极罕见)、光盘版(包括DVD光盘与CD光盘)、硬盘版、U盘版以及网络版等等。从内容表现形式上来分,有图像版与文字版之分。不论图像版还是文字版,都属于古籍整理工作,其成果自然有好坏优劣之分,也就是是否为善本電子版古籍。

  【首先要说明的是,原有的善本书的概念有两个方面的含义,一是文物方面,如宋元刻本(《中国古籍善本书目》收至清乾隆刻本),一是校勘精审的古籍。本文所指当然是后一种。】

  图像版电子古籍可以说与古籍善本缩微胶片以及影印版古籍有相似之处。影印古籍是源于古籍的影写本与覆刻本(或称影刻本、仿刻本),如清末黎庶昌编刻的《古逸丛书》就是十分逼真的覆刻本。而当石印技术、珂罗版技术传入中国后,也就利用这些技术来重印或缩印古籍。如同文书局石印的以武英殿铜活字本爲底本的《古今图书集成》,董康珂罗版印制的《刘梦得文集》,商务印书馆的《续古逸丛书》。而现在则可以先用照相制版或电脑扫描制版再采用胶印或其他印刷方法完成。如中华书局的《古逸丛书三编》。而北京图书馆出版社的《中华再造善本》更是达到了把珍稀的孤本、善本化身千百,妥善保护的境地,使得各省市的读者有幸看到以前终生难见的古籍善本。可以说,目前的古籍影印工作已较成熟,中华书局总编室的《古籍影印释例》就是基本规范。其中对“合格的古籍影印本”有如下要求:“(1)所采用的底本具有一定的学术价值;(2)参校他本作出校勘记;(3)有足以反映当代研究成果的序文(或称前言、出版说明);(4)正文有断句或新式标点;(5)编制有新的目录或索引;(6)附录有相关研究资料。”以此来看,今天的图像版电子古籍仍有不小的差距。目前广为流传的电子版古籍,如武汉大学出版社的光盘图像版《文渊阁四库全书》、超星的网络版《四库存目丛书》,高等学校中英文数字化国际合作计划(CADAL)的网络版《续修四库全书》等等都是具有代表性的大型丛书型电子版古籍,即对现有的纸本影印本古籍加以数字化制作。但事实上无论是电子书标准、底本选择还是数字化制作本身都存在一定问题。就以前述三家为例,其文件格式不同,为了阅读就不得不安装几种不同的阅读器。其他文件格式,包括方正的CEB文件、书生的SEP文件、知网的CAJ文件等等,据说目前国内的电子书文件大约有二十余种,这当然不利于电子书的应用传播。尽管2008年11月,由中国电子工业标准化技术协会联合多家国内软件公司制定的电子文档互联互通接口标准UOML,已被国际开放标准组织OASIS列为正式标准。但目前我们看到的各个利益集团仍然是各行其是,电子书标准的真正统一似乎仍需时日。至于选择底本,这是任何一项古籍整理工作都必须注意的问题,这里就不加论述了,只是希望有关从事古籍电子书工作的单位能首先做好有关的文献摸底与选择工作,而不是随便拿过一本古籍就来“数字化”。数字化古籍的制作是需要专用的工具设备才能更好地完成。2007年笔者在浙江大学图书馆参观CADAL项目工作的时候,对其规模之大,设备之精有深刻印象。下面是当时的两张照片,插在这里以资介绍:第一张是其工作现场,几十位工作人员正在认真工作;第二张是工作人员正在用西门子专业扫描仪调整所扫描古籍的图像。

  下面要谈到的是文字化中文数字古籍,它所具有的最大优点就是能够准确地进行全文检索。如北京国学时代文化传播股份有限公司1999年推出的《国学宝典》,香港迪志文化出版有限公司和上海人民出版社1999年的《文渊阁四库全书电子版》,广西金海湾音像出版社与广西师范大学出版社1999年联合出版的《古今图书集成》。此后北京书同文数字化技术有限公司2002年的《四部丛刊》全文检索版,北京龙戴特信息技术有限公司与北京时代瀚堂科技有限公司联合开发的“龙语翰堂典籍数据库”及相关技术系列产品等等。其中《国学宝典》、《四部丛刊》、《四库全书》都不断推出新版甚至新的网络版。新版会纠正原有版本的错误,有的如《国学宝典》、“龙语翰堂典籍数据库”还会增加其文献内容。就《四库全书》、《四部丛刊》电子版来讲。不存在底本的版本问题,所以其新版就是强化功能、改进技术以及纠正原来录入的错误。我们知道,无论是人工录入还是扫描图像辨识都有一定的错误产生。前人云,校书如扫落叶,才扫却又生。100%的正确几乎是不可能的,所以一开始《四库全书》与《四部丛刊》在全文检索版中都包含了图像版,使得学术研究者引用时能方便地核对原文。但其最初推出时普通的计算机硬盘容量难以有力地支持图像版,而且学界浮躁之风也使得许多使用者无心核对。而现今的网络版一般多提供全文检索功能,而少有同时显现原文图像者。这就再一次强调文字版的正确率是多么重要。但是即使与底本100%相同,没有任何错误,研究者在引用时仍然会面临字库范围与现行规范的种种要求。比如《四库全书》中的避讳缺笔字在其字库中有,但一般的计算机并没有安装这一特定字库,所以是无法显现的。而现行的文字规范,无论是字型规范还是异体字整理要求都会对文字化中文数字古籍使用发生影响。即使是纸本古籍的整理这方面的加工也是不可避免的。中华书局总编室在其《古籍校点释例》中就说:“古書中的古今字、通假字、異體字、俗體字等,一律不出校。宋代以前的古書及有關語言文字學的著作,異體字一般不改。元明以後的書,不常見的異體字及不合規範的俗體字,如「島」作「」,「沿」作「」、「惡」作「悪」、「船」作「舡」、「銜」作「啣」之類,可根據實際情况改成通行的繁體字,改了也不出校。版刻中的錯字,如「焰」刻作「熖」、「祇」(只)刻作「秖」、「千」刻作「」、「餐」刻作「飱」,「寤寐」刻作「窹」之類,應改成規範的繁體字。一本書內的用字應力求統一。用簡體字排印的書可另作規定。”只有经过这些整理加工后的古籍,才能正式出版。我们认为今天的文字化中文数字古籍善本也必须经过这样的处理。

  这里要说明的是,《国学宝典》系列产品多是简体字,这能否称为善本呢?我们以为书籍的载体与字体本来就是与时俱进不断变化的,这并不影响其是否能成为善本。古书本来是“书於竹帛”(《墨子》),其载体是竹简(其长度标准随不同的内容分类而变化)、木牍与缣帛(其标准长度是四丈),其字体是战国古文、小篆、隶书,其装订是编连成册与折叠舒卷。纸张发明之后成为书籍的主要载体,可以书写各种字体,特别是后来流行的草书、行书、楷书。印刷术发明前的钞本多是卷轴装,当时尚未有“善本”之名,但各种形式的“石经”成为那时的规范标准。而印刷术发明之后,冯道首先用来印刷经籍也成为当时的规范。而字体也从仿效书法家的楷体字(即所谓软体字)逐渐演变为便于雕版的硬体字(它滥觞于宋最终成熟于明季,就是“宋体字”——台湾称之为“明体字”[1])。而1965年颁布的《印刷通用汉字字形表》,当时遵循的原则是“同一个宋体字有不同笔画或不同结构的,选择一个便于辨认、便于书写的字体,同一个字宋体或手写楷书笔画结构不同的,宋体尽可能接近手写楷书,不完全根据文字学的传统。”为什么这一“新字形”舍弃了雕版印刷长期形成的宋体字传统呢?因为这时已不用全部雕刻木板而变成铸造铅字字模了。宋体字的易于雕刻的原则才能让位于“便于辨认、便于书写”和“接近手写楷书”的原则。对于今天的电子版古籍字库来说,可以由专业机构制定各种专门字库,甚至隶书、小篆以至甲骨文、金文、战国古文等古文字字形。在这种情况下,按照《中华人民共和国通用语言文字法》,一方面“学校及其他教育机构以普通话和规范汉字为基本的教育教学用语用字”,即中小学的文言文教学都是使用规范汉字(包括简化字),其实大学各科教学,除了中文系的古代汉语与古代文学文选使用繁体字之外,都是简化字。所以《国学宝典》恰恰同这一教育传统接轨,有利于广大使用者更好地接近传统,认识古典。另一方面,该法律也规定了在“出版、教学、研究中需要使用的”情况下,可以使用异体字、繁体字。这就使得诸如《四部丛刊》、《四库全书》之类的繁体字电子版古籍也有了合法存在的理由。当然如前所述,即使是繁体字古籍,同样也要经过一定的校勘与字形处理。而使用简化字的电子版古籍,我们以为应该同纸本古籍一样,基本上应以重新发表的《简化字总表》为准,而不应该无限类推[2]。如果可能的话,可以利用现行字库,适当地消除某些简繁“一对多”所引起的困惑。比如繁体的“錢鍾書”,可以写成简体的“钱锺书”,而不必一定要写成“钱钟书”。即以“锺”为“鍾”的简化字,而以“钟”为“鐘”的简化字。因為“鍾”当“鍾聚”、“鍾愛”讲,而“鐘”却没有这一义项[3]

  总之,文字版电子古籍,无论使用字库为简体或繁体,只要底本选择的好,校勘精审,都可以成为善本。

注释:

[1]参见王立军:《雕版印刷对印刷字体的影响》,见商务印书馆《汉字字形研究》2004年北京。

[2] 李先耕:《简化字应否无限类推》,见《求是学刊》2002.2期。

[3] 这一观点较笔者《关于汉字简化“后退”的思考》(见《语言规划的理论与实践》,语文出版社2006年)一文有所松动。

发布日期:2009-08-18