理想电子古籍的标准
作者简介:杨琳,南开大学文学院教授,博士生导师,从事古代汉语、古典文献、古代民俗等方面的教学与研究。
数字化的浪潮正在强烈地冲击着传统图书出版业的堡垒。英国经济学家查尔斯·汉迪(Charles Handy)在《大象与跳蚤》(The Elephant and the Flea: Looking Backwards to the Future,Hutchinson,Random House,London2001)一书中指出:网络幅度及速度的改变将颠覆现在的出版产业模式,带来信息行业的“去物质化”(dematerialization)和“去中介化”(disintermediation)。所谓“去物质化”就是不需要纸张,也就是数字化。“去中介化”则是作者直接出版图书,不需要出版社作中介。微软公司的创始人比尔·盖茨(Bill Gates)甚至预言到2050年,纸质图书将可能消亡。他们二位的话绝不是危言耸听,下面的事例很能说明这一问题。
事例1:俄罗斯数学家格里高利·佩雷尔曼(Grigori Perelman)因对庞加莱猜想(Poincare Conjecture)证明做出了奠基性的贡献而获得了2006年度国际数学界的最高奖菲尔兹奖(Fields),然而格里高利的获奖论文并没有发表在正规杂志上,作者只是将论文手稿粘贴到一家专门刊登数学和物理论文的网站上,并用电邮通知了几位数学家。格里高利的获奖意味着“网络发表”已得到学术界的认可,它预示着报刊的制作形式将逐步向网络化过渡。2008年10月28日,美国很有影响的日报《基督教科学箴言报》(Christian Science Monitor)在其官方网站上宣布,从2009年4月起停止出版纸质日报,改为网络版的电子日报,从而成为美国首家以网络版替代纸质版日报的全国发行报纸。几乎与此同时,美国著名的IT杂志《PC Magazine》2008年11月19日宣布,将于2009年2月停止发行印刷版,而完全以数字化方式发行。而作为美国新闻界最高荣誉奖的普利策新闻奖(Pulitzer Prize),也从2006年起允许网络内容参加各奖项的评选,表明评奖委员会已经承认了网络媒体的重要影响及合法地位。
事例2:每年一度的德国法兰克福书展(Frankfurt Book Fair)是世界上规模最大的国际性图书博览会,它是世界图书发展趋势的风向标。2008年10月15日至19日举行的第60届法兰克福书展上,以“数字化出版”为主题的参展商多达361家,参展的产品中数字化产品超过30%,而为出版界专业人士举办的400多场活动中,50%以上的活动与迎接图书数字化有关。展会期间发布的调研报告显示,在未来60年里,数字化图书将成为最重要的出版形式。据保守估计,到2018年,全球电子图书的市场份额将超过传统图书。
事例3:中国出版科学研究所受国家新闻出版总署的委托,自1999年起每两年搞一次全国性的国民阅读调查活动,至今已经搞了五次,下面是五次调查获得的数据:
纵观这五次调查的结果,可以清楚地看到我国国民纸质图书阅读率(指每年至少读一本书的读者在识字者中的比例)呈持续走低态势,2007年比2005年下降了14个百分点,下降幅度是很大的。与纸质图书阅读率下降形成鲜明对比的是,互联网阅读率持续迅速上升,2007年的网络阅读率已经超过了纸质图书阅读率。据中国互联网络信息中心(CNNIC)2009年1月13日发布的《第23次中国互联网络发展状况统计报告》,截至2008年底,我国网民数量达到了2.98亿,比2007年增长了41.9%,居世界第一位;互联网普及率为22.6%,首次超过21.9%的全球平均水平。尽管如此,由于中国的人口基数大,互联网普及率在全球各个国家和地区中只排在第87位,而发达国家的平均普及率更是高达51%,我们仍有很大的差距。不难预见,在未来的若干年里,我国互联网的用户将会持续高速增长。随着互联网的不断普及,网络阅读率必将不断提高,而纸质书刊的阅读率必将不断下滑。这使纸质图书面临的生存危机越来越严重。
2000-2008年中国网民规模与增长率统计图(据CNNIC报告)
这些事实有力地表明,我们已进入了一个数字化阅读的新时代。
那么,纸质图书的阅读率为什么越来越低呢?这是因为与电子图书相比,纸质图书缺点很多,如生产时间长,生产成本高,价格昂贵,携带不方便,存放起来占用空间大,不能检索复制,等等。所以图书的数字化制作是不可阻挡的发展趋势。数字技术的兴起使我们的图书制作方式及阅读习惯正在发生着历史性的变革。想当初,纸书的出现把笨重的简册赶下了历史舞台。今天,电子图书的问世则意味着纸质图书的掘墓人已经诞生,它将使纸质图书日趋萎缩,并在不远的将来取代纸质图书的主流地位。对此发展大势,图书出版机构、图书管理机构及各级图书馆应该有清醒的认识。
理想的电子古籍应符合五项标准
目前,电子图书还没有统一的质量标准,制作机构各行其是。电子图书的质量标准当然不能搞一刀切,也不可能是一成不变的。不同的图书类型,不同的读者对象,应该有不同的质量标准。这里我想从学术需要的角度来谈一下理想的电子古籍应符合哪些标准。
我们认为学术需要的理想电子古籍应符合五项标准。
其一,文本要可靠
这是对电子古籍最起码的要求。判定文本可靠的标准有两条。
一是文字跟纸质古籍一样,没有差错,即没有脱字、增字、别字、错字等现象。要真正做到这一点很不容易,目前恐怕还没有哪个电子古籍数据库敢说没有差错,我们在使用中时有发现。如“中国基本古籍库”:王念孙《读书杂志·汉书弟十四·见哀》:“《吕氏春秋·报更篇》:‘人主胡可以不务哀土?’”“哀土”为“哀士”之误;明洪楩辑《清平山堂话本·简贴和尚》:“大國長安一座縣,喚做鹹陽縣,離長安四十五裏。”“鹹”“裏”都是制作软件将简体转换为繁体时造成的错误;宋戴侗《六书故》卷前附有《六书通释》一卷,“中国基本古籍库”整卷脱漏;南开大学组合数学研究中心、天津永川软件技术有限公司、中国社会科学院计算机网络中心联合研制的“二十五史全文阅读检索系统”:《晋书·甘卓传》的“察孝谦”,“谦”为“廉”之误。《史记·陆贾列传》的“以好田畤地善”,“田畤”为“畤田”误倒。下面是龙语瀚堂典籍数据库中的一页:
这里的“”是个错字,《龙龛手鉴》原文作“”。又龙语瀚堂收元熊忠《古今韵会举要》卷二十八《去声·隻》“炙”字下:“炙,脍炙也,之夜切,字从夕,两点。炙,之亦切,近火也,字从夕,一点。”“字从夕,两点”之“夕”当作,“炙,之亦切”之“炙”当作。可见电子古籍的差错率是比较高的。
造成这种状况的主要原因在于:一方面,古籍的用字情况比较复杂,而汉字识别技术还很不成熟,产生不少识别错误;另一方面,制作公司大都缺乏熟悉古代汉语的校对人员,而普通校对人员难以胜任古籍校对工作,这就造成了较高的差错率。
二是尽可能地保存底本文字的原样。这就是说,底本写什么样的字,电子古籍应显示什么样的字。按照这一标准,脱离底本的繁体字系统并不符合要求。例如底本中“于”“於”二字并用,繁体字系统中有可能统一用“於”;底本中既有“并”字,又有“並”字,繁体字系统中有可能统一用“並”;目前不少繁体字电子古籍就是这样处理的。这种做法使古籍走了样,丢失了一些有价值的古籍文本信息,不利于学术研究。有些情况下甚至会造成理解上的混乱。例如《礼记·月令》:“﹝孟秋之月﹞修宫室,坏墙垣,补城郭。”这里的“坏”读péi,是“用泥土封塞空隙”的意思,如果转换为“壞”,文意就大相径庭了。清陈康祺《郎潜纪闻初笔》卷八载:“林文忠性卞急,抚苏日尝手书匾额于听事之堂,曰‘制一怒字’。昔宋贤吕本中教属吏当先以暴怒为戒,公以之自律,其克己功夫尤切实已。”意思是说林则徐为了克制急躁易怒的毛病,在官衙大厅内悬挂上“制一怒字”的匾额来警诫自己。如果转换成“製一怒字”,意思就成制造愤怒了。一本初中历史课本中的林则徐画像中就是这样写的。所以脱离底本的繁体字系统不是理想的电子古籍。至于把古籍转换为简体字系统的,那就距理想的古籍就更远了。
那么我们为什么说“尽可能地保存”底本文字的原样而不要求全部保存呢?这是因为古籍中有大量的手写体和俗体,手写体和俗体变化多端,一个字有可能有十多种写法,如果全都原封不动地再现于电子古籍,在目前的技术条件下存在很多困难。即使能够做到,也将大大增加电子古籍的制作成本,从而制约电子古籍的生产和销售。所以我们在标准中提“尽可能地保存”,言下之意是文字原样保存得越多越好,关键在于制作者能够找准经济效益和理想标准的平衡点。
其二,僻字能正常显示
汉字的字种数约有十万种左右,其中常用字不过三四千字,绝大多数字属于僻字。目前几乎所有的电子古籍都未能解决僻字的录入显示问题。遇到无法录入显示的僻字,或者用方框、黑块等符号表示空缺,或者用数字代替,链接到字形图片,或者说明偏旁的上下左右内外等,给阅读利用造成障碍。下图是国学网“”《尔雅·释鱼》中的一条:
僻字用编号代替,开头部分还是乱码。最新的全功版也是如此。
下图是书同文制作的电子版《四库全书》中《龙龛手鉴》卷一的一页,□表示不能录入显示的字,一页上就有35个字无法显示。
这方面做得最好的是龙语瀚堂典籍数据库,大部分僻字都能正常显示。如上面《尔雅·释鱼》的那一条,龙语瀚堂典籍数据库中显示为:
尽管如此,不能显示的字也仍然不少。如下图中的黑块就是无法显示的字:
看来解决僻字的录入显示问题仍然是数码技术急需攻克的难题。
其三,每一种书都有版本信息
同一古籍常有多种不同的版本,不同版本字句上时有差异,如果没有版本信息,文本的可靠性无从核实,这就降低了电子文本的使用价值。“”没有版本信息,学术研究上只能作为初步检索,真正采用还得找可靠的版本去落实。“中国基本古籍库”倒是注明了版本,但有张冠李戴的问题。如所收元白珽《湛渊静语》,注明是依据《知不足斋丛书》本,其实不然。如卷二:“邵康节生日不赴,盖有见也。伊川生日亦不事饮宴。前修似此者多。”检《知不足斋丛书》本,“生日不赴”作“生席不赴”,“前修”作“前脩”,并不相符。再检文渊阁《四库全书》本,完全一致,说明所据底本为文渊阁《四库全书》本,不知何以标成了《知不足斋丛书》本。
另一方面,制作古籍软件应采用好的版本作为底本。如果采用了不好的版本,即使没有差错(指与纸质古籍一致),也不能算是理想的电子古籍。如“中国基本古籍库”收录的北宋乐史《太平寰宇记》采用《四库全书》本,此书最好的版本是宋刻本,有中华书局2000年影印出版的《宋本太平寰宇记》,可惜“中国基本古籍库”没有采用,也作为没有对照版本。
其四,检索程序功能完善
电子古籍最大的优势在于能够进行检索,所以有一个功能完善的检索程序是理想电子古籍最重要的标准。那么,怎样才算功能完善呢?
(1)检索速度要快。一般应在几秒钟之内列出关键词所在页面的所有条目,并按一定顺序排列。
(2)能够满足多种条件的检索需求。比如按朝代(当然更精确的是年代)检索、按作者检索、按文体检索、排除式检索、“A+任意字符+B”字组检索,等等,这些功能在学术研究上非常有用,可惜目前古籍软件的检索程序提供的功能比较少,难以做到精确检索。提供了某种功能的,还存在不少问题。比如电子版《四库全书》有“与”、“或”、“非”三种组合选项,但软件把“与”、“或”、“非”的出现条件限定在“一卷”的范围,而不是“一个页面”的范围,这使“与”、“或”、“非”的检索基本上没有什么用处。“中国基本古籍库”提供按朝代检索的功能,但一次只能选一个朝代,不能同时多选,使用不很方便。至于具体文献的朝代归属,问题更多。如把明代牛衷编的《增修埤雅广要》放在宋代,大约是由于此书是宋代陆佃《埤雅》的增补本的缘故,但《增修埤雅广要》与《埤雅》分明是两部书。其他如把清代毕沅的《释名疏证》、清代王先谦的《释名疏证补》放在汉代,把清代仇兆鳌的《杜诗详注》、清代冯浩的《樊南文集详注》放在唐代,都是不合适的。注本一般应归于注者的时代,正如北魏郦道元的《水经注》虽然是注释汉代《水经》的,但我们不能把它当汉代典籍一样。如果是单纯编辑的文本,应放在文本产生的时代。如清代编的《全唐诗》、《全唐文》,文本都是唐代的,自然应归于唐代。别以为文献的朝代归属无关紧要,放错了时代,会对学术研究产生不利影响。
(3)关联检索要准确。由于古籍中存在异体字问题,对大陆来说还存在繁简字问题,所以检索关键词时一般应有相应的关联,这样才能把想检索的内容一次都检索出来。异体关联如当我们以“凉風”为关键词时,程序同时也能检索出“涼風”的条目。繁简关联如当我们以“关于”为关键词时,同时能检出“關于”和“關於”的条目。目前的古籍软件大都不具备异体关联功能,有此功能的软件则非常低能。如《四库全书》设计了异体关联功能,但设计者把“异体”的范围放得很宽,包括“形似字”和“通假字”在内,其结果常常关联出一大堆无效信息,反而给检索造成障碍。比如当你检索含有“籑”字的资料时,大量含有“撰”“馔”的资料也一并检索出来,检索“尺子”时,“尺予”、“尺于”、“斥予”、“斥于”、“斥子”等条目混杂其中,而这些无关的条目还无法排除。另一方面,一些应该同时检出的异体字,程序却视为不同的字而不能检出,出现漏检的情况。如“狼跋”俗体也写作“狼”,当以“狼跋”为检索词时,“狼”的资料检不出来。这种关联还不如没有这种功能方便。异体关联应严格限定在“任何情况下都能互换的字”的范围之内,否则只会降低准确率。一些繁体字系统的古籍软件只能输入繁体关键词,不能用简体关键词,这对大陆的使用者造成麻烦。有些软件虽然有繁简关联功能,但往往漏洞百出。如在“中国基本古籍库”所收明朱国祯《涌幢小品》卷二十四中明明有“百寿”一词,但输入“百寿”一词进行检索时,结果为零,改用繁体字检索则能检索得到。又如检索“夫子岩”时检不到写作“夫子巖”的资料,反之亦然。检索书名时,输入“集韵”检索不到,输入“集韻”才能检到。这说明该关联的没有关联上。还有一种更糟的情况是,无论用繁体还是简体,都检索不到。如“中国基本古籍库”中收有清冯桂芬《(同治)苏州府志》,其中有“惟苏州者极巧,为天下第一”的话(见卷二十),但如果以“为天下第一”为关键词,则检索不到。“马留”一词在库中所收的不少书中都有,如宋李昌龄辑《乐善录》卷五、宋谢维新编《事类备要》卷四十一等,但检索结果却是没有。以“见哀于石君”为检索词时,只检索到明彭大翼《山堂肆考》中的1条。实际上,库中所收的《汉书》、王念孙《读书杂志》及王先谦《汉书补注》中都有这句话,却检不出来。许多学者靠古籍数据库的检索来判断某个词语在某一时代或某部书中的有无,上面的例子表明目前的古籍软件不完全靠得住。
(4)检索出的资料应有详细的出处显示,并能便捷地复制。一条完整的出处应包括作者、作者朝代、书名、卷数、篇名五项信息,这样的出处才符合学术需要,然而目前还没有达到这一标准的电子文献。《四库全书》有出处复制的功能,可惜出处只有书名和卷数,过于简单,不能满足需要。“中国基本古籍库”5.0以前的版本没有出处复制功能,最新的6.0版能在检索到的条目页面下显示出处,并在复制文本时提供出处复制,但也只有书名和卷数,使用者还得通过翻检补充朝代、作者、篇名等信息,比较费事。
(5)检索结果要有统计数据,并能快捷地打开查看和复制。目前的一些软件点开原文后显示的是关键词所在的整篇文章的开头,而不是关键词所在的段落,关键词也不能高亮显示,要找到关键词所在的段落很费事。有些数据库对复制原文防范过严,如“中国基本古籍库”不能直接复制,须另外打开“下载编辑”窗口才能复制,而且每次最多只能复制200字,很不方便。软件制作者保护知识产权的用意是可以理解的,但只能复制一小部分的限制损害的是正当使用者的权益,建议修改为能直接复制全部当前页。
其五,能很好地兼容常用字处理软件
大多数大型古籍数据库需要安装专用的浏览软件,这给使用者造成不便。书同文的每一种数据库甚至都要安装单独的客户端程序,很不合理。理想的状态应该是用常用浏览器(如IE)就可浏览,事实上龙语瀚堂典籍数据库也已经做到了这一点,建议其他数据库的研制者借鉴龙语瀚堂的成功经验。当然,如果能研制出一个更切合古籍浏览的通用软件也未尝不可,但目前各自为政的做法不但造成资源的浪费,而且给使用者造成很多麻烦,实不可取。
检索出来的资料人们一般是要复制到WORD等字处理软件中使用的,然而有些数据库的资料复制粘贴后会发生错乱。例如不少古籍带有注文,注文一般是随文用小字表示。当你把《四库全书》中复制的带注文的资料粘贴WORD中时,所有的注文全都跑到正文的末尾之后,而不在原句之下,使你分不清楚哪是正文哪是注文。即便知道是注文,也不清楚是哪句正文的注文。不得已,还得跟数据库中的原页面仔细核对。大陆的使用者一般要把复制的繁体字资料转换为简体字,但这种转换会发生错误。如用WORD的繁简转换工具把《四库全书》中复制的“譙國華佗字元化”整体转为简体时,“元”被转换成了“符”,令人莫名其妙。龙语瀚堂典籍数据库中的有些僻字复制粘贴到WORD后会走样,如上例《尔雅》中的字复制到WORD后变成了鰴。这都是兼容性存在问题。
总而言之,古籍的数字化是保存传播并充分利用古代典籍的革命性手段,具有重要的现实价值和深远的历史意义,各有关方面应该携起手来,与时俱进,共同迎接数字化时代的挑战。