典籍数字化与搜索:源与流,深与浅
(录音整理稿节选)

张轴材

各位专家,大家好:

  因为在座各位面孔比较陌生,所以我先介绍一下我自己。跟文史古籍界的各位不太一样,我是踏入文史典籍领域的一个“越俎代庖”分子,不是文字专家,也不是文史专家,只是一个工程师。我原来学自动控制,后来学计算机,但是由于历史的误会,从89年起就卷入中日韩汉字统一当中。是一个CJK统一编码的“始作俑者”者,“始作俑”为什么加引号?因为现在有的人说有好的评价,有的说还有这样那样的问题,不管怎么样,我有相当的责任,因为在国际上我是该项目的长期负责人。我卷入大家做的这个领域是从95年做《汉语大词典》电子版开始,到文渊阁《四库全书》电子版工程,还有大家熟悉的《四部丛刊》电子版,所以我做的事情跟大家相关;但我做的和国学的尹小林比,我在某些地方是“先烈”,有些地方我牺牲了,但没有取得成绩或回报。

  在这里,我谈到的是狭义的典籍数字化,听起来跟大家不太一样,在座好多专家的理解是广义的。狭义的典籍数字化把整理后的古籍文献内容,从纸面转换为数字,与相关的数字化工具结合在一起,达到字字可查、句句可检的水准,提供给文史工作者使用。这是一个基础工作。目的不是取代文史工作者(也永远取代不了),而是让学者“如虎添翼”(季羡林老先生在我们赠送北京大学《四部丛刊》时讲的话)。进行深层次的研究(广义的数字化:标引、校勘、版本对比、注释、同义词语、韵律、批评…)。这些我们做不好,这些工作是是文史工作者的使命,当然要配合一定的工具。

  我今天和大家一起交流的,首先看看到典籍数字化的大好形势。95年以前数字化大陆很差,台湾中央研究院做得很好,后来我们做得不错,到今天来看,我们确实是有长足的进步,形成了全面展开的态势,我就把自己视野范围内的标志性发展,以及我自己的感悟和大家交流一下。

  ·文津阁四库全书(标志性的,尽管是做图形版。)

  ·台湾:典藏数位化项目,佛学…(佛学是发动群众,有规模有水平的。)

  ·民间:天一阁(全面数字化,正在研究之中,)

  ·基础:古籍字频统计(还有词语统计,词语统计还不太成熟,字频统计在商务印书馆估计11月份出版。)

  全面展开,国内(文渊阁《四库全书》、《四部丛刊》)之后,基本古籍CD,国学网…有一些好的发展,比如政府项目:

  ·第一历史档案馆:(作了大量踏踏实实的工作)

  ·清会典(已成为产品)

  ·清实录(已成为产品)

  ·上谕档(进行中)

  《清会典》和《清实录》已经成为产品,《上谕档》正在制作中,这是我们书同文公司做的,主要是明清档案。

  此外,

  ·地方志

  ·清史工程

  ·中华大典

  国际:

  ·日本:《汉方医书大成》已经进入全文数字化第二版

  ·美国:世界大家谱(和国内的一些公司有联系)

  ·韩国:《奎章阁》数字化

  ·法国:《永乐大典》相关典籍数字化

  对这下发展,我有一些感悟和大家交流。在谈汉字信息化时,我就谈过这样一个观点:汉字源于中国,但是汉字并不只属于中国。汉籍也源于中国,但是并非只有中国可以数字化;如果多次出现让外人将“端午节”“申非”的情势,只说明某些政府部门的无作为和典籍故乡学者的无奈。还有一条,典籍一旦数字化,它的用户群就飞速地扩大到全世界,没有任何学者再成为“绝对权威”,或者说,“学阀”的土壤就不复存在了。大家都处于信息资料公开的平等学术环境中。我也检索过,像利用《四部丛刊》、《四库全书》电子版写论文的,港澳台、海外的很多华人,出的论文可以和大陆相匹敌,别想限制人家,别怨天尤人,还是自己急起直追吧。电子的市场是走向全世界的。

  感悟之二,我们可能有很多的数字化设想语抱负,但是字-词-语-文-版,字仍然是基础;适用的文字平台工具,仍然是重中之重。基础不稳,后患无穷。但是,字的重要性主要表现为字样的多样性,而不是字符的多寡。除了大规模字书的需要外,片面地追求“超大、特大字符集”是误解或误导的结果。根据我们的统计CJK_B只占5%%在典籍里,片面的强调大字符集这点,会分散注意力。还有一个就是数字内容为王。我们要高度重视纸张-电子转换的铺路工作,扫描、拍摄、拷贝,不能取代最基础的字符转换工作。必需投入资源。资料扫描在初期是必要的,但是把它作为样板、让人误以为扫描资料就是数字图书馆,这是误导领导和群众,这是很糟糕的事情。

  感悟之三:数字化典籍最终要走向网络服务,而且是从C/S到B/S。B/S,Browser/Server这个潮流是肯定的。网络服务的主要形式是搜索,搜索的早期问题是查全率差,分类欠缺,Google一查一大片都出来了,但是没有分类,连检繁关联都没有,我们老早就已经做检繁异关联了,这是我们做《四库全书》时,但是人家很快就上来了,这个问题解决了。但是今天和明天的问题是什么呢,我只是一家之言,我认为现在是:“流”满全球,难以溯“源”。例:与时俱进。社科院一老师误以为我是专家,让我查“与时俱进”出自哪儿,一查才清楚,这个词是古已有之的,不是现在才创造的。如果在Google或百度里查,它所找到的一大片成千上万全是流,没有源,找不到源。全部被淹没了。温总理那年中秋引用的一首诗是:“心中(唯?惟?)念农桑苦,耳里如闻饥冻声。”体会老百姓疾苦的好诗,我一查古籍,里面好几个版本,意思挺多,可是去查Google,Baidu,查不到,都是人民日报上登的那个版本,找不到真实的,缺少深度,抄袭致“浅”呐。比如:有一个词是张本继末,这是我亲身经历的,给一个位小朋友写的藏头诗,他姓张,想一个词是张本继末,想在Google里查一下,一查所有的张本继末解释全一样,全都是抄的,解释是把事情的本末说清楚,我一看觉得不对劲,仔细推敲,真是不对,大家抄来抄去,连标点符号都一样,然而真正的意思是有继承和发展的意思却忽略了,本是根本,到处都说只是“把事情的本末说清楚”,这叫做张本继末,这是不对的,不全面的,起码我提的问题没地去查。所以我们做完《汉语大词典》第一版时,在新闻出版署开发布会时,北大文史系一老师就问有没有例证,如果没有例证就没用,说得很尖锐。确实是这样,我现在越来越认识到这一点。我们为此有了一个新的数字化创意:询经问典,这是Google,BaiDu,MS共同的空白。今天没时间展开谈,有机会希望和大家深入交流一下。

  感悟之四就是要合作:典籍+数字化,两方面的人,术业有专攻,但一定要合作。我要学习尹小林与文史界的密切联系。我也很欣慰:李铎博士这样的具有文学功底的新一代数字化少壮派的涌现,我真得感到很高兴,原来我主持《四库全书》电子版工程时,他是古汉语的辅导员,和一些北大、北师大的博士生,做了很多贡献,现在,自己也能做很多项目。文理合作的模式很多,其中一个模式在图上(请参看PPT),我就不说了.像我们书同文数字化公司这样的主要做什么呢,我们是数字化清道夫:把问题突现出来,把平台搭起来,让学者去创造新的成果,像我们做《日本汉方医书》时字很乱,要合作,《清实录》这些可以用一种模式,通过网络,这是可能的。台湾做《佛学》电子版时,能做到把很多佛教信徒通过网络,大家提供知识的帮助、相互咨询,一起来做,这完全是可行的。

  时间所限,在此打住。谢谢倾听,希望多多联系!

作者单位】教育部语言文字应用研究所

联系方式www.unihan.com.cn
      Joe.zhang@unihan.com.cn
      joezhang43@hotmail.com