古籍资源的金字塔知识结构数据组织
(发言提纲)

李伟国

  一、非常幸运的是,古籍资源的数字化工作相比于民国书报刊和建国以来书报刊资源的数字化而言,一点也不显得落后,从上世纪80年代以来,有全面开花、蓬勃发展之势,其中的原因,主要是古籍中存在着若干个集合性界限分明的板块、原始古籍没有版权问题以及当代出版人的后知后觉;

  二、但目前古籍数字化的重点,在于板块的选择(如《四库全书》《地方志》《家谱族谱》《中国基本古籍》等等)、文字的处理、全文检索和辅助工具的设置等等,在数据的组织、信息的相关相似度计算处理以及隐含知识的挖掘等方面,还相对较弱,也就是说,数据处理尚有深入的余地;

  三、就数据组织而言,我在这里提出金字塔知识结构的概念,并准备在古籍资源数字化的实践中试加运用;

  四、金字塔知识结构或曰金字塔知识层次,是基于知识创造的次第而提出的。就大的框架来说,我将文本资源分为原始资料、研究成果和工具书三个层次,原始资料当然应该是最先有的,其次是研究成果,最后才是工具书,工具书一定是在原始资料和研究成果的基础之上提炼概括出来的。如果将工具书置于顶部,其中间部分是研究成果,底部则是原始资料,这样就形成了我所说的金字塔结构;

  五、原始资料、研究成果和工具书又各可以分为若干个小层次,工具书可以分为综合性大型辞典、字典词典、专科辞典、大事记年表等层次,研究成果可以分为综合性比较强而又主要循横截面结构逻辑展开的、具有梳理性和一定程度的学术原创性的著作的“志”类图书(《中华文化通志》、各种专志方志、教材类著作亦可入此)、大体以时间为序主要循纵向逻辑展开的、具有梳理性和一定程度的学术原创性的著作“史”类著作(如《中国通史》《中国断代史》《中国文学史》及诸多专史等)、循作者各自选择的论证逻辑展开的表述研究结果的富有学术原创性的学术文化专著(包括学术文)等层次,原始资料则可以分为经过标校整理的古籍(如《古典文学丛书》《全宋文》等等,这是加工程度较高的古籍资料,对于进一步的专题研究功用最大,可惜数字化程度却最低)、经过整合而未经标校整理的古籍(如《四库全书》《续修四库全书》《古本小说集成》等等)、以图片为主的图书和图片;

  六、如就纯古籍而言之,则亦大体可以分为工具书、研究整理著作和原创作品三大层次,其中工具书可以分为类书和训诂书、字书和韵书、大事记和年表等等,研究整理著作可以分为原典的注疏释笺著作、史志类著作和研究专著、笔记等等,原创作品可以分为经史子原典、诗文作品等等;

  七、前面已经说过,金字塔知识结构的构筑,大体以知识创造的次第为序,由下而上,将提炼程度最高的工具书放在金字塔的塔顶上,由经过梳理和概括的成熟知识深入到学术成果乃至原始资料,知识点之间由浅入深地有机链接,成为一个有内在联系的知识整体,这样的数据库组织和链接方式是根据使用者的层次和需求决定的;

  八、如《中国大百科全书》《辞海》这样的百科全书和百科辞典,是经过高度提炼的高质量工具书,在知识体系的严密性、平衡性,知识点表述的准确性和简明性方面,是其他文本数据所无法比拟的。而且它们用众多的条目展开全部知识,一个条目就是一个知识细胞,使查检靶的明确而集中,故可以其条目为金字塔的核心知识群,其他文本数据,均可与之依紧密程度呈涟漪状地与之相链接。

  九、对于一般的求知者来说,可以借助工具书条目直接、迅速地找到所需知识的简明而准确的表述,成为他们不可或缺的知识之友;对于大学以上的深造者和专业人士来说,又可通过塔型知识库从有关问题的一般表述开始,进而找到相关研究成果和所需的研究资料,使研究的起点更高,从这一点上来说,它又将成为专业研究和论文撰写的最好的工具,这也是一种研究支持功能;

  十、基于上述目的,应从对拟收资源各层级文本之表述方式的分析出发,运用先进的数据库技术,逐步对塔中的全部知识作科学而细致的类分和标引,使其知识之存储方式发生质变,从而其搭配取用方式也发生质变,类聚相关相似知识,挖掘隐性相关知识,而且产生无穷的新知识。它将独立于纸介质出版物而存在,既利于查检,也利于研究,其功能在原出版物的基础上得到增强。

发布日期:2009-08-18