国内古籍数字化研究论文的计量分析
【内容提要】以CNKI为数据源,采用文献计量学方法对国内古籍数字化研究领域发表的学术论文进行统计分析。分析的角度为论文年代分布、期刊分布、作者分布、机构分布、高被引论文分析等多个角度,力图总结国内古籍数字化研究的特点,为该领域研究未来的发展提出建议。
【关键词】古籍数字化;文献计量法;计量分析
我国古籍数字化的相关研究始于上世纪80年代,距今已经走过近30年的发展历程。受限于当时的客观条件,80年代基本属于古籍数字化的起步探索阶段,90年代特别是2000年以后,伴随着新兴网络技术、信息技术的发展和商业应用的成功,古籍数字化研究获得了迅猛的发展。毛建军认为:古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作[1]。2013年6月22日中国纳西族东巴经典古籍数字化传承工作再获突破,其“东巴经典传承体系数字化国际共享平台建设研究”项目被列为国家社科基金重大项目,获得联合国教科文组织的高度评价,在国家和社会层面都产生了较大的影响[2]。近年来,在文史学者、图书情报学者和计算机专家的共同努力下,古籍数字化研究引起了学者们的广泛关注,相关研究文献数量呈现迅速上升的趋势,本文采用文献计量学方法对古籍数字化领域的研究论文进行统计分析,探讨古籍数字化的发展特点、研究现状及存在的问题,以期为今后古籍数字化研究的发展提供帮助。
1、数据来源及处理方法
1.1数据来源
本文选取中国知网的文献为数据源,选择“高级检索”,发表时间截止到2012年,选择学科领域:全选;检索字段:以“主题”为检索项;检索词:古籍、古典文献、古代文献、善本、古文、古籍整理、古籍保护;二次检索检索词:数字化、电子化、计算机、数据库。组配方式均为逻辑或;检索时间为2013年7月23日;
1.2数据处理方法
通过人工筛选,去除一稿多发、简讯、报纸、评论、通知以及与古籍数字化研究相关性不大的文章,得到相关文献共797篇。具体分析时主要采用Bicomb(书目共现分析系统)软件并结合Excel软件的排序和分类汇总的功能,部分计量分析通过VBA编程实现。
2、结果分析
2.1文献增长规律分析
科学文献的数量是衡量科学知识量的重要尺度之一,某一时期文献数量的增加速度,在一定程度上反映了该学科领域研究的理论水平和发展速度[3]。
表1 古籍数字化研究论文的年代分布
年份 | 论文数量 | 百分比 | 累计 | 年份 | 论文数量 | 百分比 | 累计 |
1985 | 2 | 0.25 | 2 | 1999 | 11 | 1.38 | 61 |
1986 | 1 | 0.13 | 3 | 2000 | 20 | 2.51 | 81 |
1987 | 1 | 0.13 | 4 | 2001 | 16 | 2.01 | 97 |
1988 | 3 | 0.38 | 7 | 2002 | 42 | 5.27 | 139 |
1989 | 2 | 0.25 | 9 | 2003 | 34 | 4.27 | 173 |
1990 | 1 | 0.13 | 10 | 2004 | 29 | 3.64 | 202 |
1991 | 2 | 0.25 | 12 | 2005 | 41 | 5.14 | 243 |
1992 | 2 | 0.25 | 14 | 2006 | 49 | 6.15 | 292 |
1993 | 1 | 0.13 | 15 | 2007 | 72 | 9.03 | 364 |
1994 | 3 | 0.38 | 18 | 2008 | 70 | 8.78 | 434 |
1995 | 6 | 0.75 | 24 | 2009 | 81 | 10.16 | 515 |
1996 | 13 | 1.63 | 37 | 2010 | 91 | 11.42 | 606 |
1997 | 4 | 0.50 | 41 | 2011 | 83 | 10.41 | 689 |
1998 | 9 | 1.13 | 50 | 2012 | 108 | 13.55 | 797 |
合计 | 797 | 100.00 |
一般来说在研究某一特定学科或知识领域的文献在一定范围内的增长规律时一般都以文献累积数据为依据。因为各年出版的文献逐年相加而得到的文献累积数量总是增加的,就有可能趋于某种固定的规律,能用一个较为准确的函数来描述,因而有利于进行文献的定量分析研究。为了便于观察笔者绘制了古籍数字化研究论文的增长趋势图,如图1所示。
图1 古籍数字化研究论文增长趋势图
结合表1和图1可以看出,古籍数字化研究论文的发展经历了3个重要的时间节点:96年前,尽管古籍数字化研究早已经开始,但研究论文增长速度一直较为缓慢。1996年研究论文首次单年突破10篇,百分比突破1%,累计文献超过30篇。2002年研究论文数量达到此前单年的最大值42篇,百分比突破4%,累计文献首次超过100篇。2009年单年研究论文数量百分比突破10%,累计文献首次超过500篇。原因可能在于在这些时间节点前后往往伴随着一些重要的、甚至具有里程碑意义的事件,客观上推动了学术研究的活跃和繁荣。1995年7月召开的“中国古籍整理研究出版现代化国际会议”和1996年4月国家宗教局主持发起的新修《大藏经》的工作对相关研究就起到了重要的推动作用。2002年以来伴随着信息技术的迅猛发展,古籍数字化理论研究逐步深入,高层次的博士论文和专著数量逐步增加,同时各类建设项目纷纷上马,如北京爱如生公司2002年开始研发著名的《中国基本古籍库》。2009年以后第二、三届中国古籍数字化国际学术研讨会的召开也在客观上推动了古籍数字化的发展。
文献计量学的奠基人之一普赖斯提出了科技文献增长4阶段理论[4]。其中前2个阶段是:①学科刚刚诞生,绝对论文数量少,增长不稳定,很难通过统计的方法求得相应的数学表达式。②学科进入大发展时期,此阶段专业理论迅速发展,论文数量急剧增加,较为严格地服从指数增长。参照此理论及图1我们可以看出1985-1995年这一阶段,古籍数字化研究处于起步及初步发展阶段,相关研究引起了研究人员的注意但仍发展缓慢。1996年特别是2009年以后古籍数字化研究进入发展的快车道,相关论文数量急剧增加,开始慢慢接近指数增长规律。
2.2论文期刊分析
表2 期刊类型分布
期刊类型 | 数量(种) | 期刊类型 | 数量(种) |
大学学报 | 88 | 文学历史类 | 17 |
图情档类 | 57 | 编辑出版类 | 8 |
其他类 | 56 | 教育类 | 5 |
学位论文 | 37 | 语言文字类 | 4 |
医药类 | 21 | 古籍整理与保护类 | 3 |
合计 | 296 |
表3 发文9篇以上的期刊
期刊名 | 发文数 | 期刊名 | 发文数 |
农业图书情报学刊 | 23 | 图书馆建设 | 11 |
图书馆理论与实践 | 23 | 中国中医药信息杂志 | 9 |
图书馆学刊 | 23 | 图书情报知识 | 9 |
古籍数字化国际学术研讨会论文集 | 22 | 中国中医科学院学报 | 9 |
图书馆学研究 | 22 | 图书馆论坛 | 9 |
其他会议文集 | 18 | 江西图书馆学刊 | 9 |
兰台世界 | 16 | 中国索引 | 9 |
图书馆工作与研究 | 16 | 南京农业大学学报 | 9 |
科技情报开发与经济 | 15 | 现代情报 | 9 |
图书情报工作 | 15 | 数字与缩微影像 | 9 |
四川图书馆学报 | 13 |
本文统计了全部论文的发文期刊共296种,从表2、3可以看出,古籍数字化发文期刊的类型呈现出一些独有的特点,全部期刊中大学学报发文最多共88篇,其次为图书情报档案类期刊共发文57篇,其他类期刊主要是一些科技类期刊发文56篇,相关学位论文37篇。古籍数字化的研究人员中图书情报档案系列的研究者占据了很大部分,而古籍数字化的研究领域也与图情档传统研究领域有着密切的交叉关联,因此图情档类期刊发文较多是很自然的事情。大学学报发文最多说明一方面古籍数字化的研究引起了越来越多的研究人员的关注,另一方面也可能因为古籍数字化还没有真正意义上的专业期刊从而影响了作者的投稿选择。因此创办专门针对古籍数字化领域的专业期刊也许是未来的一个发展方向。其他类型期刊发文较多说明古籍数字化引起了其他很多学科研究人员的关注和重视,同时也体现了文献的集中和分散规律。另外学位论文数量也达到了一定的规模,说明针对古籍数字化方面的高层次研究也在不断增长。医药类、文学历史类、编辑出版类期刊也有一定数量的发文,这些领域往往从各自的专业角度出发研究古籍数字化,这也是目前古籍数字化研究较为活跃值得重视的专业领域。
表3列出了古籍数字化发文9篇以上的期刊,21种期刊中图书情报学期刊占到13种,值得注意的是会议文集的论文数量较多,特别是古籍数字化国际学术研讨会论文集达到22篇,考虑到CNKI收录可能不够全面和检索策略的影响,实际的会议论文数量要多得多,但这已经充分说明了举办古籍数字化国际学术研讨会对于推动古籍数字化研究的进展有着重要的促进作用。
2.3著者及合作分析
表4 古籍数字化研究论文著者及合著情况
年份 | 独著 | 2人 | 3人 | 4人 | 5人 及以上 |
作者 总数 |
论文 总数 |
合著数 | 合作度 | 合作率(%) |
1985 | 2 | 2 | 2 | 0 | 1.00 | 0.00 | ||||
1986 | 1 | 1 | 1 | 0 | 1.00 | 0.00 | ||||
1987 | 1 | 1 | 1 | 0 | 1.00 | 0.00 | ||||
1988 | 1 | 2 | 5 | 3 | 2 | 1.67 | 66.67 | |||
1989 | 2 | 2 | 2 | 0 | 1.00 | 0.00 | ||||
1990 | 1 | 5 | 1 | 1 | 5.00 | 100.00 | ||||
1991 | 1 | 1 | 3 | 2 | 1 | 1.50 | 50.00 | |||
1992 | 2 | 2 | 2 | 0 | 1.00 | 0.00 | ||||
1993 | 1 | 2 | 1 | 1 | 2.00 | 100.00 | ||||
1994 | 3 | 3 | 3 | 0 | 1.00 | 0.00 | ||||
1995 | 6 | 6 | 6 | 0 | 1.00 | 0.00 | ||||
1996 | 8 | 1 | 4 | 22 | 13 | 5 | 1.69 | 38.46 | ||
1997 | 3 | 1 | 7 | 4 | 1 | 1.75 | 25.00 | |||
1998 | 6 | 3 | 12 | 9 | 3 | 1.33 | 33.33 | |||
1999 | 8 | 3 | 14 | 11 | 3 | 1.27 | 27.27 | |||
2000 | 19 | 1 | 21 | 20 | 1 | 1.05 | 5.00 | |||
2001 | 11 | 2 | 2 | 1 | 25 | 16 | 5 | 1.56 | 31.25 | |
2002 | 26 | 12 | 1 | 2 | 1 | 66 | 42 | 16 | 1.57 | 38.10 |
2003 | 28 | 3 | 2 | 1 | 45 | 34 | 6 | 1.32 | 17.65 | |
2004 | 20 | 4 | 3 | 2 | 47 | 29 | 9 | 1.62 | 31.03 | |
2005 | 29 | 7 | 3 | 1 | 1 | 61 | 41 | 12 | 1.49 | 29.27 |
2006 | 36 | 10 | 1 | 2 | 69 | 49 | 13 | 1.41 | 26.53 | |
2007 | 53 | 13 | 4 | 2 | 99 | 72 | 19 | 1.38 | 26.39 | |
2008 | 49 | 14 | 3 | 2 | 2 | 104 | 70 | 21 | 1.49 | 30.00 |
2009 | 63 | 10 | 4 | 3 | 1 | 112 | 81 | 18 | 1.38 | 22.22 |
2010 | 60 | 20 | 3 | 4 | 4 | 145 | 91 | 31 | 1.59 | 34.07 |
2011 | 61 | 16 | 4 | 1 | 1 | 114 | 83 | 22 | 1.37 | 26.51 |
2012 | 78 | 15 | 9 | 3 | 3 | 162 | 108 | 30 | 1.50 | 27.78 |
本文运用合作度与合作率两个计量指标研究作者合作论文情况,合作度=作者总数/论文总数;合作率=合作论文数/论文总数* 100%。这些指标反映了论文作者合作智能的发挥程度,数值越高,合作智能发挥越充分。通过了解该领域科研的集体化、合作化程度可以反映出科学研究的复杂化、交叉化、高深化程度。
从表4可以看出,1985-1995年共11年间合作的水平极低,其中7年合作率均为0,另外4年尽管有合作,但合著论文数和论文总数均较低,由于这一阶段属于古籍数字化的起步阶段,研究人员尝试在各个领域展开探索,主客观条件均不具备开展大规模合作的可能。
96年以后才开始了真正有一定规模的合作,如1996和2002年合作率达到38.46%和38.10%分列第一、第二,其原因可能是随着古籍数字化研究的发展,基础理论的逐步完善、新兴网络技术的推动和商业应用的成功,一方面研究人员具有开展合作的主观意愿,另一方面随着研究的深入,很多复杂问题也要求开展跨地域、跨学科的合作攻关。这两方面相互促进推动了古籍数字化研究的合作保持在一个较稳定的水平。
表5 发文4篇以上的作者
作者 | 发文数 (第一作者) |
作者工作单位 |
毛建军 | 35 | 河南新乡学院文学院 |
吴夏平 | 5 | 贵州师范大学文学院 |
孙琴 | 5 | 苏州大学图书馆 |
王立清 | 5 | 中国人民大学信息资源管理学院 |
符永驰 | 4 | 中国中医科学院中医药信息研究所 |
李兵 | 4 | 中国中医科学院中医药信息研究所 |
赵阳 | 4 | 南京林业大学人文社会科学学院 |
柳长青 | 4 | 宁夏大学数学计算机学院 |
裴丽 | 4 | 黑龙江中医药大学图书馆 |
李明杰 | 4 | 武汉大学信息管理学院 |
葛怀东 | 4 | 金陵科技学院人文学院 |
美国著名的科学家普莱斯研究了科学家人数与科学文献数量,以及不同能力层次的科学家之间的定量关系,提出了著名的普赖斯定律。他在其代表名著《小科学,大科学》一书中曾有如下的论述:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根。其中杰出科学家中最低产和最高产科学家所撰写的论文的关系数为m=0.749(nmax)1/2。对于古籍数字化研究领域,m=0.749(35)1/2=4.43篇,按照普赖斯理论发表论文4篇以上的作者为核心作者,由表5可知发文量在4篇以上的共11人,根据普赖斯定律计算高产作者,在现有的676位作者中有6761/2=26,即前26位为核心作者。因此结果表明古籍数字化领域的研究并没有形成核心作者群。除毛建军的发文量遥遥领先外,其他作者发文数还不多,发文量2篇以下的作者形成了一个长尾,说明很多研究者的研究缺乏深度和延续性,更多的呈现一种“跟风”的趋势。
2.4核心研究机构分析
表6 发文数在7篇以上的机构
研究机构 | 发文数 | 研究机构 | 发文数 | 研究机构 | 发文数 |
南京大学 | 23 | 西北民族大学 | 10 | 南开大学 | 7 |
中国中医科学院 (中国中医研究院) |
21 | 清华大学 | 9 | 南京中医药大学 | 7 |
河南新乡学院 | 20 | 浙江中医药大学 | 8 | 南京图书馆 | 7 |
河北师范大学 | 20 | 辽宁省图书馆 | 8 | 南京农业大学 | 7 |
武汉大学 | 17 | 中国农业科学院 | 7 | 河南大学 | 7 |
苏州大学 | 12 | 齐齐哈尔大学 | 7 | 贵阳中医学院 | 7 |
国家图书馆 | 11 | 宁夏大学 | 7 | 广州中医药大学 | 7 |
表6列出了发文数在7篇以上的机构,同一机构不同作者、不同部门的发文数按机构进行合并。可以看出在发文超过7篇的21家机构中,大学有16所,具体发文部门主要是大学图书馆和各相关学院、系部。图书馆3家分别为国家图书馆、辽宁省图书馆、南京图书馆。研究机构2所,分别为中国中医科学院(中国中医研究院)、中国农业科学院。以上3种类型基本反映出目前古籍数字化研究的核心机构类型。这些机构既有分布在东南沿海地区如南京大学、南开大学、广州中医药大学,也有分布在中西部地区如河南大学、河北师范大学、西北民族大学、宁夏大学,还有分布在东北地区的如辽宁省图书馆、齐齐哈尔大学。说明古籍数字化研究在全国一个较大的范围内引起了很多研究人员的兴趣,不同地域的研究机构具备自身的优势和特色也为未来的跨地域、跨学科的合作提供了条件。但另一方面一些机构尽管发文较多,但还没有形成有影响力的团队,如南京大学和河南新乡学院分别发文23篇、20篇,但仅毛建军一人就发文18篇和17篇。同时以上研究机构中没有一家企业公司,全部的发文机构中企业公司的数量也极少,本文只检索到2家公司。因此未来古籍数字化的研究一方面要推动跨地域、跨学科、跨行业的合作,另一方面各机构内部应培养打造有影响力的研究团队,这样才能解决目前研究中的很多瓶颈问题共同推动古籍数字化的发展。
2.5 高被引论文分析
表7 被引次数在20次以上的论文
序号 | 篇名 | 作者 | 被引频次 | 期刊名 | 时间 |
1 | 中国古籍资源数字化的进展与任务 | 李国新 | 78 | 大学图书馆学报 | 2002 |
2 | 我国古籍数字化的现状及展望 | 王桂平 | 43 | 图书情报知识 | 2000 |
3 | 中国古籍数字化进程和展望 | 潘德利 | 39 | 图书情报工作 | 2002 |
4 | 数据挖掘技术在古代名中医中风医案之应用研究 | 陈擎文 | 36 | 中华中医药学刊 | 2008 |
5 | 论中国古籍的数字化与人文学术研究 | 史睿 | 34 | 北京图书馆馆刊 | 1999 |
6 | 中文古籍数字化方法之检讨 | 陈力 | 33 | 国家图书馆学刊 | 2005 |
7 | 中文古籍数字化基本理论问题刍议 | 李明杰 | 33 | 图书馆论坛 | 2005 |
8 | 中文古籍数字化的成果与存在问题 | 陈阳 | 33 | 出版科学 | 2003 |
9 | 古籍数字化的回顾与展望 | 段泽勇等 | 30 | 图书馆理论与实践 | 2004 |
10 | 古籍数字化的现状及对策 | 厉莉 | 28 | 江西图书馆学刊 | 2002 |
11 | 古籍数字化的概念与内涵 | 毛建军 | 27 | 图书馆理论与实践 | 2007 |
12 | 古籍资源数字化建设的一些探讨 | 余述淳 | 27 | 大学图书情报学刊 | 2003 |
13 | 古籍数字化之趋势 | 王纯 | 27 | 图书馆理论与实践 | 2000 |
14 | 谈古籍电子版的保真原则和整理原则 | 李运富 | 27 | 古籍整理研究学刊 | 2000 |
15 | 中文古籍数字化的再思考 | 陈力 | 25 | 国家图书馆学刊 | 2006 |
16 | 古籍数字化资源的深度开发 | 徐清等 | 25 | 图书情报工作 | 2007 |
17 | 计算机与古籍整理研究手段现代化 | 于亭 | 25 | 古汉语研究 | 2000 |
18 | 论古籍的数字化 | 彭江岸 | 25 | 河南图书馆学刊 | 2000 |
19 | 中文古籍数字化的进展与主要成果述评 | 吴家驹 | 24 | 南京师范大学文学院学报 | 2004 |
20 | 古籍保护与开发的策略与建议 | 刘家真等 | 23 | 中国图书馆学报 | 2009 |
21 | 古籍数字化与古典文学研究的未来 | 郑永晓 | 23 | 文学遗产 | 2005 |
22 | 《说文》小篆构形系统相关数据的计算机测查 | 齐元涛 | 23 | 古汉语研究 | 1996 |
23 | 中文古籍数字化建设 | 龚娅君等 | 22 | 浙江大学学报(人文社会科学版) | 2006 |
24 | 古籍数字化与文献信息资源共享 | 张雪梅 | 22 | 天津工业大学学报 | 2002 |
25 | 古籍善本数字化的尝试—— 中国古籍善本查阅系统述略 |
陈秉仁 | 22 | 现代图书情报技术 | 1998 |
26 | 古籍数字化的几点思考 | 王发社 | 21 | 图书馆论坛 | 2006 |
27 | 古籍数字资源述略 | 杨朝霞 | 21 | 大学图书馆学报 | 2000 |
28 | 上海图书馆的家谱数字化资源服务 ——古籍保护效果的一个实例 |
黄显功 | 20 | 图书馆学刊 | 2008 |
论文被引频次是指自论文公开发表或公开发布以来被其他论文引用的次数,高被引论文是指被引用频次相对较高,被引用的周期相对较长的学术论文[5]。高被引论文的被引频次能客观地反映论文的影响力,对于了解该领域的研究质量和研究特点都有着重要的意义。本文选取古籍数字化研究被引频次在20次以上的论文共28篇,如表1所示。
可以发现:⑴被引频次在20-29次的论文共19篇,占论文总数的68%,30-39次的共7篇,占25%,40次以上仅2篇占7%,总体而言相对其他较为成熟的研究领域,古籍数字化的研究论文无论在数量还是质量方面均有较大的提升空间。⑵高被引论文最多的年份为2000年共6篇,其次为2002年共4篇,再次为2005、2006年各3篇。⑶全部21种期刊中图书情报学期刊占到13种,其次为大学学报共3种,可见图情学期刊的相关论文代表了古籍数字化研究的较高水平。⑷28篇论文中理论探讨型的文章较多,技术应用型的文章较少。究其原因可能一方面由于古籍数字化的研究本身就经历了一个架构并完善理论体系的过程,因此这方面的探讨较多。另一方面也由于技术应用类的文章撰写难度较大,对作者的要求更高,往往需要通过跨学科的合作才能顺利完成。但值得注意的是陈擎文的《数据挖掘技术在古代名中医中风医案之应用研究》自2008年发表以来已经获得了36次的较高被引次数。可以预见随着研究的不断深入会出现越来越多的技术应用方面的高被引论文,推动着古籍数字化的研究进一步走向深入。
3、结语
通过对1985-2012年国内古籍数字化研究论文的计量分析,可以发现国内目前对古籍数字化领域的研究取得了长足的进步,目前已经开始进入高速发展的阶段。新兴信息技术的发展以及古籍数字化领域重要事件的推动这两大因素对该领域的发展有着非常重要的意义,该领域的文献开始呈现接近指数增长,核心期刊群、核心研究机构和核心作者正在慢慢形成中。目前应进一步推动跨地域、跨学科、跨行业的合作,培养打造有影响力的研究团队,同时推出古籍数字化领域的专业期刊共同推动古籍数字化的发展。由于受到CNKI收录论文的数量和检索策略的影响,本文的原始数据还存在一定的遗漏,也欠缺相关的关键词分析和基金分析,这些将在未来的研究中进一步加以解决。
参考文献
[1] 毛建军. 古籍数字化的概念与内涵[J]. 图书馆理论与实践, 2007(4):82-84
[2]新华网. 东巴经典古籍数字化传承列入国家级重大项目.[2013-7-28].http://news.xinhuanet.com/politics/2013-06/26/c_124913905.htm
[3] 邱俊平.信息计量学[M].武汉:武汉大学出版社, 2007:45-55,165.
[4] 庞景安.科学计量研究方法论[M].北京:科学技术出版社,1999:299-301.
[5] 权丽桃.《情报科学》2006-2010年高被引论文分析[J]. 情报科学, 2012(4):559-562
作者单位:金陵科技学院人文学院 江苏南京 210038