内容提要:具有前瞻性眼光的学者决不能仅仅满足于把计算机当作一个检索工具。人类如何适应并利用其独特的思维方式,在古籍数字化的基础上将古代文学研究提升到一个更高境界,是广大文学研究者和IT业者共同面对的挑战。计算机人工智能首先在古籍整理方面大有用武之地,在古典文学研究方面也有其契合点。文章同时对版本意识淡薄、字库设计不规范以及缺乏合适的程序设计语言等古籍电子化过程中面临的问题作了探讨。
关键词:古籍数字化;古代文学研究方法;人工智能
作者简介:郑永晓,男,1963年生。2003年毕业于中国社科院研究生院,获博士学位,现为中国社科院文学所副研究员。发表过专著《黄庭坚年谱新编》等。
IT技术的飞速发展在人文、社会科学中的一个重要表现就是传统纸质文本向电子文本的转化,亦即报刊、书籍的数字化,这其中又以古籍数字化的成果最为引人注目。中国传统古籍浩如烟海,二千馀年来,没有被充分开掘和利用者不计其数,因此,对古籍予以数字化的迫切性和必要性较之现代书籍而言,显然有过之而无不及。相关机构正是着眼于数字化古籍在应用方面具有深广的潜力,且一般不存在版权问题,才投入大量人力物力,先后完成了电子版《四库全书》、《四部丛刊》、《二十五史》、《全唐诗》、《全宋诗》等一系列有关传统文献的数据库,而广大文史工作者也确实受惠于这些数字化古籍。此足以说明,数字化古籍对古典文学研究不仅必要而且必将有着十分光辉的未来。具有前瞻性眼光的学者决不能仅仅满足于把计算机当作一个检索工具,满足于把计算机检索到的资料复制到自己的文章中,以省却自己的翻检之劳。计算机具有自己的思维特点,人类如何适应并利用其独特的思维方式,将人的创造性思维与计算机的强大功能有机结合起来,把古代文学研究提升到一个更高境界,是广大文学研究者和IT业者共同面对的挑战。令人欣慰的是,已经有一些机构和学者在这方面做了非常有益的探索并取得了可观的成绩,如北京大学中文系李铎博士主持开发的《全宋诗电子分析系统》,即具有较高的智能化特色。笔者有幸使用过这一系统,并拜读了李铎博士和王毅先生《关于古代文献信息化工程与古典文学研究之间互动关系的对话》(以下简称《对话》)①,深感获益匪浅。因此,愿意把自己近年来有关此问题的一些想法发表在此处,作为这一精彩文章的蛇足之论,欠妥之处,还请李铎、王毅先生和众方家批评指正。
一、计算机智能化的前景及其对古典文学研究的影响
伴随计算机科学技术的日新月异及其在各行各业中的广泛应用,人们对计算机软硬件的要求愈来愈高,对计算机科学所能攻克的难题也愈来愈抱有更高的期望。于是,学术界很自然地进而提出究竟计算机能否具备类似人类的思维方式,完成人类大脑所能支配的工作,亦即计算机能否实现人工智能的问题,由此诞生了二十一世纪三大尖端技术之一的“人工智能”。②作为计算机科学的一个重要分支,人工智能是一门研究运用计算机模拟和延伸人脑功能的综合性学科,其目的在于让计算机这样的“机器”能够像人一样思考和判断,具有人类的某些智慧以及解决复杂问题的能力。信息技术的这一前沿分支,其研究、应用和发展在一定程度上决定着计算机科学的发展方向。
那么,人工智能这样尖端的科学,与我们的古典文学研究究竟有什么关系呢?据笔者观察,在上个世纪90年代前期,人文、社科学者利用计算机基本上仅限于打字,95年互联网引入中国以后,少数学者开始尝试利用网络查阅学术资料,一些具有前瞻性眼光的公司开始制作古籍资料检索光盘,如商务国际有限公司制作发行的《全唐诗》光盘等。90年代末至本世纪初,古籍数字化进入迅速发展阶段。1998年全国高校古籍整理委员会批准立项并直接资助了“中国基本古籍库光盘工程”,目前很多学者尤其是古代文史研究者手中使用着由迪志公司、书同文公司等开发的《四库全书》、《四部丛刊》等,大陆、台湾和香港各种网站上也提供了愈来愈多的数字化古籍文献等。很显然,经过近十年的快速发展,数字化古籍的总量已经十分可观,程序提供的检索手段也已经相当完善。在这种日益强大的检索手段基础上,如果能辅以更加智能化的统计、分析、综合、判断程序,那么以人工智能为支撑的信息技术在古籍整理和古典文学研究方面将产生划时代影响,便绝非故作危辞耸听之论。
诚然,学者个性千差万别,学术道路、学术方法也多种多样。计算机没有产生之前的学术大师固然成就不凡,当代学人中从未使用过电脑而能取得很大学术成就者也大有人在。但是,这并不表明信息技术的发展对这部分学者不会产生影响。这里有两个因素需要特别注意:第一,传统学者治学过程中对私人藏书或公共图书馆的依赖在不远的将来会不复存在。因为伴随存储技术的日新月异,将中国历史上的所有古籍存储在一张DVD光盘或一张邮票大小芯片上的可能性并不遥远。近年来,光盘存储容量正朝着单碟20GB以上规格迈进,而荧光多层光碟FMD(Fluorescent Multilayer Disc)技术成熟后更使得目前CD大小的盘片可以存储100GB的数据,第二代FMD技术将使盘片存储量升至1TB甚至更高。③所以,尽管传统古籍浩如烟海,此前从未有人能够全部拥有,更遑论能够全部读完。但是,随着存储技术的迅速发展,将所有古籍随身携带却不再是一个遥远的梦想。第二,与传统图书的阅读方式不同,可随身携带的这些古籍是可以快速检索、统计的电子文本,在不远的将来完全可以在此基础上实现自动标点、笺注、翻译等功能,甚至进而实现历史年表的编撰、作家年谱的纂辑以及数字化文学史等更具智能化的功能。这就使得此前乾嘉学派那套治学功夫基本没有了用武之地,像标点、笺注、翻译等工作完全可以交给机器去处理。同时,现代人推崇的美学分析、文本分析、文化研究等等也必将面临重大变革,因为对文学史所作的理论和美学分析建立在对历史文献的解析、归纳之上,而一旦对文献的处理发生了划时代的变革,则整个古典文学研究方式也必将随之变革。
总之,将电脑与人脑的长处和优势结合起来,将为古籍整理和古典文学研究注入一股强大的新生力量,在资料采集、推理求证、综合分析等方面带来思维方式和研究方法的革命,从整体上促进学科发展水平的大幅提高。下文对此稍作疏解。
二、关于计算机的思维方式与古籍整理
计算机人工智能的开发在不同领域有不同的侧重和研发方向。在人文和社会科学研究领域,笔者以为,开发计算机的人工智能应侧重发挥计算机“思维方式”(借用李铎先生的提法)的长处,同时结合计算机摹拟人脑的功能。在这方面,计算机首先在古籍整理方面大有用武之地。
古籍整理主要包括标点、校勘、笺注等工作。关于利用计算机进行古籍标点的问题,李铎、王毅先生在其《对话》中已经阐述得相当清楚,我完全同意他们的观点。利用计算机的自学习功能,由易到难,先选用已经标点,且质量较高的古籍文本让计算机学习、摹拟,从而不断扩充知识库,在此基础上完全可能实现对大规模古籍的标点工作。在具体操作上,除了需要注意古汉语的规律,找出字与字之间的亲和度以外,还需要让计算机学习不同文体的特点。因为在我国传统文化史上,产生过数十种文体,每一种文体都有不同的行文方式,计算机如能首先判断出需要标点的文本是何种文体,便可根据这种文体的特点和规律做出高质量的标点切分工作。因为多数读者没有编程方面的知识,我们以大家都熟知的字处理软件,微软WORD“工具”菜单中提供的“宏(Micro)为例,简单验证利用计算机标点文本与文体的关系。④如果我们用“宏”来标点一首不分行的七言诗,且要求排列成每联为一行,我们只需使用Visual Basic编辑器或录制“宏”的办法告诉计算机从第一个字算起,至第七字后加逗号,至第十四个字后加句号及一个段落标记(硬回车),第二十一个字后加逗号,第二十八个字后加句号及一个段落标记,馀者以此类推。这样一个简单的小程序(宏)标点一首七言诗的时间不足一秒钟,这是因为程序设计者已经告诉计算机或者计算机已经能够判断这是一首七言诗。如果遇到一首词,计算机能够根据其词牌去判断标点位置,无疑将做出十分精确的切分和标点。反之,如果仅凭字词之间的亲和度以及汉语构词法,对于用诗、词、曲这种文体写成的文本,便可能出现误判和错误标点。例如像杜甫的拗体诗“香稻啄馀鹦鹉粒,碧梧栖老凤凰枝”(《秋兴八首》第八),如果程序在不能判断这是一首七言诗的前提下,除了不会在“香稻”、“鹦鹉”、“碧梧”、“凤凰”等词语处切分外,其他字词之后都有可能,很容易造成误判。又如王之涣诗“羌笛何须怨杨柳,春风不度玉门关”(《凉州词》),如果不能事先断定这是七言诗的话,也可能断成“羌笛何须怨,杨柳春风,不度玉门关”。所以,在设计这类程序时,充分考虑各种文体的特点并做出有针对性的处理是非常必要的。另外需要注意的是,不同时代的文章在行文风格、句法、所用词汇方面也颇有不同,计算机在处理文献时固然无需判断文本的风格,但是不同时代文章的句法差别很大。所幸六朝以前的文章大都已有人工标点本,属于计算机建立知识库时的学习对象,需要计算机大规模标点的是唐宋以后的文献,在句法方面的差异不是很悬殊,但是,像清人的文章中时常夹杂着西洋词汇的音译,而且各人译法不同,这都是在设计程序时需要注意的。
古籍整理的另外一项重要任务是校勘。这是一项十分细致、庞杂的工作,人工校勘由于参校版本有限、视觉模糊等因素,难免出现异文不能出校,或在众多版本具有若干异文的情况下难以确定最佳方案。如果设计合理科学,这同样是计算机可以发挥其特长的项目。校勘的目的一是勘正错别字,二是校出不同版本的相异之处。关于错别字的甄别,利用计算机从事古籍整理时会涉及三种情况:第一,由于OCR软件识别率不能达到100%正确导致的错字;第二,底本本身的错误,包括因书写或印刷造成的错误;第三,不符合现代汉语规范的异体字。如果不是将古籍整理成简体文本,第三种情况按一般校勘要求而言,可以忽略,无需出校,需要处理的是第一和第二种情况造成的文字错误。以目前的技术和实际应用而言,基于现代汉语词汇的文本纠错技术已经比较成熟。在这方面,以北京某公司的产品“黑马校对2004”较为突出,该软件具有数量庞大的错误词汇数据库,查错规则设置也比较合理,能够轻易标出文本中不合规范的用词。遗憾的是,该系统仅适用于作为现代汉语文字载体的报刊杂志的校勘工作,如用于校对艰深古奥的古汉语,尚难以胜任。但是,该软件所使用的技术原理和设计思路应该同样适用于古籍文本的校勘,只是词汇库的设置要求更具专业特点,如能有精于古汉语和古代文学方面的专家与IT人士携手,在技术上是不难办到的。当然,校勘古籍不能仅仅校正词汇组合方面的错误,必然也涉及到语句中的单字,涉及到在不同语法状态下单字的对错。这就要求计算机在学习积累正确汉语语法结构的基础上,正确判断一个字词在某句中的位置是否背离了古代汉语的语法规则,这方面的技术目前还不成熟,亟需加大研发力度,早日达到应用水平。所幸对古籍校勘而言,如果底本十分清晰,OCR软件识别率很高,那么由于识别问题造成的差错基本不存在。如果选用底本精良,也基本上不存在原书作者或印刷造成的错误。剩下的问题就是拿底本与他本互校,比较其异同,标出参校本与底本的相异之处,而这正是计算机的长项。微软WORD“工具”菜单中有一个不常为人所用的工具—“比较并合并文档”,即可用于比较两篇文档的异同。当然,微软开发的这一工具如用于中国传统古籍校勘,尚嫌简略,不够专业。从程序设计角度而言,在技术上让计算机比较底本与参校本的异同,并自动生成校记是完全可以实现的。
至于用计算机从事古籍的笺注工作,似乎比用于标点艰深古奥的文本更具可行性。为达到这一目的,我们首先需要建立一个庞大的冷僻字词和典故数据库。计算机在扫描文本时,每当发现有与数据库中的字词相似或相同的情况,则即刻调用该字词的解释并写到程序设定的位置,如该冷僻字词之后或章节、段落之后。设想我们在读到某篇比较难以理解的文章时,鼠标一点,相关注释即刻添加到文本之中,即使不能保证100%正确,至少读懂该文章应该没有问题。当然,鉴于汉语言的构词特点和文学修辞的丰富多彩,同一个典故会有多种表述方法,曹操《短歌行》:“月明星稀,乌鹊南飞。绕树三匝,何枝可依”,后人常借用其意寄托羁旅漂泊之感,如骆宾王《望乡夕泛》:“今夜南枝鹊,应无绕树难。”李华《海上生明月》:“素娥尝药去,乌鹊绕枝惊。”同样的典故,骆宾王和李华的用法并不一样,此外还有“绕树枝”、“三绕枝”、“绕鹊”等等不同用法。所以在设计这样一个程序时,一要保证冷僻字词和典故数据库尽可能全面,应具有开放性和可扩充性,其次应使用模糊查询方法,遇到非典型性用法,应能够自动判断是否应该予以笺注及调用哪一条数据做出解释。当然,计算机最为人熟知的长项是可以穷尽所有可以搜索到的字词出处,这在从事笺注这类工作中更是必不可少的。根据同样的机理,利用数据库的排序、筛选功能辅以必要的人工也可以快速编制作家年谱、历史年表;借鉴计算机不同语种的相互翻译功能可以尝试将其运用于大型古籍文献的白话文翻译。总之,以数字化古籍为依托,大力挖掘、开发计算机的智能化应用,在古籍整理以及古籍整理的延伸如编制作家年谱和历史年表方面的前景是无限广阔的。
三、智能化计算机在古典文学研究领域的应用
计算机智能化在古籍整理中的应用既略如上述,那么,如果进入到古典文学研究这样一个需要人的高智商和个体情感的高度投入才能从事的创造性领域,其前景又当如何?
李铎、王毅先生在其《对话》中,谈到了“人机互动关系及人机各自的‘权界'问题”,对人的心智和情感作为文学研究灵魂的重要性,以及电子公共信息平台对文学研究的拓展作了精彩的阐述,笔者深有同感,因而不打算重复他们二位的观点,仅就高度智能化的计算机与未来的古典文学研究之关系及可能性作一个展望和预期性的推测。
笔者以为,我们不能把计算机与人之间的“权界”绝对化和扩大化。诚如李铎先生所言,计算机可能永远也无法完全替代人来“思考”,并且用计算机充当人来思考,解决人能够轻易解决的问题在成本方面也不划算。所以,计算机不必模拟人脑,人也没必要依照计算机的方式思考问题。笔者在对此深表赞同的同时也想补充一点,即从信息科学的总体发展而言,计算机将愈来愈人性化和具备一定程度的思维能力是一个必然的发展趋势,这其中的关键在于计算机程序是人设计和编写的,人的思维控制着计算机的思维,计算机的思维是人脑思维的延伸而并非人脑思维的异化。伴随人工智能科学的成熟,计算机具备一定的人脑思维能力并非天方夜谭,这种摹拟的人脑思维能力即使还处于非常幼稚、肤浅的阶段,如与计算机本身所固有的优势,计算机的思维方式相结合,也很可能结出某些令人惊叹的硕果。假定某些需要人工解决的问题相对比较简单且数量庞大,那么,伴随计算机软硬件的飞速发展,计算速度的几何级增长,以及智能化程度的逐步提高,利用计算机进行预处理仍然是可行的,富有成果的。例如,关于唐宋诗优劣问题这样一个持续争论了近千年的命题,钱锺书先生说:“唐诗多以丰神情韵擅长,宋诗多以筋骨思理见胜”⑤,缪钺先生则说:“唐诗以韵胜,故浑雅,而贵蕴藉空灵;宋诗以意胜,故精能,而贵深折透辟。唐诗之美在情辞,故丰腴;宋诗之美在气骨,故瘦劲。唐诗如芍药海棠,秾华繁彩;宋诗如寒梅秋菊,幽韵冷香。”⑥这是上个世纪有关唐宋诗之别最经典的论述。那么,这样一种论述能否使用计算机对此进行更精确的阐释呢?答案是在一定范围内可以做到。我们可以依据现有技术设计程序根据题材、用韵、格律、字频、词频、用典等数据来对唐宋诗的异同予以比较,根据计算机产生的数据和所描绘的曲线对唐宋诗的区别做出一个比较精确的判断,从而为钱、缪二先生的论述提供有力的佐证。但是这样一个研究还不能说很到位,因为宋诗中的某些作品在风格上与唐诗非常相似,难分彼此,从而为钱、缪二先生的论述提供有力的佐证。但是这样一个研究还不能说很到位,因为宋诗中的某些作品在风格上与唐诗非常相似,难分彼此,正如钱锺书先生在《谈艺录》中所说:“唐诗、宋诗,亦非仅朝代之别,乃体格性分之殊。天下有两种人,斯分两种诗。”缪钺先生在《论宋诗》中也说:“虽唐诗之中,亦有下开宋派者,宋诗之中,亦有酷肖唐人者。”南京大学莫砺锋先生通过证明《唐诗三百首》所收唐人张旭之诗《桃花溪》实为宋人蔡襄之作《渡南涧》,推论出唐宋诗之间的差别没有想象的那样大。⑦既然如此,计算机在扫描分析《全唐诗〉》、《全宋诗》各自的用韵、格律、字频等要素之后,虽然可以从整体上,从比较宏观的角度比较出唐宋诗之间在某些方面的异同,却还并不能从微观角度判断宋诗中哪些诗作是典型的宋诗,哪些诗作酷肖唐诗,近二十五万首宋诗中有多少作品可以划归“唐诗”范畴,多少作品属于典型的“宋诗”范畴。要解决这个问题,就需要计算机作出进一步分析。首先我们需要在上述唐宋诗数据比较所产生曲线的基础上,确定一个适当的坐标作为唐宋诗的分界点,由于这个分界点是建立在对全部《全唐诗》和《全宋诗》的有关数据进行穷尽分析的基础之上,应该能够确切地划分出唐宋诗各自在题材、体裁、用韵、格律、字频、词频等方面的不同特征。用这些数据为唐宋诗各自制作一个虚拟模型,而后再依照这个模型去比照每一首唐宋诗作,即可区分出哪些作品属于“唐诗”,哪些作品属于“宋诗”,以及各自所占比例如何?这里所谓“唐诗”或“宋诗”是指风格意义上的区分,并非唐人或宋人所作的诗篇。
在这个事例中,计算机按照事先设计的程序,扫描分析唐宋诗歌的字频、词频等,显然是在发挥计算机的长处,属于运用计算机的“思维方式”;而在确定哪首作品属于“唐诗”或“宋诗”的过程中,是判断每首诗的格律、用韵、题材等方面的特征是否与“唐诗”或“宋诗”相符合,这显然是在运用人的逻辑,只不过计算机做得更快而已。当然,无论是计算机还是唐宋诗歌研究方面非常有素养的专家,在这一问题上都很难做到百分之百的正确无误。因为这个命题包含着审美判断,并非纯数理的结构化问题,并不能单纯依靠数字比例的大小来确定是或否。命题本身的性质导致学术界很难就“唐诗”或“宋诗”的特征问题达成一个没有疑义的定论,而计算机程序设计者根据这些还不属于定论的指导意见去设计程序,必然会把这种不确定性带入计算机的思维中。但问题的另一面却足以使我们大受鼓舞,尽管计算机是在按照人所发出的一些还不十分完善的指令去执行任务,但因为计算机能够对整个唐宋诗数据进行穷尽式扫描分析,必然能够得出虽不全面但却很准确的一些数据。亦即我们虽然无法全部理清“唐诗”或“宋诗”在美学特质、创作手法、作品风格、章法句法、字频词频等方面的异同,至少我们无法用数字表示这些异同。但是利用计算机我们却可以就其中部分特征进行穷尽式扫描分析,而仅把需要审美判断的那部分排除在外。计算机在扫描全部现存唐宋诗歌作品以后,尽管只是就其部分可统计排比的特征进行了分析,但由于这种分析是建立在全部唐宋诗歌作品之上,仍然具有极其广泛的代表性,所以其结论仍然是相当可靠的。按照这个结论制作的虚拟模型用于比照每一首具体诗作,所得结论自然也相对更科学缜密一些。在这一个案中,既充分发挥了计算机的特长,也掺杂着人工智能因素,计算机并非仅仅承担统计工作,它要在人的协助下,运用复合条件综合作出自己的判断。多年来我们对宋诗的特征、唐宋诗的优劣、宋诗接受唐诗的影响等问题没有一个十分明晰的结论,计算机显然可以帮助我们将这一研究向前推进一大步。
上述例证充分说明即使在比较复杂的研究中,在历来只属于人所从事的研究的范围内,计算机也大有可为。推而广之,在某种意义上而言,利用计算机治学与传统治学方法其实并无本质不同。治学的一般步骤无非第一收集材料,第二论证推理,最后得出结论,这与计算机的工作流程几乎没有什么不同,而计算机只有做得更好。计算机的特长在于海量数据的存储、运算,包括对数据的排序、筛选、统计和分类等,尤其善于穷尽文献,发现知识,并推导出结论。这与人文研究工作的一般过程,即确立选题,阅读文献,筛选分类,统计分析,得出结论十分相似。因此,将计算机技术运用于人文科学研究领域是有其契合点的,作为人文科学的代表性学科古代文学研究当然也不例外。按照这一思路,除了美学鉴赏方面的工作计算机确实无能为力以外,伴随计算机软件技术的快速发展和人工智能理论的不断完善,利用计算机从事古典文学研究的前景无疑是十分光明的。
四、面临的问题与亟需克服的困难
人类智能的本质特征和最高表现形式是创造。因此,计算机人工智能模拟人的智能,其难点不在于人脑所进行的各种必然性的演绎推理,而是最能体现人的智能特征的创造性思维,是那些具有某种不确定性的归纳、类比以及模糊推理等,包括学习、修正、推理、复杂条件下的判断等,例如能够选择性地搜集相关的信息(文献),在没有获得充分信息的基础上作出尝试性的判断,并随时根据反馈信息调整、修正自己的运行轨迹,最终推导出正确的结论。
人工智能的前景虽然在本世纪前景广阔,给人以无限遐想。但这并不表明在其运用于古典文学研究的进程中毫无阻碍,一片坦途。李铎先生在《对话》一文中谈到了文献信息化过程中面临的一些亟待解决的问题,笔者亦深表赞同,并不揣谫陋,对此稍加补充。
第一,版本意识淡薄。大凡从事古典文学研究的学者都不会轻视版本在学术研究中的基础作用,根据不同版本的文献所作的学术研究完全可能得出相反的结论,这在古典文学研究中属于常识问题。但在近年来古籍文献的数字化过程中这一问题却被严重忽略。除了电子版《四部丛刊》、《景印文渊阁四库全书》这些按照特定版本所作的数字化文献以外,多数网站和光盘提供的电子版古籍只追求数据量的庞大而极少注意文献的版本。而众多的用户也满足于从这些电子文本中查询到所需文献后再去核对印刷版书籍。如果仅仅满足于电子版书籍的查询功能,则此种状况长期延续下去本无不可,但若想在此基础上开发更深层次的功能,尤其是以此为研究平台,从事一些带有研究性质的开发,则不讲版本的现状殊堪忧虑。
第二,字库设计不规范。为使计算机能够处理中文文献,国家有关机构和国际标准化组织先后制订了GB2312,GB18030以及Unicode3.0等中国大陆和台湾地区以及韩国等字符规范标准。微软Windows2000以上版本支持的“方正超大字符集”即含有65531个字符,数量不可谓不大,但若用于古籍整理仍嫌不够专业,仍有很多冷僻字不能输入。因而如何进一步规范古籍数字化过程中的字库问题,包括简繁字处理、异体字处理、冷僻字输入等仍然是IT业者和广大文史研究者需要共同面对的事项。
第三,缺乏合适的程序设计语言。数据库技术发展到现在已经是一门十分成熟的技术,功能强大的数据库程序设计语言也有多种。但是这些语言若移植到古典文献处理方面,便难免有削足适履之感。况且某些优秀的语言掌握人数太少,尚未能运用于古籍整理和古文献的分析。如1970年由英国爱丁堡大学柯瓦斯基(R.Kowalski)首先提出的以逻辑为基础的程序设计语言Prolog(ProgramminginLogic),非常适合于自然语言理解,关系数据库以及逻辑推理等人工智能研究领域,在此基础上建立的可视化逻辑程序设计语言Visual Prolog是基于Windows的智能化编程工具,更加擅长表达人的思维和推理规则。这类语言目前尚未在国内流行,运用于古籍文献的分析处理更可能遥遥无期。
此外,将计算机运用于古籍整理和古典文学研究还面临着其他一系列困难,如由于资金匮乏,很难吸引到高水平的程序员投身于此;从事古典文学研究者对计算机了解不深,制约了计算机在古典文学研究方面的应用;亟待数字化的古籍数量太多,大量古籍属于善本、孤本、钞本,字迹不清晰,OCR技术难以识别,人工录入成本太高;商业因素的介入,各公司推出的电子文本格式混乱,没有统一的标准,难以兼容等等。
总之,加快古籍文献的数字化进程,建立完善的古文献数字化平台,对于古典文学研究的未来有着极其重要的意义。只要我们对其中可能遇到的困难有充分的准备和行之有效的应对办法,就一定能够使古典文学研究得到跨越式发展。
注释:
①《文学遗产》2005年第1期。
②人工智能英文名称为Artificial Intelligence,简称AI,另外两项尖端技术为“基因工程”和“纳米科学”。
③按,1TB等于1024GB,1GB等于1024MB,1MB等于1024KB,1KB等于1024字节,可存储512个汉字。因此,如以纯文本格式存储数据,则1TB的盘片可存储549,755,813,888个汉字。
④“宏”是一系列WORD命令和指令的组合,这些组合构成一个单独的命令,可以用来快速完成经常重复的编辑任务。
⑤《谈艺录》)第2页,中华书局1984年9月出版。
⑥《论宋诗》,见《诗词散论》,上海古籍出版社1982年11月出版。
⑦《〈唐诗三百首〉中有宋诗吗?》,《文学遗产》2001年第5期。
原刊《文学遗产》2005年05期 |