“诗情画意”的统计分析——谈唐宋诗审美的计算机辅助研究
【内容摘要】在文史研究对计算机检索功能要求愈高的今天,计算机辅助研究将转向面对学科本体和研究者需求的“智能化”角色。未来文史领域里计算机辅助研究的发展趋势之一是在人工协助下模拟人脑底层思维,对唐宋诗审美进行机选分析。在这一前提下,意象是计算机“审美”分析过程里的一个重要计算参数。
【关 键 词】计算机;辅助研究;唐宋诗审美
【作者简介】盛莉,女,1977年生,文学博士。江汉大学人文学院讲师,研究方向为中国古典文献学、中国古代文学。
【基金项目】武汉市科技局2009年软科学项目“汉语古籍文献数字化应用研究”(200900080)
用计算机对唐宋诗进行检索分析是近年来学界古代文学研究的热点,这一代表中国古典诗歌研究与当代信息技术相结合的“革命性”技术,使得东西方文化的思维方式、自然科学的符号语言同人类文学的情感语言进行了初步交融。目前,计算机诗歌辅助研究系统中以北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”较有代表性。该系统建立了唐宋诗自动注音、词汇知识库、作者信息库,还可在人工选择下意象检索。同此前主要建立在字形检索基础上的古籍检索相比,计算机在唐宋诗的辅助研究中已开始担当“理解”文本内容的助手角色。基于计算机辅助研究(Computer Assisted Research,CAR)这种面向学科本体的视野转化,笔者认为,人脑研究诗歌审美的一些底层思维流程也可部分交由计算机模拟进行。
在人脑的思维活动里,左半球主要管辖逻辑思维,负责推理、逻辑和语言;右半球主要管辖形象思维和灵感思维,注重几何形状的感觉,感情、想像力和空间距离。而人脑的认知带有“感受——记忆”的特点。个体的人从出生到成年以后,对客观世界的认识是通过不断学习记忆和各种经验感受建构得来,诸如天空的颜色,飞鸟的声音,鲜花的香味等直观知识信息是主体“人”通过自己感官体验而来,并被存储在人脑里成为认识更复杂世界现象中的基本元素。以基于诗歌情感、意境、风格、主题基础上的诗歌审美活动为例,图一简单描绘了人脑审美时的思维流程:
图一
从图一看出,人脑的诗歌审美活动里有两个重要特点:一是人脑可以同时进行几项信息处理活动,如诗歌语句信息的存储、读音意义的检索与甄选、文本内容的直觉感知等可在人脑左右半球的协作下同时进行,实现审美结果后所有针对该项课题临时构建的专家知识系统即清除扫零。而计算机必须预先规划需求与步骤,进行数据建模,研制出的关系数据库则将在以后的研究工作中重复使用。
二是人脑具有独立的思考和感知能力。计算机的“思考”则必须在人工指导下通过XML语言标记和建立全文检索、关系数据库等模拟人脑的底层思维过程。这一技术目前已在某些领域如汉语史领域开始进行深入研究[①]。
唐宋诗审美的计算机辅助研究是模拟人脑的底层思维过程。曾在人脑里学习记忆过的事物或现象的代表特征一旦映射到人的感官器官,人脑就会迅速在存储的“知识库”里搜索与之相对应的信息,形成判断。听音辨色、闻香识味正是人脑映射功能的体现。在具备人工知识信息和各种关系模库的基础上,计算机可部分模拟人脑对诗歌的底层审美思维。见图二:
图二
图二表明,计算机的诗歌“审美”活动不同于简单的古籍关键词电子检索,它是将阅读文本作为检索对象,去比照人工建立的知识概念库、关系模库和“审美经验”模库中的相同或相似匹配结果,达到模拟人脑底层思维的效果。对于计算机来说,被检索的对象从简单的关键词句扩展为整首乃至卷帙众多的诗歌作品,而作为使用者的主体人对于检索对象里具体包含了哪些自己想得到的信息却并不一定清楚。
举例来说,研究者想要了解晚唐诗歌的情感思想和艺术特征。如果是人工研究,在没有深入阅读过晚唐诗的全部作品之前,研究者对于自己到底要重点研究晚唐诗的哪些篇目以及从何角度审视晚唐诗并无绝对把握。只有在阅读中,研究者通过自己的体会,结合己有的各种文史知识和审美经验才能作出分析结论。因此,如果让计算机模拟人脑对晚唐诗进行“审美”研究,首先要给计算机输入各类同诗歌审美相关的美学知识库和关系模,让计算机“理解”诗歌文本中的各类词句组合和表现形式具有什么样的美学特征。在具备这一前提基础上,研究者发出检索指令,指定计算机“阅读”晚唐诗全部作品,并作出机选“分析判断”。
可见,计算机在参与唐宋诗审美的辅助研究中,真正要做的核心工作不是关键词匹配的查找,而是“学习与理解”同诗歌审美研究相关的各种文史知识和名家诗歌模式。这实际上已涉入人工智能的领域,但如何“学习与理解”的技术问题不是文史工作者能把握的,我们关注的主要是针对某一研究领域,计算机模拟人脑“学习与理解”的“内容”和“视野”,即为计算机建立哪些知识概念库、关系模库和“审美经验”模库。
对于唐宋诗审美的计算机辅助研究来说,建立知识概念库、关系模库和“审美经验”模库有其特定优势。唐宋诗中的律诗、绝句有固定的平仄格律,大多数诗歌的语句长度在七言以内,句偶之间存在对仗关系。因此以句或篇为单位可建立模型。计算机可根据模型寻找匹配项。
如律诗中的拗律是一种变体,这种变体以杜甫律诗为代表,于平仄错落中模仿古风诗,表现一种拗峭之风,多为诗人突破声律限制、表达特定情意的尝试。宋代黄庭坚、陈师道等人即专学杜甫拗律,自成风格。研究者可通过计算机检索近体诗各体的平仄搭配模型,比较唐代和宋代各时期诗人作品里拗体律诗平仄排列的变化,作为研究律诗和古风关系的线索。
当然,唐宋诗的审美主要是体味诗歌的情感主题、意境风格等,从诗歌文本内容分析是重中之重。计算机不具备感官情感体征,不能独立思考诗歌里各类词语组合所表现的复杂的艺术形象和意义内涵,因此要为计算机建立一些知识概念库和“审美经验”模库,帮助实现诗歌词汇的上下文语境简单分析。诗歌“意象”便是其中一个重要的计算参数。
诗歌意象是种特殊的表意性艺术形象或文学形象,由语言符号和语言符号所表达的意义构成。意象中的语言符号不是一般的概念性语言符号,而是借一种客观事物的描绘表达象征义的情感,有更深层的喻义。从意象包含的诗歌情感和象征义来看,它对了解诗歌的情感主题、意境风格十分重要。以唐诗为例,唐诗中意象繁多,部分统计如下:
唐诗中部分常见意象分析 | |
唐诗意象 | 所表现的主题情感或象征的文学艺术形象 |
“钟” | 清幽空远的禅意 |
“乌” | 1、离愁悲思2、仕宦感叹3、生命悲苦(悲剧意识) |
“鹤” | 1、高洁2、长寿 |
“杜鹃” | 1、故园情怀2、离情别绪3、冤恨喟叹 |
“鹦鹉” | 1、闺怨宫怨2、文采风流3、英才不遇4、乡思客愁 |
“燕子” | 1、闲适2、喜庆3、忠贞4、离别5、朋友6、志士7、小人 |
“雁” | 离愁别绪 |
“蝉” | 1、珍爱生命2、羁旅愁情3、高洁人格 |
“萤” | 1、光明2、家败园破3、感时伤怀4、勤学苦读5、贤臣 |
“蟋蟀” | 1、人生失意2、相思离愁3、怀乡 |
“猿” | 1、愁苦2、超脱3、禅理4、自由 |
“马” | 富有政治理想品格的诗人化身 |
“黄昏” | 1、思乡恋亲2、离愁别绪3、伤时忧国4、迟暮叹老 |
“月” | 1、理想追求2、离别相思3、哲理思考 |
“雨” | 1、愁情2、喜悦3、人生坎坷 |
“木叶” | 悲愁缠绵 |
“梧桐” | 坚贞爱情 |
“竹” | 1、清雅脱俗2、坚韧高洁3、政治理想 |
“草” | 1、春天2、离情 |
“云” | 1、离思2、神仙3、隐逸4、禅意 |
“星” | 1、爱情2、忧国之情3、眷恋故园4、自身命运的嗟叹 |
“柳” | 1、爱情2、离情3、春天 |
“桃花” | 1、春天2、美人3、悲情4、桃源 |
“荷花” | 1、高洁2、美人3、爱情 |
“菊花” | 1、幽人高士2、感时伤怀3、坚贞高洁4、斗争精神 |
“梅花” | 1、忠贞2、淡泊3、美人 |
“杏花” | 1、幽逸高隐2、美人3、吉祥喜庆 |
“桥” | 1、水乡繁荣2、思归离别3、历史感伤4、通往理想境界的艺术符号 |
“水” | 1、爱情2、时光3、万物依附的母体4、自然的音符 |
“南山” | 1、隐2、贤 |
“白发” | 1、功业理想2、友朋之思3、生命流逝 |
上表说明诗歌意象是在特定语境下除了字词本意外表达更深层的隐喻义或某类象征情感的语言符号,对于理解所在诗歌文本的思想主旨和艺术表现形式十分重要。如何让计算机对含有意象的诗歌进行综合“分析”是目前CAR发展领域里众多学者关注的一个问题。
北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”可在人工选择下进行初步范围的意象检索,其研究思路对后来者可谓启益多多。如针对“悲伤”意象人工选择“悲、苦、愁、凄凉、自怜”等,系统再根据词汇的共现、联想网络搜索到与之相关的词汇(“蹉跎、萧然、浮生、西风、残灯、柳色”等)共304条,在此基础上运用神经网络算法对每首诗的“悲伤度”打分,由此建立“悲伤”主题的意象索引。运用这一方法检索到的诗篇有很多表现悲伤情绪,但不含有悲伤词汇。
系统的使用原理是预先建立一个从唐宋诗语料库中提取词汇的唐宋诗词汇知识库,进行意象检索时由人工选择输入一个表达“悲伤”意象的检索词,该检索词由计算机经过同现联想计算后在唐宋诗词汇知识库中寻找相似词和相似扩展词,最后在唐宋诗语料库中得到含有匹配词项的诗篇。这种语义检索比早先的字形检索显然更接近文本的“理解”层面。
需要说明的是,这种检索方式是以检索人工输入的单个意象为目的,如要判断比较单首诗的主题情感、意象风格同其他诗之间的区别以及诗歌意象的复杂内涵,则该系统还有待进一步完善。
“唐宋诗计算机辅助研究系统”的研究经验表明,在拥有大量的知识概念库和关系模库后,计算机简单模拟人脑综合分析诗歌文本的情感语境也可成为事实。如计算机分析唐诗中的意象组合,送别诗中的“柳”、“桥”、“水”、“草”意象,边塞诗中的“征衣”、“陇头”、“玉门关”意象,爱情诗中的“柳”、“燕子”、“水”、“月”、“梧桐”、“凤凰”意象,都组成了诗歌的某一类型语境。单意象如“竹”或表达某种情感(如咏竹诗),或多与泉水、小径、风、寺庙、人等组合,描画出幽静恬淡的意境。
大量诗歌中的意象组合是有法则可循的,通过分析名家代表诗作中意象的组合,提取其诗歌风格所属下意象间的组合关系甚至是规律,计算机统计的这类诗歌越多,提取相关意象组合的记忆知识就越多,进而组成关于诗歌意象的知识概念库。同理,计算机储存的各类代表诗作越多,拥有的各类诗歌语言组合知识和风格审美经验就越多,由此建成各种关系模库和“审美经验”模库。计算机的诗歌审美便是在这些知识概念库和模库中寻找与阅读诗歌相同或近似的匹配项。尤其是近体诗的相似句计算更易辨别,因为每句字数不超过七字,所以一般单句只要含有四字以上的相同诗歌词汇[②],句与句间即构成语言相似关系。
目前,计算机的上下文语境分析主要通过单句内上下文词汇的向量空间模型来近似表征词汇的上下文语境,进而计算出词汇间的语义相似关系,这实际上属于词汇聚类研究的范围。计算机的唐宋诗词汇自动切分提取和语义相似度计算技术已比较成熟,因此可预先通过词汇的同现联想计算建立一个唐宋诗意象词汇库,该库中的词汇都是经计算机在唐宋诗语料里语义描述切分提取后再人工甄选组成。诗歌意象词汇的上下文语境分析参照“唐宋诗计算机辅助研究系统”成果可用下列公式计算:
给定唐宋诗语料库Ω和唐宋诗意象词汇库δ,特定意象词汇x在Ω上的隐喻义和象征情感Sx定义为如下五元组:
Sx = {Lx,Rx,Cx,δ,Ω}
其中:x、y∈δ,y 为x 的同现特征词,Lx为x的左同现词汇特征向量,Rx为x的右同现词汇特征向量,Cx为对仗向量。特征向量的元素为特征词与特征值组成的二元组(y,Vxy)。
Vxy=logf(xy)
logfx×logfy
其中:f(xy)为y在对应的x的相对位置上出现的频度(同一句的左边、右边或对仗位置上)。fx、fy分别是x、y在唐宋诗语料库Ω中出现的频度。
上述公式可计算出诗歌文本所含的某一意象词汇在其上下文语境里的隐喻义特征和象征情感。
当单首诗中出现一个或多个意象时,计算机对整诗的“理解”便建立在对多个意象隐喻义特征叠加分析的基础上。相似意象组合成诗歌的同类语境,不同诗歌的相似语境则可能表现同类情感风格。最后根据诗歌普通词汇的语法语义分析、相似句计算综合得出对诗歌主题情感、意境风格的评价。当然,最终的“评价”答案可能比较模糊,还需要人工甄别。
让计算机模拟人脑底层思维对指定诗进行审美“分析”能帮助研究者拓展研究视野,即通过计算机的记忆存储和海量运算优势寻找对象诗歌群里内容形式的相似点聚合与特征描述,帮助研究者分析以诗歌意象、风格、主题等为表征的文学表现力指数。
如让计算机“阅读”所指定唐宋诗篇目而不是人工选择输入一个表达“悲伤”意象的检索词,最终检索结果不仅可以“读”出所有含“悲伤”意象的诗歌,还可“读”出含有其他类型意象和文学风貌特征的诗歌并予以统计比较。
同时,计算机还可分析统计所“阅读”的诗歌意象的多样性,如读到各类诗歌的“悲伤”意象,据诗歌情感类型划分有悲喜交加、悲中愈苦、悲后平静等;据主题内容划分有相思的悲伤、思乡的悲伤、思亲的悲伤、身世的悲伤等;据风格划分,有绵丽的悲伤、旷放的悲伤、沉郁的悲伤等;据意象词汇划分,有以典故为寄托的悲伤,以动植物为寄托的悲伤,以自然物候为寄托的悲伤等。所有表达悲伤情感的诗篇呈现出更丰富的情感内涵和艺术形式。最终的机选结论又可引发学者对中国古典诗歌意象研究的思考。
这说明,计算机检索的“思考结果”不仅要根据使用者的需求,还要能触发使用者的思考灵机,做到弥补人脑阅读诗歌时思考不足的遗漏。
意象分析只是计算机辅助研究唐宋诗审美的一个切入点而已。毋庸置疑,计算机并不能象人脑那样在诗歌阅读中获得各种高级感官的、情感的体验和心灵愉悦,它无法完全替代人脑。但在文史研究对计算机检索功能要求愈高的今天,计算机辅助研究的角色将日趋“智能化”。随着学界计算语言学和人工智能技术的成熟,计算机会有越来越多的切入点和计算模式去模拟人脑思维,协助人脑从事更复杂更精密的研究工作。计算机在人类文明发展史中的角色已证明,这并非遥不可及的梦想。
参考文献:
[1]胡俊峰,俞士汶.《唐宋诗之计算机辅助深层研究》[J],《北京大学学报》(自然科学版),2001年第5期。
[2]胡俊峰,俞士汶.《唐宋诗中词汇语义相似度的统计分析及应用》[J],《中文信息学报》,2002年第4期。
[3]尉迟治平.《汉语信息处理和计算机辅助汉语史研究》[J],《语言研究》,2004年第3期。
[4]王美艳,赵伟.《基于唐诗语料库“词”的提取及深入研究》[J],《长春工业大学学报》(自然科学版),2005年第3期。
[5]孙昱璐.《从“乌”“鹤”意象看唐诗中的悲剧意识》[J],《云梦学刊》,2007年第12期。
[6]刘亮.《论唐诗中的“猿”意象》,《中国韵文学刊》[J],2008年第2期。
[7]尉迟治平.《汉语史研究和计算机技术》,《语言研究》[J],2008年第4期。
[8]王功绢.《论唐诗中杜鹃意象及其情感内涵》[J],《湖北师范学院学报》(哲学社会科学版),2009年第4期。
[9]李雪峰.《试论古典诗词里的黄昏意象》[J],《重庆工学院学报》(社会科学),2009年第3期。
[10]金贝翎.《唐诗“萤”意象初探》[J],《黄山学院学报》,2008年第1期。
[11]赵卫华.《中国古典诗词中蟋蟀意象的悲秋文化内涵》[J],《河北学刊》,2008年第5期。
[12]程杰.《论中国文学中的杏花意象》[J],《江海学刊》,2009年第1期。
[13]刘欢萍.《古典诗词中的鹦鹉意象及其文化内蕴探究》[J],《安徽农业大学学报》(社会科学版),2009年第1期。
[14]张杰,林木辉,包正委.《基于领域本体的语句相似度研究》[J],《福建师范大学学报》(自然科学版),2009年第1期。
[15]郑永晓.《技术与心智的互补—建立在计算机检索基础之上的古典文学研究》[J],《文学遗产》,2009年第1期。
[16]罗凤珠.《引信息的“术”入文学的“心”——谈情感计算和语义研究在文史领域的应用》[J],《文学遗产》,2009年第1期。
注释:
[①]参尉迟治平《汉语史研究和计算机技术》,《语言研究》2008年第4期。
[②] 此处的诗歌词汇指唐宋诗中使用频度高或有特指意义的典型词,不包括语法助词。
Computer Assisted Research on aesthetic of Tang Poetry and Song Poetry
SHENG Li
(College of Chinese Language and Literature, JiangHan University, Wuhan 430056, China)
Abstract: With the requirement of computer search function for literature and history becomes higher today, Computer Assisted Reasearch will shift to face subject ontology and researchers demand for “intelligent” roles. In the future, one developmental trend of Computer Assisted Reasearch in the field of literature and history is to simulate human brain appreciating Tang poetry and Song poetry with a artificial assistance, educing the aesthetic analysis. In this premise, imago is important for computer’s aesthetic analysis .
Key words: computer; assisted reasearch; appreciating Tang poetry and Song poetry