基于注疏文献的《孟子》信息处理研究
上QQ阅读APP看书,第一时间看更新

引言

一、《孟子》及其注疏信息处理研究现状

先秦时期,我们的祖先创造了光辉灿烂的历史文明,这一时期的孔子、孟子和其他诸子百家,开创了中国历史上第一次文化学术的繁荣。这个时期出现了儒家、道家、法家、墨家等流派,也出现了《论语》《孟子》《左传》等对后世影响深远的作品。历朝历代对它们的研究不胜枚举,这对于中华文明的传承发挥了巨大的作用。

随着时间的发展,“经”或“传”流传久远,先秦文献中的文字后人看不懂了。于是,就出现了专门注释发挥“经”或“传”的“注”,即是对“经”或“传”作注解的书。再后来,由于时间推移,年代久远,文字演变,后人连这些“注”也看不懂了,所以需要对旧注再作注释、发挥和疏通,这就是“疏”,它是对旧注作解释和发挥的书。可以说,千百年来,中国对经书以及相关注疏的研究取得了巨大的成就。大量的注疏,不仅保证了经书不致散佚,而且促进了经学的发展和文明的进步。

现代计算机软硬件技术的发展及中文信息处理研究方法和手段的不断进步,使得对包括《孟子》在内的大量先秦文献及其注疏进行信息处理成为可能,并在对齐技术、自动分词、词性标注等方面有了与现代汉语信息处理方法和手段完全不同的尝试和探索。

(一)传统的《孟子》及其注疏的研究

从古至今,专家学者对包括《孟子》在内的先秦文献及其注疏的研究硕果累累,积淀深厚。据董洪利(1997)所录,西汉还没有为《孟子》作注的人,但到了东汉,人们对于《孟子》的重视比西汉略有提高,对孟子的评价高了,也出现了研究《孟子》的专著。东汉为《孟子》作注的人相传有五家,即程曾《孟子章句》、郑玄《孟子注》、高诱《孟子章句》、刘熙《孟子注》和赵岐《孟子章句》。流传到现在,仅剩下赵岐的《孟子章句》,其他各书均已亡佚。赵岐的《孟子章句》是汉代《孟子》研究的硕果仅存者,也是完璧流传至今的最早一部《孟子》注本,因此它是研究汉代孟子学的唯一可靠的资料,具有很高的史料价值。

整个三国时代都没有出现《孟子》研究的新作。晋朝只出现了一部《孟子》研究的专著,即綦毋邃的《孟子注》。

宋代研究和阐释《孟子》的著作比之汉代有较大规模的发展,仅见于各种书目著录的就有一百余种,流传至今尚存的大概有二十余种。《孟子注疏》是见于著录的北宋第一部《孟子》注本,也是最早列于学官的《孟子》注本。它是孙奭为赵岐注所作的疏。朱熹是理学的集大成者,《四书章句集注》是朱熹理学思想的精华荟萃,其中的《孟子集注》既是朱熹研究《孟子》的最高学术成就,同时也代表了宋代理学研究《孟子》的最高水平。

元明两代有关《孟子》的著述,数量极多,绝大多数都是围绕着朱熹《孟子集注》的观点,或敷衍义理,或训考字义,有所创新和发挥的不多。

清代,学术上的反空疏趋务实,政治上的避高压求稳妥,迫使清代学术沿着古典考据学的方向前进,形成了以训诂考据为主要特征、以古代学术为主要对象的朴学学风。清代注重《孟子》汉注的研究,仅对赵岐注的研究就出现不少名作,如焦循的《孟子正义》、宋翔凤的《孟子赵注补正》、桂文灿的《孟子赵注考证》等。其中,《孟子正义》是焦循为赵注所作的疏,是《孟子》研究的集大成之作,在孟子学史和清代学术史上都堪称模范之作,影响很大。

杨伯峻(1962)《孟子译注》则对《孟子》进行了精确细致的注释和翻译。《孟子译注》中的每章又分为原文、注释、译文三部分。尤其值得一提的是,该书中还附有一部《孟子词典》,这为研究《孟子》甚至对《孟子》进行信息处理研究提供了便利。

(二)句子对齐技术研究

传统的《孟子》及其注疏研究成果虽然丰硕,但要想利用前人留下的注疏文献中的知识和资源进行信息处理,首先要做的是建立《孟子》和相关注疏文献的句子对齐和注疏对齐等工作,在此基础上才能进行注疏文献的深层次加工和利用。所以,此处先介绍目前学界关于句子对齐技术的研究情况,然后再逐一介绍自动分词、词性标注等其他方面的研究现状。

目前已有的对齐绝大多数都是在建立双语平行语料库时采用的必不可少的步骤,是进行机器翻译和双语词典编纂时的一个重要环节。双语语料库对齐可分为:段落对齐、句子对齐、短语对齐、单词对齐等。平行语料库中的句子对齐就是从句子内容出发,将源语言中的一组句子和目标语言中的一组句子进行对应的过程。目前,句子对齐的方法主要有:基于长度的句子对齐方法、基于词典的句子对齐方法、基于长度和词典相结合的句子对齐方法。

基于长度对齐方法的优点为,把句子对齐看作是句子长度的函数,不需要额外的词典信息;缺点是容易造成错误的蔓延。国内的对齐算法研究主要有:刘昕等(1998)在对文本进行粗对齐的基础上,利用长度对应关系确定锚点,抽取双语对应的词汇信息,然后再利用双语词汇对应信息进行句子的再对齐。这种方法可以在一定程度上减少错误的蔓延。Wu and Fung(1994)利用Gale and Church (1993)的基于长度方法实现了英语和繁体汉字之间的对齐,还利用了日期、机构名等特殊词表将长度方法与词汇方法结合用于句子对齐,但是这种方法不具有通用性。

钱丽萍、赵铁军(2000)提出基于译文的双语句子自动对齐,其基本思想是采用一部双语词典为桥梁,根据英语句子中的单词,在词典中找到对应的译文,并以译文到汉语句子中去匹配;根据评价函数和动态规划算法找到对齐句对。基于词典的对齐算法,也利用了动态规划算法,只不过将求句对的最大概率换成求解每一个句对的评价函数。

早期的句子对齐大都采用基于长度的方法,假设源语言和目标语言的句子长度存在正比例关系。Gale and Church(1993)就采用了这种方法,他们把句子的长度定义为句子中包含的字符数,利用句子的长度来评估两组句子之间的对齐程度。这种算法尽可能地在长度相近的句子之间建立对齐关系。Fung and McKeown (1994)采用了基于偏移位置对齐的方法,采用这种方法首先需要有一个小规模的双语词典,词典提供了一些对齐的基点。每个词对应一个信号,用位置向量表示这个词在一个文本中的位置,用到达向量表示该词的不同位置之间的词数。如果两个不同语言的词之间的出现频率和位置差别都很小的话,就可以用动态规划算法计算它们的相似度,选取相似度大的词对组成双语词典,然后标记出对齐的词对,最后再次利用动态规划方法寻找源语言和目标语言文本的对齐。

郭锐等(2008)综合考虑句子长度、汉字字形、标点符号三个因素,提出了古今汉语句子互译的模型,基于遗传算法、动态规划算法实现了古今汉语的自动句子对齐。这是目前所见的为数不多的谈到了与古汉语有关的句子对齐的文章。肖磊、陈小荷(2010)根据古籍版本异文的特点,以三传春秋经为例,提出了异文自动发现的方法。首先计算句珠的相似度,根据计算结果寻找最有可能的句珠配对,然后采用穷尽法搜索最长同文,并不断地把最长同文去掉,最后输出异文结果。研究结果表明,句珠配对全部正确。其异文配对算法是通用的,可以用来发现包括古代文献和现代文献在内的任何中文文献的版本异文。

(三)自动分词研究

李江(2008)认为,自动分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。英文中词和词之间是用空格作为分界符的,但在中文里,词和词之间没有一个形式上的分界符,可以说,在词这一层上,相比较而言中文比英文要复杂很多,困难也会多很多。因此,汉语的自动分词,是中文信息处理的基础技术之一,也是中文信息处理的一个难点。

现有的处理现代汉语文本的自动分词算法可归纳为以下几类:基于字符串匹配的方法、基于理解的方法和基于统计的方法(谭雷雨,2007)。基于字符串匹配的分词方法又叫作机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。周文帅、冯速(2006)认为,对于基于词典的分词方法,词典对分词精度造成的影响甚至远远大于分词方法本身产生的歧义切分错误和未登录词问题。

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,也称人工智能法。近年来人工智能领域研究的一些热点问题应用到分词方法上,产生了专家系统分词法和神经网络分词法。但这两种方法都存在着不足。比如,专家系统的缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长。

基于统计的分词方法,又称为无词典分词方法。这类方法的主要依据和思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现得越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率就能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合频度进行统计,计算它们的共现信息。共现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字的组合可能构成了一个词(罗洋,2009)。

基于统计的分词方法能够有效地自动排除歧义,能够识别人名、地名等,在一定程度上解决了基于词典的分词方法的弊病,这是它的优点所在。但是,这种分词方法对常用词的识别精度比较差,时空开销也较大,这是它的局限性所在。

目前,对古籍的自动分词研究的文章大概只有个别几篇,对《孟子》的自动分词研究还没有见到。邱冰、皇甫娟(2008)选取了包括《国语》《商君书》等21 种古代汉语的典型语料进行研究,采用《汉语大词典》作为自动分词词典,提出了一种基于计算机自动分词的词汇处理及量化统计方法,并给出了具体的实现方式。但其分词结果却没有明确公开,只给出了“古代汉语双音词比重自先秦以来以一种平稳的方式增长,该结论与古代汉语词汇研究成果一致”的一个结论。尤为值得一提的是,石民等(2010)采用条件随机场模型,对《左传》文本进行自动分词、词性标注等的对比实验,得出的初步结论是:基于上下文两个汉字、二字同现、字符分类二元同现的模板“2W+ 2+C1”,最适合《左传》的自动分词。

(四)词性标注研究

词性标注就是标注出文本中每个词在特定语境中的词类(名词、动词、形容词等),所以也叫词类标注。词性标注的主要意义在于:确定词的语法功能,为句法分析打基础;便于在词性标注语料库中检索句法结构;为同音字标注、多音字标注和词义标注提供支持。

目前用来处理现代汉语的词性标注方法主要有三类:基于规则的方法、基于统计的方法、规则与统计相结合的方法。基于规则的自动词性标注方法最早出现在20世纪60年代。随着语料库的建立,一些学者开始尝试对英语语料库进行机器自动词性标注,并逐渐形成了一系列基于规则的方法。这种方法在自然语言处理中不具有很强的鲁棒性,其词性标注的正确率还不能满足实用性的要求。

80年代,在经验主义的影响下,基于统计的方法被逐步应用到语料库词性标注中,并占据了主导地位。这类方法的基本思想是,先制定词性标记集,然后选取部分自然语料进行人工词性标注,再利用统计理论进行运算得出统计规律,并依据统计规律建立统计模型,最后机器根据统计模型进行词性标注。在基于统计的方法中,计算机是依据大量自然语料的统计数据自行生成规则,而在基于规则的方法中计算机依据的是人工制定的语言学规则,这是两种方法最大的不同之处(丁德鑫,2010)。

由于基于规则的方法和基于统计的方法各有利弊,于是人们开始思考把两种方法结合起来,在利用大规模语料库建立统计模型的同时,使用一定的语言学规则。实验证明这种方法的确在一定程度上提高了机器自动词性标注的正确率和工作效率(陈晓文,2006)。

对古籍进行词性标注的研究,除了上述的石民等(2010)对《左传》文本进行了词汇处理(分词和词性标注)和考察分析,采用条件随机场模型进行自动分词、词性标注、分词标注一体化的对比实验外,目前还没有见到其他研究古籍词性标注的文章。但是,石民等(2010)采用的还是用来处理现代汉语文本的词性标注方法。

(五)词义消歧研究

词义消歧,就是要在特定的上下文中确定多义词的词义,词义消歧工作大量集中在同一词不同词义的区分上。

冯志伟(2004)总结了几十年来词义排歧方面的研究成果,认为词义排歧是自然语言处理中的一个困难的问题,并归纳了利用词类进行词义排歧的方法、鲁棒的词义排歧方法、基于词典的词义排歧方法、无指导的词义排歧方法、自力更生的词义排歧方法、有指导的学习方法等多种词义排歧的方法。

曲维光(2008)提出基于词语搭配强度计算的语境计算模型rfr_sum(sum of relative frequency ratio),用于处理各类词语级的歧义消解问题。将rfr_sum模型应用于中文信息处理中的词义消歧、兼类词的消解等多项任务中,均取得了令人满意的结果。此项研究的重点是词语级的各种类型的歧义消解,在打歧义消解这项自然语言处理的基本课题的攻坚战上取得了优异的成绩。

目前自然语言处理在词义消歧方面虽然取得了很大的成绩,但是,学者们的各种方法似乎依然很难判定“the box was in the pen”中pen的词义应该是“游戏的围栏”。由此可见,词义消歧确实依旧是困难重重。

金澎(2010)认为,未来的词义消歧需要从以下两个方面努力。首先,继续构建大规模、高质量的词义标注语料库。这一点,对于汉语尤其重要。因为目前所建立的词义标注语料库中,英语的标注规模是20万,而汉语则不到10万(细粒度层面)。没有大规模的词义标注语料库将导致模型训练等诸多研究工作无法深入开展,更无法得到实用的词义消歧系统。其次,引入语法结构、词义相似等更多的语言学知识来改善词义消歧性能。从目前的研究状况来看,金澎的这些看法不无道理。

古代汉语的词义消歧研究与现代汉语中的词义消歧研究相比有着较大的差距,目前所见到的对古汉语进行词义消歧的,仅于丽丽等(2009)一篇论文。她首先分析了古汉语词义特点与消歧难点,采用条件随机场模型,并加入一些语言学特征,对《左传》中的“我”“信”“闻”“将”“如”“之”6个高频多义词进行了词义消歧实验,并把实验结果与最大熵、朴素贝叶斯模型消歧的结果进行了对比实验。其所用的是和处理现代汉语文本相同的词义消歧方法。

(六)风格计算研究

20世纪30年代,西方在文体学界开始引入定量分析,包括使用大量统计学的方法。但一直到20世纪70年代,才出现了将计算方法应用于汉语风格学的研究,主要应用在作者身份的考证和作品语言风格的分析等领域(曾毅平等,2006)。不过,在统计模型的方法出现以前,人们常常靠主观印象来判断某个作者或一部作品的写作风格,所以,不同的人会得出不同的评判结果。后来,随着统计方法和计算方法的不断引入,采用的统计特征越来越多,风格分析的结果也越来越趋于客观。

王景丹(2003)以句子的使用频率作为统计指标,选取了曹禺、郭沫若、老舍、田汉、夏衍、吴祖光、高行健、沙叶新八位剧作家的作品进行比较分析,研究了不同剧作家的语言风格。年洪东等(2010)主要利用SVM 统计机器学习模型对中国现当代文学八位代表人物的作品进行了作者身份识别研究,在识别过程中选择了证据权值、交叉熵、卡方统计、互信息等多种统计量作为识别特征,在作者身份识别中取得了较好的识别性能。

曾毅平、朱晓文(2006)认为:“将计算方法应用到风格学的研究当中,其前景是极为广阔的。除了进行作品归属的计算机考证,还可以根据实际的需要进行其他领域的研究。”1同时,考虑到目前对于先秦汉语文献进行风格统计的还不多见,所以我们打算从计量特征出发,广泛采集《孟子》《论语》以及《左传》的字型数目、字例数目、平均字频数、高频字、字的熵值、字频曲线图、文献相似度、词型数目、词例数目、平均词频数、高频词、平均词长、词长离散度、词语词长分布、高频多字词、带词性标记的词型数目、带词性标记的词例数目、带词性标记的平均词频数、词语词性分布、多兼类词语、句子类型、句长、句长离散度等统计数据,来分析这三部文献的语言风格特征。同时,我们也打算利用同样的方法和手段,对《孟子》的相关注疏文献进行计量分析。

(七)修辞格的识别

汉语的修辞现象是丰富多彩、历史悠久的。修辞格,是人们在组织、调整、修饰语言,以提高语言表达效果的过程中长期形成的具有特定结构、特定方法、特定功能,为社会所公认,符合一定类聚系统要求的言语模式,也称语格、辞格、辞式等。2修辞格,在语法表达中很多时候单独使用,也可以综合使用。

近二十年来,中国的修辞学有了较大的发展,修辞学的专著出版了不少,研究的范围也有明显的拓展。当然,修辞格的研究也有了比较明显的进步。但是,现代汉语的修辞格研究主要集中在修辞格的定义、具体修辞格的研究等有限的几个方面。修辞格研究的一个比较突出的问题是,辞格的名称越来越多,某个修辞格下面分小目,小目下面再分目,界限却越来越不清楚。对古代汉语中修辞格的研究,也没有突破上述现代汉语修辞格的研究范围,主要集中在专书辞格的挖掘、分析等研究上。

目前值得一提的是,陈晶(2011)研究、分析了对外汉语教材中的修辞格使用状况及修辞格所体现的深层的文化因素;随着互联网的快速发展,也有人对网络语言修辞格开展了研究,展望网络语言修辞格的研究前景并指出了不足(王珊珊,2007)。这是修辞格研究出现的一些新动向。

但对于修辞格的计算机自动识别,到目前为止,我们还没能看到有相关的研究成果出现。我们拟以《孟子》中的排比句的自动识别为例,探讨先秦古籍中的修辞格的自动识别,期望能找到一条适合古籍的修辞格识别的方法和手段。

(八)余论

综上可知,古文献、训诂学和文字学的学者对包括《孟子》在内的先秦文献及其注疏的研究成果丰硕,积淀深厚;现代汉语的研究者在自动分词、词性标注、词义消歧等方面积累了丰富的经验。但是,即使到了信息高速发展的今天,国内外也几乎没有开展面向中文信息处理的《孟子》研究,没有对《孟子》进行原文与引文句子对齐、原文与引文注释对齐、自动分词、词义消歧及其方法的研究,更没有利用注疏文献对《孟子》进行这方面信息处理的研究。

上述历史上的各种《孟子》的注疏文献为信息时代的今天探讨《孟子》的信息处理提供了一种全新的途径和可资利用的绝好资源。注疏文献可以为《孟子》等先秦文献的自动分词、词义消歧等任务提供知识源,这种知识远比靠统计模型得出的分析结果要可靠得多。

当然,在对《孟子》等先秦文献进行信息处理时还存在一些问题,需要进一步努力去解决。比如:

1. 研究《孟子》及其注疏文献的句子对齐和注释对齐时,会出现引文与原文断句不一致,以及脱文或衍文的情况,问题错综复杂,会影响信息处理的正确率。

2. 搜集、整理、校对《孟子》及其注疏文献电子版本,研制合适的分词规范、词性标记集,以及对《孟子》进行自动分词、词性标注和词义消歧,内容庞杂,工作量巨大。

3. 《孟子》及其注疏文献中使用的是繁体字,甚至会出现一些计算机常用字库中没有的字形。

4. 目前国内外对《孟子》等先秦传世文献的信息处理研究较少见,使我们的研究缺乏理论和方法上的借鉴。另外,由于《孟子》及其注疏文献的自身特点,现有的现代汉语信息处理模式不适合《孟子》及其相关文献的处理。

1曾毅平,朱晓文. 计算方法在汉语风格学研究中的应用[J]. 福建师范大学学报(哲学社会科学版),2006,01:16.

2http://baike.baidu.com/view/314241.htm,访问时间:2019-10-08。