钱锺书与中国古典数字工程
本篇为纪念钱锺书先生百年诞辰而作,不得不略加说明。
四十多年前我由北京分配到河北一所乡村中学教书,闲来无事,偶然在简陋图书馆书架下寻觅到一册撕去封面的《宋诗选注》,马上就被序言对典籍如数家珍的熟稔,“风流犹拍古人肩”的评说,以及纵横捭阖,跨越中西的文风所吸引。赶紧翻阅版权页,始发现钱锺书之名。也许正是那一刻,文学研究所作为一个可望而遥不可及的梦想,开始植入我的心田。更料不及的是大约十年以后,我居然能从这所乡间中学考入文学研究所,后来又缘业师陈毓罴先生鼓励,有机缘登堂入室,数次亲炙于钱先生,自谓荣宠。钱先生仙逝后,情怀无由抒发,曾写过一篇小文《高山仰止》以示个人悼念之情,先是由海外一个网络期刊发表,后来为《解放军艺术学院学报》辑录。
钱先生治学议论广博。古今中西,汪洋恣肆,漫无际涯。曾令很多慕名而来,擅于沿袭蹊径,乘势而上者不知所措。于是出现了种种贬论,如“钱锺书不过就是一部电脑数据库”,“《管锥编》实在没什么,将来电脑发达,资料输进去都可以处理的”。最近还有说“互联网出现以后,钱锺书的学问就减半了。”有趣的是,这些说法还大多出于中国社会科学院的后辈学者之口。
看来即使出于院内“扫盲”(此盲非文盲,而是偏见之“盲”)的需要,也得介绍一下钱先生与“中国古典数字工程”的关联。需要特别说明的是,这本来应该是由近三十年全身心投身这一工作的栾贵明先生或田奕女士等来完成的。我曾经受邀担任“中国古典数字工程”评审人员,披露这些情况也是自己的责任、义务,并感谢栾贵明先生、田奕女士提供的翔实资料。
“抗拒新事物到头来的失败,也是历史常给人的教训”
如果单指记忆力,钱锺书先生兴之所至,打通中外,信手拈来的功夫,的确给人“电脑数据库”的感慨。但是数据库毕竟只能罗列资料,显示异同,却不能分证辨析,触类旁通。而且毕竟要靠人来输入主题词语,靠脑来爬梳论证。所以直到今天,我们也没有读到电脑版的《管锥编》。
其实现代计算机被中国人俗称为“电脑”,似乎还有一点言过其实。但是它给时代、社会带来飞跃,却是不争的事实。尤其是个人计算机和应用程序的发明,把与人们日常生活中许多看似麻烦的问题一下子变得如此简捷方便,又能推而广之,扩大到工作、生活的方方面面,恐怕上个世纪70年代中叶的乔布斯(Steve Jobs)和盖茨(William Henry Gates)也没有充分估计到,他们的创造很快就被延伸到了文学研究领域。
上世纪80年代初叶,钱锺书女儿钱瑗教授有机会到英国进修,回来后偶尔谈起英国学者用计算机研究莎士比亚戏剧,取得显著成果,钱先生立刻受到启发,从1984年便开始倡导把计算机技术引入中国古典文献的搜集、疏证和整理中来,那时还在1981年9月中央发布《关于整理我国古籍的指示》以后不久。中国文字创始并且不间断使用的历史甚为悠久,历史文化端赖契刻、手书、碑版,形成典籍传承。虽自唐代写经、宋代版刻以来,开始形成“经生体”或“宋体”较为规范的文字,但传本印版中仍然大量存在并不规范的俗体字、异体字等,加之转抄再版的增删改动,难免讹夺错漏,造成后人辨析认知的困惑。即博闻强记如钱锺书先生,也曾在《管锥编》增补版《再版识语》里慨叹说:
“初版字句颇患讹夺,非尽排印校对之咎,亦原稿失检错漏所致也。国内外学人眼明心热,往往为一二字惠书订缪……应再版之需,倩马蓉女士荟萃读者来教,芟复汰重,复益以余所雠定者,都勘改五百余处。亦知校书如扫落叶,庶免传讹而滋蔓草耳。”
得到这个信息后,钱先生立刻想到了“中国古籍电子数据化”的课题,并委托栾贵明、田奕等付诸实施。因为他与栾既是同事又是师徒搭挡。1972年夏由“五七”干校回京后,钱先生写作《管锥编》,栾帮助搜集数据,借阅图书;钱先生也兑现允诺,为其命题,对《永乐大典》进行整理。研究工作足足进行了十年。《四库辑本别集拾遗》和《永乐大典索引》完成后,钱先生审阅、修正文稿序言并书写题签。索引一书由于出版延误,书名由杨绛先生书写。1982年,钱先生又将他的《宋诗纪事补正》交栾缮钞。这些历程,实际上已经埋伏下日后势必会进行“中国古典文献工程”的先声了。我想这也是钱先生宅心仁厚,所以提议并郑重委托栾贵明先生完成此项浩繁工程的初衷之一,俾得后之学人避免费力费神的订谬勘改,使学术研究探讨能够从基础上步入正途。尤其是采用的字库考虑周全,能够对古今汉字进行“全覆盖”。嘉惠学界大矣!
当时对于个人计算机信息处理能否中文化还有争论,何况中国古籍汉字库(包括众多异体字、俗体字)数量远远超出了《康熙字典》收录的四万多字,所以字库容量必须充足。工作之初,研究小组搜求了当时所有的“中文系统”及相关资料,其中包括近十个中文系统的汉字收字情况、输入方法、构成理论和论文著述等,请钱锺书先生选定。经过深入了解之后,钱先生果断地决定采用“仓颉输入法”作为计算机汉字工作平台,这是台湾朱邦复先生发明的,当时还面市不久。它的优势一是录入方法符合中国传统规则,二是字数全,绝不能让古文献削足适履。在有限几次去社科院的机会中,钱先生每次都亲临研究小组,并多次用自己的稿费津贴资助研究小组的起步创业。
从1985年开始,研究小组首先进行了《论语》数据库的建设,并顺利地出版了第一部使用电脑编制的《论语数据库》一书,取得了一大批科学化的《论语》数据。钱先生曾为《论语数据库》题签,并在序言上增补了一段重要文字:
“从理论上来说,计算器和人类使用过的其它工具没有甚么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”
据我所知,社科院研究人员普遍使用计算机进行写作研究,大概比钱先生的“先见之明”晚了近十年。
“计算机可以帮助人脑,但还不能代替人脑”
如果说《论语检索》还只是利用计算机运算的快捷,算是牛刀小试的话,钱先生给研究小组布置的第二项任务,便瞄准了浩瀚如海的《全唐诗》了。唐代可谓中国古代的诗歌海洋,吟诗甚至可以称作唐人的思维和竞争方式,不但以诗取士,以诗干谒,杜牧甚至有“千首诗轻万户侯”之句,而且深入日常生活,饮宴酬酢固不能免,新婚时例有“催妆诗”,连温柔敦促女方撤下遮住面孔的扇子,新郎也要赋“却扇诗”。所以唐代诗作既多,作者分布又极广,从来没有清理裒集。乾隆后期董诰等借《四库全书》编辑,奉诏编纂《全唐诗》,可谓集中国家力量之大成,但是否完全,亦无定论。
研究小组着手这项工作后,得出了一系列重要成果。他们在妥善地解决了全汉字库以后,花了近三年的时间,输入了27册《全唐诗》的全部正文、异文和注文,并经11次校对。目前在大量程序软件的控制下,能在2分钟以内解决全部唐诗的检索问题,达到了准确和高速的目标。比如,他们通过简单的运算,便可准确地判定全唐诗共有53035首,作者3276名,订正了传统的四万多首和两千多人等等说法,为彻底打开中国古典文献研究的数量化大门开辟了全新的途径。他在给当时中国社科院新闻发言人杨润时的信中写道:
“作为一个对《全唐诗》有兴趣的人,我经常感到寻检词句的困难,对于这个成果提供的绝大便利,更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。”
当初的研究小组此时已经在钱先生的倡议推动下,扩大为中国社科院的计算器室。他们并不满足于唐诗索引的完成,为了解决“计算机里的唐诗如何帮助人脑里的唐诗”的问题,他们又用三个月时间研制出了“全唐诗索引生成系统”,包括索引编制、数据统计、印刷底版生成三大部分,成功地解决了古典文献索引的一体化编辑和排版问题,并为使用者提供了全面、准确数字化成果。如以李贺为例,董诰编纂的《全唐诗》中,属名李贺的诗共有183首,其中1次重出的47首,2次重出的1首。所谓重出,就是在同一作者或不同作者名下,有两首以上相同或基本相同的诗。在这个过程中,关键在于原数据的取法和重出参数的设定。他们采取了三个连续汉字作为源数据,以诗句周边性的排列组合,句尾韵字及平仄字的位置等因素确定重出参数,但主要根据是汉字本身这个参数。通过计算机的检索和分析,产生结果足以匡正前人沿袭已久的讹误。
中外学人对于这套当时海内外最庞大的古典文学数据库,给予了高度评价,这个项目也因此获得了1990年国家科技进步奖。计算机可以缩小查找范围,提高比勘速度,对复杂的海量查找也轻松胜任,甚至绝大多数能直接对是和非加以判定。计算机可以帮助人脑,但还不能代替人脑。像意境雷同的查检,尽管有汉字象形、会意、形声的优越性,但计算机的距离尚遥远。我想,作为一个认真使用计算机对中国古典进行研究的人,既不会为计算机的发展和进步而昏昏,认定计算机能代替人脑,有了计算机就有了一切;更不会为计算机的难于驾驭而茫茫,放弃实实在在、长期艰苦的努力和奋斗。
“能帮助人的计算机,需要人的更多的帮助”
但是钱先生并未以此为满足,他认为:
“把唐诗输入计算机,靠的是在汉字库支持下的中文操作系统。没有相应的汉字库,如同拿来一只纸糊的小鞋,穿在有唐三百年诗歌的天足上,只能说是一种认真的滑稽……计算机里的唐诗,已经开始成功地代替了书桌上的唐诗。但这绝不是放平鼾睡的句号,因为计算机里的唐诗难题还多。”
他还特地在田奕文章里增添了这么一句:
“实践证明,能帮助人的计算机需要人的更多的帮助。”
上世纪直到90年代前半,个人计算机操作系统还是英文DOS系统当家。工程研发小组所需要的数据库软件在市场上并没有人开发。栾贵明、田奕并非计算机专业人士,他们付出极大努力学习掌握基本要领,亲自撰写数据库所需要的程序,所需软件硬是一个一个独立开发出来的。1989年我开始使用计算机初始,就是田奕到家里给我安装他们自己研发的中文系统使我的研究工作得以起步,至今犹存感激之心。
为了中国文史学科能够方便地应用计算机进行研究,钱先生多年来曾反复多次地规划了目标和原则,有书面的,有口头的,今天看起来仍然新鲜正确。栾贵明、田奕曾摘要如下:
一、逐步实施,长期奋斗。
二、采用仓颉输入法和华康全汉字字库。
三、以作品为基本单位,用作者统绾作品。(这是划时代的创举)
四、对《四库全书》及其系列的应用必须慎重,不能直接采取经、史、子、集分类方法及旧编辑方式。
五、实现准确全面对作者、作品标题和文本字句检索。
六、慎用汉语现代标点,正文和后人注释不得混淆。
七、计算机只能作为工具,推进改善提高文史研究科学化。
八、你是裁缝,只能是量体裁衣,不能做外科医生。
遵照钱先生的这些意思。研究小组克服各种困难,继续汉文史数据库的建设。从1993年到2000年,先后成功出版的《全唐诗索引》(30种);《全唐文新编》(22大册);《十三经索引》(4大册)以及数以十计的学术专著,都能按时、按质、按量在他们研发的电脑系统上完成,受到国内外学术界的广泛好评。
应当说,自从他们的工程声名鹊起,又随着“电脑时代”的兴起,不断有海内外人士慕名前来,希望他们参与商业性开发和编著工作,有些开列的条件还相当优厚。但是钱先生认为这项工程的根本目的并非仅仅标示着中文古籍的“数字化”,简单提供检索引证的便利,而是着重推动中国古籍整理和研究的科学化和人文化。因此1992年,钱锺书先生曾以“特约评论员”名义,写了篇短评《纠正“市侩化”的短视和浅见》,发表在中国社会科学院的《人文计算机》报第四期上。短评说:
“崇高的理想,凝重的节操和博大精深的科学、超凡脱俗的艺术,均具有非商化的特质。强求人类的文化精粹,去符合某种市场价值价格规则,那只会使科学和文艺都‘市侩化’,丧失去真正进步的可能和希望。历史上和现代的这类事例难道还少吗?我们必须提高觉悟,纠正‘市侩化’的短视和浅见。”
研究小组也始终坚持了钱先生提出的原则,专注踏实地推进古籍整理校订、去伪存真的辨析工作。就已经完成文史库的规模来说。宋代之前的作品22万件已基本入库。另有专著和小说近千种。至于二十四史,文史数据库收有一套精细扫描的百衲本原本图库,并且制作了对应的精校文字库,在文史库里主要作为工具书使用。与此同时,他们把二十四史中从帝王到牛二全部人物尽数收入,编成《人名大典》,已收入41万人,另有辅名15万个,远远超过通行的仅收有五、六万人的《人名大辞典》。另一个附件《中国历史日历》约2亿3000万字也基本制作完成。这部分资料数量巨大,可彻底规范中历公历的复杂对照关系。传统日历制作的大忌,是依年表推算估计。而这部《日历》上起夏朝禹(公元前2071.12.28),下迄清末帝(公元1912.02.17),共计3983年,1454111天。由于多元历法的存在,同一天可能是不同朝代、不同帝王、不同年号,甚至不同的纪历方式,实际日历单数多达5194662条。因是以日为单位,使用起来完整、准确。制作时尽量将所能得到的正确信息悉数列入历表,内容包括朝代、帝讳、帝号、年号、年数、年干支、月数、月干支、日期、日干支、公元年、月、日等。将来逐步扩充为大事纪略性质的历史日历。
传统研究理念的“危机制造者”
1982年钱先生曾将《宋诗纪事补正》交栾贵明缮钞。经过十五年的努力,栾贵明终于利用计算机辅助完成了这个艰巨任务。栾先生认为,这部著作的学术价值自不待言,但更为重要的是,不出多久学术界面对用新方法完成的十二大册新书,将会感到精神上的“危机”,因为他们不得不告别传统研究理念。而这一“危机”的制造者便是钱锺书先生。
以现已完成的电子汉文史数据库资料的基本构筑方式来说,就有着自己鲜明的特色。既不像清人编纂《全唐诗》、《全唐文》断代史料那样存在重复混乱,有许多跨朝代、越文体的纷争和遗漏等问题;也没有采用《十三经》用后人海量注疏笺证,淹没经典文本的传统方法;甚至摒弃《四库全书》以经、史、子、集分目编排的方式。而以作者为中心,贯彻“以人为本”的原则,使作品回归作者,从而使古文献资料的整理编辑和数字化迈上合理、科学的台阶,也可以说是首创了汉文化资料系统化的新格局。于此同时,又特别注重对前人成果的甄别。比如《易经》经过了多人的注释解析,有的甚至已经违背了原书的旨意,从而引起了“解意”的对立和纷争,这显然与《易经》本身无关。为此他们充分利用电子化的优势,采取经典与注释合而分、分而合的慎重措施。
一个实例是田奕最近完成的《永乐大典本水经注》。自从东汉桑钦撰写《水经》,而北魏郦道元“考校诸书,以具闻见,今略辑综川流注沿之绪,虽今古异容,本其流俗,粗陈所由”,加以注解成为《水经注》,历来被研究中国历史地理者奉为瑰宝。也是中国最重要的历史地理著作。晚年胡适曾穷二十年心力,撰述200万字考证《水经注》。其缘起也是因为撰写《四库全书》的史官戴震没有看到浙江采进之民间刊刻的赵一清《水经注》校本,故而有殿本《水经注》“袭赵”之说。民国初年又经王国维、孟森等人推波助澜,于是“抄袭说”几成定谳。而胡适考证则认为此案原系清学内部“汉宋之争”,以汉学的考据训诂,纠正宋学空疏淹博而致。有学人甚至以为这里面牵动现代学术史上的一桩大事因缘:整理国故与所谓“中国的文艺复兴”。胡适等人视清代考据学为“中国的文艺复兴”,而戴震则是这一“文艺复兴”运动的主帅和旗帜,所以为戴震辩诬翻案。实以此支持他一生所提倡的“科学精神”。但是争论双方都没有真正看到《永乐大典》收存的《水经注》全部原本。幸有张元济先生有心,将分落两处的大典本裒集影印出来。
田奕遵照钱先生早年指示精神,以选择底本为突破口,2005年开始利用自己创建的扫叶公司的古典数字文献馆。轻松地将大典本和目前通行的杨守敬著《水经注疏》(1999年江苏新印本)在电脑中字字对应比较,清晰准确到每一个字、每一个字的笔画。结果就摆在面前,结论丝毫不用添油加醋,最终也就有了《永乐大典本水经注》的出版。得出的结论令人吃惊:仅说《水经》本文被通行本认刻到《水经注》中的就有513条,5775个字,几乎占《水经》原文的一半。如果把通行本不符合大典底本的差错全部加到一起,就是有772条,8806字,也是惊人的数目。并且总结出引起错讹的三方面原因:
一、把经文改到注中,把注改到经文中,增多内容,脱减内容,全是校雠者与领导者的主观判断。
二、通行本在没有充分证据的情况下,对经文和注文增补190处,计1716字。主要在注文,但并未说明增补原因及证据。
三、古历史地理通过文字描述,这已经与实际地貌变迁难以相符了。何况加有大量随意性很强的删改文字,特别是后来各注释家的见解。谁是谁非,没有标尺。
田奕在她的自序中曾介绍说,钱锺书先生曾总结以前是“由于狭隘的民族偏见,褊窄的正统观点,封建思想的严重束缚和‘官样文章’的草率敷衍,使这项艰巨的工作有很大的缺点”,而现在她们所以能够较为轻松地完成这一重要典籍的校订,是“因为有一条新路正在电脑前面展开”。可知不仅人们正在依靠电脑进行研究,更重要的是电脑也得听从有智慧之人的指挥。两者相辅相成,缺一不可。
不知道已经熟练写作,并依赖于电脑检索数据库的人士,正在进行一些国家级特大或大型的文史研究项目时,是否曾经虑及商业性数据库的缺失或局限?是否已经放弃了自己的独立思考和辨析?
这部独特的文献数据库还有一些轶事可道。某年日本三菱委托北京大学广邀各领域的汉文化专家,参加由日本首席汉学家主持的学术会议,讨论日本输出语对中国文化的影响。日方提出“问题”、“内容”、“全部”、“参加”、“国际”、“实现”这六个名词,是日本在明治维新的时候,通过了某些名人,把这六个词汇移植到中国,并对中国的政治、经济、文化、社会起重大影响。与会一位中方学者抽空致电栾贵明,请帮忙查查。不到二十分钟栾贵明就将多达12页的数据发送了过去,证实“问题”原出自五代后周窦仪《条陈贡举事例奏》之“凡对问题、任从同议”;“内容”出自唐代《瓮赋》之“内容乃体,外坚其质”;“全部”出自晋代葛洪《抱朴子外篇·自叙卷第五十》“少得全部之书”,等等,尽出自中国古籍。第二天提交大会后,日方再也不吱声了。
又如当年张艺谋设计奥运开幕式时,强调中国人“天人合一”的哲学观。栾贵明曾打电话向张艺谋的秘书反映说:“错了,中国没有‘天人合一’这种说法,只有孔夫子说的‘人天合一’。”秘书说:“老先生,你就别绕了‘天人合一’和‘人天合一’,不都一样?”栾贵明说:“‘你该我钱’和‘我该你钱’能一样的吗?”事实上现在误以为常的“天人合一”,反映了让天来迁就人的鲁莽;而孔子注《易》所说的“人天合一”,则表达了人主动融于自然的和谐。可知一字之差,贻误后学多矣。如果再不重视计算机时代中国古文献的学术清理,不知还会有有多少以讹传讹的“流行”,以错就错的“成果”,以及“无根之谈”的横行无阻,“水货专家”的肆言无忌。
我们今天隆重纪念钱锺书先生百年诞辰,不仅仅是对于他学问人品的景仰怀念,最重要的是能够把他的智慧风骨传承发扬,把他生前关怀的事业继续做大做长。相信这才是慰问他老人家在天之灵的最好缅怀。
(本文写作时曾参考刘圣清、李士燕采写的《中华文明史上空前浩繁系统搜集工程》,《人民日报》2005年3月9日。尤其是参考中国古典数字工程研发团队为评审组提供的原始资料。谨此注明,并表谢意。)