经过近两年的准备与建设,我中心中古汉语语料库开通运行。
随着现代化手段的应用,汉语史研究呈现出新的面貌。电子文献的生成和利用为汉语史研究带来了很大的便利,它有利于突破传统文献使用方式,使研究向着纵深的方向发展。文本格式电子文献,使得大量使用文献成为可能。它改变了过去研究中个人手检纸本文献的繁琐、耗时,可以通过计算机软件的配合,迅速从文本中找到需要的内容,使研究工作避免了不必要的时间上和体力上的消耗。高质量的电子文本能够实现汉语史通代演变研究。有利于中古断代词典的编撰。
文本电子文献的逐渐增多,固然是好事,但由于技术条件和专业知识上的限制,使面向专业研究的电子文献存在这样那样的缺点。我们的工作,希望结合汉语史研究传统研究优势,定制出高质量的中古汉语研究用电子文献语料。针对目前可得到的电子文本文献存在的缺点,为了电子文献的便利使用,我们完成以下相应的工作:(1)电子文献所依纸本文献的版本问题。必须明确文献所依底本,才能进行必要的校勘核对,并在检索后能够顺利追溯原文出处。(2)文献出现缺字、漏字、拼合字、乱码,无法实现准确检索。限于技术条件,由电子图像文献转为电子文本文献很容易造成这种情况,因而校勘电子文本文献的首要任务就是针对这些问题进行删补填改。到目前为止,基于Unicode编码和方正超大字符集可以实现绝大多数汉字的输出。(3)一般电子文献是面向多专业方向使用的,因而为了面向汉语研究的使用,必须对语料性质有一个大体的说明,以便在研究中可以观察不同性质的语料所反映的语言问题。面向中古汉语,需要增加语料库系统的可定制性,依据中古汉语研究的特点,对语料进行断代、分类、评估其语料价值等工作。
根据现有条件,我们的整理计划包括东汉至隋的所有汉语古籍文献(中古佛经文献因为已经有了很好的可供检索的电子本,不在此列),并且为了体现语言发展的渐变性,将西汉文献和唐代部分口语文献一并收入。大体包括文献80余部,总字数将近两千万,涵盖了中古时期口语性较强的中土文献。建立一个完整的面向汉语史研究的古籍文献语料库需要不断努力,可以采取分段完成、逐渐完善的步骤。汉语史研究中心结合传统研究优势和重心,有条件、有能力建立一个较为完善的中古汉语研究用电子文献语料数据库。希望能够在试运行期间,各方专家朋友能够提供改进意见。
中古汉语语料库的建设工作是在
李倩