标注的设计和研究的问题是紧密相关的,这样才能在之后搜索统计的时候得到准确的结果。对赋码设计的原则首先是简洁,用字母缩写和数字组成的代码方式;其次是全面,根据错误分析理论的预测,涵盖错误类型,即使某种错误出现的频率可能比较低,也要考虑到;最后是实用,有些错误类型是几乎不可能出现的,在设计标注的时候,就可以把这类情况排除在外,这样一来会减少很多不实用的标注,使得标注页面清晰明了,标注过程也少了很多干扰,能够保证标注标准的统一性,减少出现有歧义的情况。 搜索工具AntConc对已经利用标注Annotool加工过的语料进行搜索和统计。它的巨大优势在于能够高速地在庞大词次的语料库中快速地找到研究需要的信息,并且能够在词、字符串、词组、词块、搭配、标注这些不同的层面上进行检索、统计和对比。它的主要功能有七项,如下图操作界面的菜单栏所示:词频、词距、词的列举、词的常见搭配、词的固定搭配、所有词汇列表以及关键词汇列表。概括来说AntConc的基本功能主要有三项:1.能够快速找到某个词及其附近词的频率;2.能够快速找到所有词和所有词块的频率;3.能够快速找到所有词在另一个库中的频率差别。 在用搜索工具进行搜索对比后,还需要对统计结果进行t值的检验,以确保不同组数据之间的差异性是否真正存在。因为语料的长度和篇数都各自不同,因此各类错误的分布都不能只看它出现的次数来决定,而且取平均值进行对比也不是科学的统计方法。因此,在标注统计后,建议利用计算机统计软件SPSS对统计结果进行t值的检验,来看不同的分组之间是否存在明显的差异性。 语料库语言学的研究方法是实证性的,注重理论和实践的结合,一般来说分为三个步骤。首先是理论准备,思考一项研究需要解决的问题,寻找可以作为理论支持的语言学理论,特别要注意所要研究的问题和使用的理论在语料库中的操作性;其次是实践操作的部分,按照研究依据的理论,设计合理的标注,使用标注工具自动或者手动地对语料进行处理加工。标注完成后,再使用语料库索引工具对语料和标注进行检索、统计、归类和分析。最后是对研究结果的评估总结,通过研究结论的反馈,评估研究所用理论是否可以恰当地和语料库这种研究方法做结合,标注过程是否准确,所使用的标注工具和检索工具是否合适,得到的研究结果在多大程度上可以解决所提出的问题。只有应用到了这些步骤,才能在研究中更好地发挥语料库语言学这种研究方法的优势,在研究中得到更科学更合理的结论。 四.结束语 语料库语言学的优势在于,它在大量数据的基础上不仅研究一门语言本身的结构,同时也研究这门语言的使用。但同时它也要遵守一些基本的科学研究的前提,比如通过语料库语言学研究方法得到的结果必须是经得起检验。在语料库语言学的具体情况下也就是说,在一个语料库基础上得到的研究结果,可以适用于用另外的可比的语料库;或者当别的研究者利用同一个的语料库,他们得到的研究结果应该是一样的。只有这样,才能保证利用同一个语料库的不同角度和方向的科学研究有可比性。和其他语言学分支相比,语料库语言学更加地具有目的性,由语料库语言学得到的认知可以广泛地应用于翻译学,词典学和语言教学。 参考文献: 1.Lemnitzer,Lothar/Zinsmeister,eike 2006:Korpuslinguistik.eineEinführung.Tübingen. 2.Scherer,Carmen,2006:Korpuslinguistik.Heidelberg. 3.Tognini-Bonelli,Elena,2001,CorpusLinguisticsatWork.Benjamins.Amsterdam 4.Lüdeling,Anke/Walter,Maik,2009:KorpuslinguistikfürDeutschalsFremdsprache.SprachvermittlungundSpracherwerbsforschung.In:HSK19,DeutschalsFremdsprache. 5.梁茂成/李文中/许家金,2010:《语料库应用教程》。外语教学与研究出版社。 6.梁镛/钱敏汝,1991:“专业语研究中的几个主要理论问题”。载:《国外语言学》。1991,第1期。34-40页。 (作者单位:北京外国语大学) |