《译文分析的语料库途径》由会员分享,可在线阅读,更多相关《译文分析的语料库途径(12页珍藏版)》请在金锄头文库上搜索。
1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果译文分析的语料库途径提 要:是通过融合定量研究和定性研究,用特定的文本分析软件对翻译文本进行词汇、句法、语篇和修辞等层面的实证分析。本文探讨基于语料库的译文分析的可行性和实现途径,并以茶馆的英若诚译文和霍华译文为语料,对比分析两译文的用词特征。关键词:译文分析;语料库;用词特征Corpusbased Approach to Translation AnalysisWang Jiayi(Hunan Institute of Engineering, Xiangta
2、n11104, China)Integrating quantitative and qualitative methods and using particular software, corpusbased approach to translation analysis investigates translation versions across lexical level, syntactical level, textual level and rhetorical level. The thesis explores the feasibility and realizatio
3、n of corpusbased approach to translation analysis. A case study is carried out to investigate the lexical features of the two versions of Cha Guan.Key words:translation analysis; corpus; lexical feature1 基于语料库的翻译研究语料库翻译研究是20世纪90年代以来兴起的翻译研究方法,其根本思想是用语料库语言学的工具、技术和方法对大量真实的翻译现象进行描述并从所描述的翻译“自身”的语言特征中寻找翻译
4、现象固有的规律性特征。语料库翻译研究已成为当今描述翻译研究领域中一种新的研究范式,在理论、描写和应用等层面对翻译研究和翻译教学以及翻译培训起着越来越重要的作用,并激发了众多学者对相关问题进行研究的浓厚兴趣。Mona Baker提出基于语料库的翻译普遍特征:简略化、明晰化、规范化和平整化。之后,围绕这一主题的研究大量涌现,主要有Baker(1993, 1996), Kenny(1998,001), Munday(1998), Laviosa (XX), Olohan (XX)等。他们纷纷检验Baker的假设;以共时语料为研究对象,依靠计算机技术分析数据,如平均句长、类符形符比、词汇密度等,考察词
5、汇多样性、信息负载等;把理论阐释和实证研究相结合,探讨翻译文本的特征。近年来,国内基于语料库的翻译研究文章的发表量呈现快速增长趋势,语料库作为一种研究方法逐渐获得大家的青睐。这些研究主要集中在:语料库与翻译研究综述和介绍,如廖七一,丁树德,刘康龙、穆雷,王克非、秦洪武;语料库与翻译教学,如王克非、倪传斌、秦洪武;语料库与翻译普遍性,如黄立波、王克非,吴昂、黄立波;语料库的建立和运用,如王克非、何莲珍。与国外研究相比,国内基于语料库的翻译研究中介绍性或评价性和建库方案的文章较多,实证性翻译研究较少。根据刘康龙、穆雷对14类期刊的统计,只有4篇论文,只占此类研究的21%。“这个数字跟语料库作为实证
6、研究的工具相比是极不相称的。”语料库与翻译研究在国内还处于介绍和评价时期,基于语料库的翻译研究在各个层面都有待加强,译文分析的实证研究值得尝试。基于语料库译文分析的实现基于语料库的译文分析是采用定量和定性相结合的分析方法,用特定的文本分析软件对翻译文本进行词汇、句法、语篇和修辞等层面的实证分析。语料是语言分析的基础。目前,国内与翻译相关的语料库有北京外国语大学通用汉英平行语料库,南京大学英汉名著翻译语料库(NUCECC),北京大学计算语言研究所、清华大学智能技术国家重点实验室和中国科学院计算技术研究所共同开发的“面向新闻领域的汉英翻译系统”等。但大众能接触到的则很少,无法满足语言学习与研究的需
7、要。自建小型语料库因其内容更具针对性、即时性和新颖性而日渐受到语言学习者与研究者的重视。小型语料库的创建包括语料库的设计、语料的收集和语料库的预加工等过程。在创建自己的语料库前,首先应根据该语料库的用途确定原则和方案。语料的收集主要有两种方式:一是通过光电扫描或键盘输入制作电子文本;二是利用网络上已有的电子文本,将其转化为需要的格式。语料库的预加工主要包括语料的标识和语料的赋码。收集好的语料还要清除杂质和多余符号,并统一语料的格式和存放方式。语料最好是每一个文本作为一个独立文件单独存放。这样,研究时就可得出每个文本的统计特征及整个语料库的总体统计特征。以创建张培基译文库为例,首先把张培基先生的
8、译文通过扫描并保存为可用检索软件检索的纯文本文档;为使语料库发生更大作用,还应对语料作一定的标注,如用CLAWS对语料进行词性标注,然后再按译文标题分类保存。XX年王家义 第1期索引工具是基于语料库的译文分析的必备条件。小型译文库建立后,根据研究目的,研究者需检索语料库,通过语料库的检索获得用来分析的相关数据。目前,较常用的索引工具有WordSmith Tools,Antconc,TACT,MicroConcord等。索引工具的基本功能包括词表生成、语篇统计、“带语境的关键词”索引、主题词提取、词丛统计等。词表功能主要用来创建语料库中词汇使用频率列表,可用来研究语料库中的词汇类型,确定语料库中
9、常见词丛和比较不同文本特定词汇的使用频率。“带语境的关键词”索引主要是查询和统计某个或某类词汇或短语在指定文本中出现的次数。主题词提取功能把一个语料库中的词频与参照语料库中的对应词的词频进行比较,以确定这个语料库与参照语料库在词频方面是否存在显著差异,为研究语域差异、作家写作风格差异、学习者语言与本族语使用者语言间的差异提供数据。把这些功能运用于译文分析,研究者就能中国获得译文在词汇、句法、篇章和修辞等方面的统计信息。如词汇方面,研究者可进行用词变化、平均词长、词汇密度、常用词表等方面的分析;句法方面,研究者可对译文的平均句长、复杂句、缩略形式、标点符号等进行分析;语篇方面,研究者可进行词汇衔
10、接的量化分析。翻译文本多层面、全方位定量分析,为翻译批评提供可靠的量化依据。 茶馆两译文用词特征个案分析本研究以茶馆的英若诚译文和霍华译文为语料,对比分析两译文的用词特征。为了更好地比较两译文,还选用英语本族语语料库BNC作为参照语料库。首先对英若诚译文和霍华译文进行扫描、校对并分别保存为纯文本文件,然后用CLAWS软件对两译文语料进行词性标注,建立小型茶馆译文库,再利用WordSmith Tools的相关程序对两译文子库进行检索,得到译文在类符形符比、平均词长、词汇密度、常用词表等相关信息,通过这些信息考察茶馆两译文的用词特征。 用词变化语料库语言学主要通过类符形符比考察文本的用词变化情况。
11、类符是语料库中不同的词语,形符是语料库中所有的词形。类符形符比在一定程度上反映了语料的用词变化。类符形符比值越大,表明该文本使用的不同词汇量越大;反之,不同词汇越少。通过类符形符比值的大小可以比较不同语料库中词汇变化的大小。但由于在一定时期内语言的词汇量有限,若语料库容量不断扩大,形符数会持续增加,而类符数却不一定会增加,从而导致语料库容量越大,类符形符比值反而越来越小,因而不同容量的语料库的类符形符比不具备可比性。所以,语料库语言学一般用标准类符形符比衡量语料库的词汇变化,即按一定长度分批计算文本的类符形符比,再求平均值。下表是通过WordSmith软件统计的茶馆两英译文语料库和BNC语料库
12、的类符形符情况。从表1可知,英译文的形符数为22,211,霍译文的形符数为22,714,BNC语料库的形符数为102,467,488。英译文的类符数为3,031,霍译文的类符数为3,040,BNC语料库的类符数为166,962。再看标准类符形符比,英译文的标准类符形符比为,霍译文的标准类符形符比为,BNC语料库为。从这3个数字可以看出,英译文的标准类符形符最高,其次为BNC和霍译文。这表明:英译文用词范围更加宽泛,表达方式更加生动;霍译文用词范围相对狭窄,但更接近本族与使用者用词变化。3.平均词长平均词长是西文文本中类符的平均长度。通常情况下,平均词长较长说明文本中用的长词、常见文本中分别由、
13、3、4、5个字母组成的单词较多,平均词长在4左右。如果低于4,意味着文章语言比较简洁浅显。如果远高于4,意味着文章语言比较复杂深奥。可见,词长反映用词的复杂程度。3个语料库的平均词长分别为、和。这表明,3个语料库在平均词长方面接近,总体用词难度没有什么区别,霍译文用词复杂程度更接近本族语使用者,英译文用词复杂程度略底于本族语使用者。为了更详细地描写语料库各长度词的使用情况,WordSmith软件在作词频统计时会自动计算出各长度词在语料库中的使用频率。但如果语料库的容量不一样,语料库的实际词长出现次数就不具可比性。所以,我们采用每1000词词长数,即每1000词不同长度的单词在语料库中出现的次数
14、。这种方法可更客观地比较各长度词在不同语料库中的分布情况。表2是各长度词在英译文、霍译文和BNC语料库的每千词分布情况。结果显示,英译文的每千词中1-4个字母长度词均高于霍华译文,而霍华译文每千词中5-10个字母长度词均高于英译文。5个字母词以上的词属于难度较大的词。我们把上表中各语料库中5个字母词以上的词的每千词的出现频率相加,得到如下数据:英译文为/千词,霍译文为/千词,BNC为/千词。这些数据反映3个语料库使用难度词在总体上有一定差别:霍译文用词难度大于英译文,而两译文的用词难度又都小于本族语使用者。3.词汇密度词汇密度指实词在语料库中占的比例,其计算方法为:实词总词数100%。英语实义
15、词指具有稳定词汇意义的词语,包括名词、动词、形容词和大多数副词4个词类;功能词指不具备稳定词义或意义模糊而主要起语法功能作用的词语,主要包括代词、介词、连词、冠词、助动词等词类。在具体统计中,本文把名词、动词、形容词和副词4类“具有稳定词义”的词类作为实词。篇章中的实词越多,篇章的密度越大,其传递的信息也越多。可见,词汇密度可以反映篇章的信息量和难度。词汇密度偏高,说明该篇章的实词比例较大,因而信息量也较大,难度也相应增加。由表3可知,霍译文中名词、动词、形容词和副词所占的比列均高于英译文,霍译文的词汇密度明显高于英译文。词汇密度的差异表明:霍译文使用实词的倾向性明显高于英译文。英译文通过减少
16、实词来增加译文的可读性,而霍译文实词比例高,使其译文传达更多信息,客观上增加了译文的难度。3.常用词表WordSmith Tools提供的词表功能除了普通词频表,还有按字母顺序随意改变次序的词表,同时也提供语料库的各种基本统计信息。从表4可知,在3个语料库使用频率最高的10个词中,有6个相同:the,of,and,a,to, in. 英译文和霍译文使用9个相同词:the,of,and,a,to, in, a, you, I,各有1个不同:英译本中的Lifa和霍译本中的little. 使用频率最高的10个词在两译文中占的比例分别%和%,均低于BNC的%。这说明:两译文在使用频率最高的前10个词的使用上基本一致,词语选择和所占比列几乎相同;与本族语使用者相比,两译文呈现出高频使用最常用词的倾向