语料库驱动下的海明威作品文体学分析 摘 要:以现代文体学的理论为基础,从字系、词汇、句法三个层面揭示海明威作品的文体学特征海明威对短段落以及简单句的偏爱、普通日常词汇的选用、形容词、副词的节省,体现了他独特的文体特色关键词:文体学;语料库;海明威作品海明威是美国的著名小说家,是1954年诺贝尔文学奖的获得者,本文旨在从语言学角度出发来研究海明威作品的文体特征随着语言学的发展,语料库驱动方法显示出了强大的力量笔者建立了海明威作品语料库(EHW),包括 “The Sun also Rises”“A Farewell to Arms”“The First Forty-nine Stories”“For Whom the Bell Tolls”以及“The Old Man and the Sea”,共计468,196个单词并抽取了布朗语料库中的小说子语料库(Brown(K-R)),共计254,360个单词笔者对两个语料库的字系、词汇、句法等层次进行了一系列的统计测试,揭示了海明威作品的文体学特征一、字系层面1.标点标点符号是文章组织结构的标识之一,是文体学研究的范畴之一,可以体现出作者的写作特点。
通过对各种标点符号的统计分析,笔者发现海明威作品语料库使用标点的百分比远远大于布朗子语料库,这表明海明威运用大量的标点降低了阅读的难度和结构的含糊性2.段落海明威作品语料库平均段长25.30个单词,而布朗子语料库却有45.59个单词,海明威的段落长度远远短于布朗子语料库原因在于,海明威是个对话大师,他扩大了小说中对话的功能,对话甚至成为他的小说作品的主体二、词汇层面1.标准化类符、形符比标准化类符、形符比是用来比较作品用词变化的统计量数值越高,说明作者的用词变化越多,词汇量越大数值越低,说明作者用词越有限,词汇变化较小海明威作品语料库标准化类符/形符比为35.33,布朗子语料库为45.13,可以看出,海明威作品语料库的数值远远低于布朗子语料库,说明海明威的用词较简单,变化较少2.词长词长是指一个单词所含字母的总个数它有助于我们确认常用词的适用范围,是正式还是非正式,是简单词还是复合词笔者计算出海明威作品语料库词长3.95个字母,布朗子语料库4.31个字母这组数据无疑又显示出海明威喜欢使用较简单的单词3.词性笔者通过软件对海明威作品语料库及布朗子语料库中的名词、动词、形容词和副词进行附码并且统计。
在不同的词性中,形容词、副词和代词最能体现作品的文体特征从以上数据可以看出,海明威作品语料库中形容词和副词的出现率要低于布朗子语料库,而代词要高于布朗子语料库这表明海明威在作品中避免使用过多的形容词,他只是把事件和行为原本地呈现给读者,从而达到低调陈述的效果,就像冰山一样,人们只能看到水面的部分,其他部分却在水底三、句法层面1.句长这一部分主要从句子平均长度及句子结构两个方面着手来分析海明威作品语料库的主要特征句长是指一个完整句子中所含单词的总个数句长被视为文体学研究的一个重要方面文体学中,对于句长的参考标准如下:如果语篇的平均句长超出25个单词,语篇被视为复杂语篇,如果平均句长在14~22之间,语篇的文体适中,如果少于14个单词,文体偏向简单笔者计算出,海明威作品语料库平均句长10.07个单词,根据参考标准,海明威作品语料库文体偏向简单而布朗子语料库平均句长16.41个单词,文体趋于适中此数据表明海明威倾向于用简短的句子表达其思想2.并列连词和从属连词根据句子的语法成分,句子可以被分为简单句、并列句、复合句、复杂句四种类型这里,笔者主要通过统计并列连词和用于复合句的从属连词在两个语料库中的分布比例,来比较其句子结构的难易度。
并列连词使用较多则表明文体简单,而从属连词较多则表明文体相对复杂其统计结果如下:从以上表格可以看出,海明威作品语料库并列连词比例高于布朗子语料库,而从属连词比例则低于布朗子语料库简短的句子可以使作者直接触及事物的本来面目,使事物的基本色彩清楚地呈现在读者面前,而不是以对文字的修饰雕琢来表达可见,简约的语言在海明威的作品中随处可见四、结论本文通过字系、词汇、句法三个层面对海明威作品语料库进行统计分析,并与布朗子语料库对比结果表明,海明威作品语料库平均段长、词长以及句长比布朗子语料库短,词汇变化也低于布朗子语料库,句子结构比布朗子语料库简单海明威以此成功地贯彻了他的“寓丰富于简洁”的写作原则,从而给读者留下了巨大的阐释空间同时,使用语料库语言学研究文体学的方法也为我们对文学作品的欣赏提供了一个新的视角参考文献:[1]郭鸿.英语文体分析.军事谊文出版社,1998.[2]胡壮麟.理论文体学.外语教学与研究出版社,2002.(作者单位 大连海洋大学) -全文完-。