论文部分内容阅读
鲁迅的杂文是我国白话文时期乃至当代文学创作的集大成者,具有重要的研究价值,但前人对鲁迅杂文的研究主要集中在其艺术性、思想性、战斗性等方面。从语言风格角度对其进行的研究也不少,不过主观性成分较重,借助语料库以统计的方法进行客观分析的则很少。因此,本文在前人研究的基础上着重对鲁迅杂文进行了统计与分析,先定量统计再定性分析,以客观地展现其语言风格。本文的主要研究思路如下:首先,建立3个语料库,分别是容量为820059个字符的鲁迅杂文语料库、容量为139914个字符的鲁迅小说语料库、容量为61074个字符鲁迅同时期作家的杂文语料库。其中后两个语料库为参照语料库。其次,在词汇层面和标点层面以鲁迅小说为参照语料库,对鲁迅杂文和鲁迅小说的词长、句长、单音节词、双音节词等17个语言特征的出现比例进行统计,发现共有11个语言特征具有显著的区别作用,并且以这11个语言特征为基础,主要对单音节词、代词、名词、词汇多样性及部分标点符号进行了具体分析。得出鲁迅杂文相较于鲁迅小说文言性强、“底”的出现复杂、词汇丰富度低的特性。再次,在构词层面,以其他作家杂文语料库为参照语料库,对这两个语料库中未能被准确划分的词语进行了统计分析。分析发现鲁迅杂文中有着丰富的仿词、文言词、异序词、词缀等,构成了其独特的语言风格。其中尤以仿词较为突出,鲁迅杂文中的仿词共有82处,而其他作家杂文中只有10处。词缀方面,“支”和“气”只有鲁迅杂文中有,而鲁迅杂文中的“们”运用得更自成一派。最后,利用n-gram分析了鲁迅杂文中不同长度词串的出现规律,分析得出词长越短使用越灵活,如二词长、三词长的词串;而长度较长的词串则具有一定的限制性,将词串直接限制在某一篇章中。本研究以鲁迅杂文为研究对象,主要从词汇层面和构词层面对鲁迅杂文进行了对比分析,对分析中国现代文学作品尤其是白话杂文有一定意义,也可应用于其它类型文本的处理分析中。