论文部分内容阅读
编者按
不久前,北京清华附小六年级的学生成了“网红”。原因是几位小学生合作写了一篇论文《大数据帮你进一步认识苏轼》,利用大数据搜索,整理了苏轼诗词的高频用词,还展示了研究过程中克服文献查找困难的解决办法。很多人在惊叹的同时,也很困惑,为什么清华附小的学生这么牛?下面,我们选登《大数据帮你进一步认识苏轼》,看看这些小学生是如何开展研究性学习的。

前言:我们是清华附小2012级4班的学生,2017年正逢苏轼诞辰980周年,学校开展了一系列致敬苏轼的活动。我们利用课前时间演讲了解苏轼生平,在晨读时间吟诵苏轼的诗词,在暮省时间进行游戏飞花令,临摹苏轼的书法和画作,跟着康震老师一起品读苏轼。通过老师的推荐,观看了纪录片《苏东坡》。
随着对苏轼的了解越来越多,我们心中也产生了很多疑问。利用假期时间,我们进行了以苏轼为主题的小课题研究。同学们自愿组成小组,确定研究课题,进行小组讨论和分工。为了方便交流、讨论,我们组建了微信群和QQ群,大家在群里热烈讨论,特别是对于贡献了智慧的同学,组长还给他发红包。各小组同学将老师也拉入群中,大家一遇到疑难问题就随时向老师请教,老师成了同学们的“贴身军师”,思维在碰撞中产生了更多火花。
本次班级共完成课题研究报告23 份,研究主题各有不同:《大数据帮你进一步认识苏轼》《今人对苏轼的评价和苏轼的影响力》《行走的苏轼》《唯美景与美食不可辜负》《苏轼的朋友圈》《苏轼的心情曲线》《苏轼的旅游品牌价值》《苏轼VS李白》等等。
上学期我们用大数据的方法写了一首《如梦令》,这次我们小组研究苏轼,我们想再用大数据的方法对苏轼的诗词进行进一步的分析。
一、数据证明苏轼是名高产作家
首先我和徐子昂把苏轼的3458首诗词都找了出来,大概有25万字。我们发现唐宋诗词由9552位作者创作了276545首诗词,平均下来每位作者要完成28~29首诗词的创作,而苏轼一個人就相当于120位诗人,占了整个唐宋诗词量的1.25%。苏轼一共活了66岁(其实按照今天的计算方法来算,他只活了64年,古代出生的时候就算1岁,过了年又算1岁,所以在他出生半个月的时候就算2岁了),我们按照他的实际年龄来计算,他平均每年需要写54首诗词,这样下来平均每周至少写一首诗词。这些仅仅是他的诗词,不包括散文、札记、书信等。
二、通过数据看苏轼的人生经历
1. 我们的方法
我和爸爸通过电脑程序把苏轼的3458首诗词进行了分词研究,找出了这些诗词中的高频词。
排名前50的高频词表如下:

由于汉语里有很多一个字的词,这些词也需要考虑,于是我们把所有的高频字也做了分析。
排名前50的高频字表如下:

2. 我们的问题
这些高频词和字分析出来之后,我们产生了很多疑惑。比如:
“归来”这个词竟然出现了157次,是苏轼诗词里面用得最多的一个词(注:第一次分析高频词时,还没有搜索“子由”,因此排在第一位的词汇是“归来”),“归去”出现92次,苏轼是在到处云游吗?
苏轼经常提到“故人”,出现了135次,还有“道人”60次,这些人都指的谁呢?他是不是有很多和尚、道士朋友呀?
苏轼诗词里面提到“西湖”92次,“江南”84次,这些诗词是否都是他在杭州当官时候的作品呢?这些诗句描述的场景是不是与他的这段人生经历有关?
高频单字中,“山”2041次,“我”1732次,“风”1447次,“云”1260次,“月”1059次,“水”1020次,“花”1006次,“酒”826次,高频词里面“明月”出现100次,“饮酒”出现57次,这些诗句描述的都是什么场景?苏轼是不是因为官场上不得志而寄情于山、水、花、酒之间?
“使君”出现了152次,而使君是谁?“东坡”出现了108次,“东坡”是指地方还是苏轼自己呢?为什么提到这么多次“东坡”?他的人生和“东坡”的关系是什么?带着这些问题,我们小组开始了研究。
3. 研究的过程
研究的过程就像一次考古,很艰苦也很有意思,因为在这个过程中我们遇到了很多困难,也想出了不少办法。随着研究的深入,我们的研究范围甚至高频词表都进行了调整和更新。但通过这个过程,我们也收获了很多,于是我们把整个研究过程都记录了下来。
(1)小组分工和确定主题
根据分析数据产生的问题,我们小组成员进行了分工,其中:
徐子昂负责研究苏轼三次被贬的经历,以及包含“归来”“归去”的诗词。
马梓铭研究苏轼在西湖及江南的经历,以及包含“西湖”“江南”的诗词。
王储玉负责研究苏轼在“明月”“饮酒”方面的爱好,以及所有包含“明月”“饮酒”的诗词。
官天泽负责研究苏轼与“使君”“东坡”的关系,以及所有包含“使君”“东坡”的诗词。 葛宇轩负责研究苏轼与“故人”“道人”的关系,以及所有包含“故人”“道人”的诗词。
大家接受了任务之后,分别查找资料,总结分析后形成了各自的研究成果。其实上面这五个研究方向都很有趣,但是受时间和资料所限,我们经过讨论,最终决定把这次课题报告聚焦到苏轼三次被贬的经历和含有“归来”诗词之间的关系上来,其他的研究方向等以后有时间再一一攻克吧。
我们猜想“归来”可能反映了苏轼在被贬后,渴望回到朝廷、继续为官报效国家的一种心情。
我们先在苏轼诗词全集中把所有包含“归来”的诗词都找了出来,为了分析这些诗词和苏轼生平的对应关系,我们需要知道苏轼创作这些诗词的时间和地点,然后对比看看是不是他在被贬后写的。
(2)基础资料查找
我们上网搜索各种版本的苏轼诗词全集,但是发现要把每一首诗词对应的年代和地点都找出来,却是一件艰苦而且巨大的工程,因为没有一个网站能完成这样的任务。
后来我们发现了两本工具书,一个是《东坡先生编年诗》[50卷,清乾隆二十六年(1761年)海宁查氏香雨斋刻本],另一本是《苏轼词编年校注》(中华书局“十国古典文学基本丛书”,邹同庆、王宗堂著),这两本书对苏轼的诗词按照年代进行了编排,可以实现我们的想法。
研究苏轼的词,可以查找《苏轼词编年校注》。这书有编年的词292首,没有编年的31首,残句11则。我们在网上找到了这本书的电子版,可以快速检索出来每一首词的年代。
研究苏轼的诗,可以查找《东坡先生编年诗》。不过这本书只能找到哈佛线上图书馆的竹纸线装的扫描书,一共16册50卷(http://nrs.harvard.edu/urn-3:FHCL:15633072)。清朝人编著的都是繁体字,对我们来说简直是天书,根本无法进行检索(见下图)。

我们几乎放弃了之前的想法,但是在爸爸的帮助下我们找到了另外一个网站——http://ctext.org/library.pl?if=gb