基于机器学习的红楼梦作者鉴定

来源 :新一代信息技术 | 被引量 : 0次 | 上传用户:bbbeatrice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
《红楼梦》是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者,但由于历史原因,《红楼梦》在传播和保留过程中出现了令人遗憾的缺失,目前公认的版本是前80回为曹雪芹本著,高鹗续后40回,现通过建模佐证前80回与后40回作者不同.用朴素叶贝斯分类器通过字的频率,判别《红楼梦》的章回作者不同.首先,对每一章节进行分词,建立词频矩阵;接着使用非参数检验剔除显著性不大的人称代词;然后筛选出所有在每一章回出现大于6次的字;最后将频繁出现的字创建指示特征,利用红、玉等125个特征,训练朴素叶贝斯分类器,成功预测出作者的不同,预测正确率高达97%.针对词的判断,首先引入红楼梦词语等细胞词库,使章回分词更加精确;接着,筛选出与文章情节关联不大的词语,计算词在每一章出现的频率的标准差,选择标准差小于0.9的词语作为特征;最后利用"宝玉
其他文献
2007年11月,家电下乡试点工作拉开序幕,业界普遍认为家电下乡政策是针对家电行业的重大政策利好,对拉动农村家电消费、推动家电企业产品销售和三四级市场布局具有重要意义.
针对压力蒸汽灭菌工作中经常出现的湿包问题,笔者就其发生的各种原因进行了分析,其中干燥时间不足、干燥方式不同,是影响灭菌包干燥的主要原因。为此,我们对压力蒸汽灭菌的干
在当今全球化的趋势下,跨文化教育已经成为势不可挡的潮流,跨文化适应问题随之引起各国学者的关注。随着中国在世界范围内的影响日益增强以及汉语推广的热潮,越来越多的留学生选
学位
《红楼梦》的作者一直备受争议,红学的大部分研究者认为《红楼梦》前 80章回由曹雪芹撰写,后 40章回由高鹗撰写.为验证《红楼梦》是分由两人所作,将《红楼梦》按章回均分成前
《觉醒》是美国女作家凯特·肖邦的代表作,该小说在当代美国女性文学作品中占有不可或缺的地位。《觉醒》描写了女主人公爱德娜在外界的影响下,经过一系列的心理历程,成长为具有
学位
本文通过对荣华二采区10
出租车一直是便捷交通的不二选择,近年来,网约车伴随“互联网+”的潮流,短时间内迅猛发展,冲击了出租车市场,与传统出租车在出租出行市场中呈现出显著的博弈关系.为分析两者
近年来,虽然我国粮食产量逐年上升,但存在着较为严重的资源配置和供需脱节问题,为解决这些问题,开始推行土地轮耕政策.第一问通过建立时间序列预测模型,根据从国家统计局上找
一、2017年上半年全国建筑业基本情况rn2017年上半年,全国建筑业企业(指具有资质等级的总承包和专业承包建筑业企业,不含劳务分包建筑业企业,下同)完成建筑业总产值85871.09
实现了税控管理工作前移,增强了精细化管理能力,在有广度、有深度的基础上,凸显系统、形象、好记的新特点,中建一局圆周π税务管理信息系统值得推广!中国建设会计学会会长秦