基于共现与关联挖掘的人物关系图谱研究与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:dingjk3883085
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代人们的生活节奏越来越快,很难抽出一大部分的时间阅读文章,论文提供了一些方法,可以快速的了解一篇文章中的人物及人物间的关系,根据获得的数据,用数据说明该人物在整篇文章中的主次,构成的人物关系图可以展示该人物的人际关系圈,辅助读者在阅读全文前理清和掌握人物之间的亲疏远近联系,极大地节省了阅读时间。论文选取《白鹿原》作为研究对象,运用共现分析与关联规则挖掘的方法对研究对象进行重点研究。论文使用Python语言编写程序,通过共现分析将文本中的人名节点提取出来,并赋予权重大小;同时提取语料中的两节点之间的边的权重大小。根据提取的节点和关键词对构造共词矩阵,为了获得相似度矩阵,通过使用落合因子Ochiai来确定相似度,使得两个关键字之间的距离越近,得到的数值就越大,相似度越好。欧几里德距离是二维空间中的两个点之间的直线距离的最直观测量方法。使用SPSS聚类分析软件求出共词矩阵的欧式距离,距离越大,差异越大,距离越小,相似性越高。为更好的分析共词矩阵的聚类情况,对共词矩阵进行了R型聚类和Q型聚类,R型聚类不仅能够了解变量间的亲密度,而且能够了解变量组合间的亲疏远近关系,Q型聚类是根据变量信息对个案进行聚类,生成的谱系图更好的阐述了聚类分析的结果。绘制人物关系图谱时,将提取的点节点和边的信息的文本文档格式分别转换成.CSV格式,然后分别导入Gephi软件,按照预先设计好的要求,绘制出人物关系的图。从绘制的人物关系图中分析人物之间的亲密度更直观。在挖掘关联规则时用到了weka作为辅助工具,关联规则中使用了常用的Apriori算法,Apriori算法中数据集的设置是一个重要的环节,要将整个文本当做数据库,将文章的每一章分开,章节中出现的关键词作为一条记录,所有章节的关键词组成的列表合起来构成数据集,对数据库进行多次扫描,并从构建的数据集中发现频繁项集,发现人物间的关联规则。
其他文献
目的探讨疏血通联合马来酸桂哌齐特治疗短暂性脑缺血发作的临床效果。方法将68例短暂性脑缺血发作患者随机分为两组,各34例。对照组患者静脉滴注马来酸桂哌齐特治疗,观察组在
隐喻作为一种普遍现象,从古至今被人们大量应用于日常会话和文学作品中。从亚里士多德开始,西方许多哲学家、修辞学家和语言学家从不同的研究视角对隐喻进行了系统的研究,形
变量选择是高维统计建模的基础.但传统的使用逐步回归的方法不仅计算复杂而且在变量选择过程中会忽略随机误差,因此针对传统方法的不足,提出了惩罚似然方法来克服这一问题.惩
本文分别对玄武岩纤维增强环氧树脂基复合材料制备时固化剂含量和玄武岩纤维含量进行了研究,对其进行力学性能测试和破坏机理分析。在优化了材料成分的基础上,对复合材料进行铝粉颗粒掺杂和碳纳米管颗粒掺杂,分析不同掺杂量的颗粒对复合材料力学性能的影响。固化剂与纤维含量研究表明,随着树脂基体中固化剂含量的增加,环氧树脂基体材料的准静态抗压强度和动态抗压强度均呈现出先升高后降低的趋势,当固化剂与环氧树脂的质量配比
桂枝汤可拮抗新斯的明性胃肠功能亢进大鼠的血液、下丘脑、十二指肠和空肠血管活性肠肽(VIP)含量的降低,对胃窦VIP含量无影响;也可使阿托品性胃肠运动机能受抑大鼠的VIP含量降低,并使之趋向
2015年4月福建自贸区挂牌以来,福建自贸区通过简政放权、优化监管模式等途径优化营商环境,为区内企业融入国际产业价值链创造了良好的政策软环境,但福建自贸区供应链水平提升
淤泥质土地区桩基因开挖引起的桩身偏移甚至断裂等工程事故屡见不鲜,淤泥质土层过大的侧压力和桩基较小的侧向刚度是事故的根本原因。高流动性淤泥质土的侧压力比非饱和土侧压力大得多,但其原因和计算方法研究尚未引起工程界的足够重视。本文针对淤泥质土开挖工况下桩基响应及淤泥质土的侧压力分布特点,进行了一系列研究。结合现场试验实测数据分析、设计装置进行室内模型实验和实测数据分析、以及理论推导等方法,揭示了淤泥质土
梁宗岱的纯诗理论源于法国象征主义文学思潮,并直接而全面地吸收法国诗人瓦雷里的纯诗理论的精华。同时,梁宗岱将纯诗理论融入中国20世纪二三十年代的新诗创作实践之中,试图
目的总结切开复位Herbert加压螺钉内固定治疗桡骨头骨折的疗效。方法 2009年1月-2010年9月,采用切开复位Herbert加压螺钉内固定治疗16例桡骨头骨折。男11例,女5例;年龄18~48岁
许多学者对政策的“合法性”这一概念怀有疑问,通常会陷入一种误区,认为国家已经颁布的政策就是合法的。但从“教育政策的合法性”的概念看来,教育政策的合法性就是指教育政