教育热点话题自动发现技术研究

来源 :中国社会科学院研究生院 中国社会科学院 | 被引量 : 0次 | 上传用户:naruia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究如何发现热点话题,并将该技术应用于教育领域,在大规模的教育新闻网页中发现教育热点话题。在研究过程中,不仅采用统计方法,而且利用语言学知识辅助研究。首先,本文采用向量空间模型表示报道或话题,提出用标题和正文两个向量分别表示一篇报道或一个话题,并结合新闻报道的特点,调整标题和正文向量所含特征权重的比例。其次,本文尝试通过多种策略选择文本特征,首先运用语言学知识对候选特征集进行初次筛选,再采用信息增益原则对初次选择结果进行二次筛选,并利用同义词词表、缩略语映射表和地名映射表进一步降低特征集的维度。再次,本文通过对教育新闻文本进行分析,提出词长影响词语携带的信息量,词长信息影响话题发现的精度,因此,在公式中加入词长信息,改进了经典的tf*idf权重计算公式。此外,本文尝试通过赋予教育新闻报道中人名、地名和机构名等命名实体以更高的权重,以提高话题识别的准确率。最后,在教育热点话题发现方面,本文提出了影响话题热度的三个要素,分别为:一个话题所含的报道数、报道一个话题的时长、一个话题被报道的广度,并基于这三个要素提出了量化热点话题的计算公式。实验结果表明本文提出的方法具有良好的可行性、有效性和较高的召回率。
其他文献
以沿海高速公路启东某路段路基土为研究对象,在对现行EDTA测定方法进行分析研究的基础上,为了研究石灰土灰剂量衰减现象的影响因素,笔者进行了不同石灰掺量的石灰土击实试验
依托某破碎花岗岩巷道工程,以多孔介质中气体的渗流理论为基础,综合考虑影响氡在破碎花岗岩山体及巷道中运移和析出的多种因素,构建了氡的数值计算模型,给出了山体和通风巷道
黄河冲积地层的土体软弱、稳定性差、基坑支护困难,施工风险高,极易诱发恶性工程事故。本文以济南省会文化艺术中心大厦深基坑为工程背景,采用现场监测数据分析、统计建模和F
为研究飞机移动荷载作用下跑道地基受力特性及土体单元经历的应力路径,采用积分变换和传递矩阵法推导了层状地基各应力分量的半解析解,将道路面层-基层-地基视作多层跑道结构
由于舒芜的“交信”使胡风问题迅速从文艺思想升级到政治层面,因此,研究“胡风事件”的成因,首先必须探讨舒芜从《希望》主笔走向“起义”的缘由。为此,第一章第一节充分利用
学位
学位
高中语文教学的一个重要组成部分是阅读教学,培养学生的阅读能力是教学的主要任务之一。高中阶段的学生已经有了相当高的思维水平,阅读能力相对稳定,技能和策略提高较快。分
学位
根据某高速铁路试验段搅拌桩复合地基和真空预压软土地基路堤,在预压期及轨道结构荷载作用下的实测沉降数据,探讨了路堤荷载的实用简化方法、预压荷载及轨道结构荷载作用下复
2014年5月福禄克测试仪器(上海)有限公司日前推出Fluke 190-504 II系列500 MHz ScopeMeter?示波器,这是第一款达到500 MHz、5 GS/s实时采样率的四通道手持式示波器,采用密封、坚
宋代两浙地区的经济发展一直处于领先地位,北宋初期就已是南方的经济中心,及至南宋,又成为全国的经济中心。迅猛发展、高度领先的物质生产和社会经济丰富了两浙人的生产、商贸与