论文部分内容阅读
本文研究如何发现热点话题,并将该技术应用于教育领域,在大规模的教育新闻网页中发现教育热点话题。在研究过程中,不仅采用统计方法,而且利用语言学知识辅助研究。首先,本文采用向量空间模型表示报道或话题,提出用标题和正文两个向量分别表示一篇报道或一个话题,并结合新闻报道的特点,调整标题和正文向量所含特征权重的比例。其次,本文尝试通过多种策略选择文本特征,首先运用语言学知识对候选特征集进行初次筛选,再采用信息增益原则对初次选择结果进行二次筛选,并利用同义词词表、缩略语映射表和地名映射表进一步降低特征集的维度。再次,本文通过对教育新闻文本进行分析,提出词长影响词语携带的信息量,词长信息影响话题发现的精度,因此,在公式中加入词长信息,改进了经典的tf*idf权重计算公式。此外,本文尝试通过赋予教育新闻报道中人名、地名和机构名等命名实体以更高的权重,以提高话题识别的准确率。最后,在教育热点话题发现方面,本文提出了影响话题热度的三个要素,分别为:一个话题所含的报道数、报道一个话题的时长、一个话题被报道的广度,并基于这三个要素提出了量化热点话题的计算公式。实验结果表明本文提出的方法具有良好的可行性、有效性和较高的召回率。