论文部分内容阅读
随着互联网媒体和用户分享渠道的增加,信息的海量增长造成了严重的信息过载问题。此时,相比于传统的信息聚合主要关注如何提供更加丰富的资源,信息筛选与过滤反而成为更加有价值的技术。如何帮助用户快速获取真正感兴趣的信息,提高用户接受知识的效率成为信息聚合技术新的挑战。本文针对科技新闻服务中的信息过载问题,探索了结合文本挖掘方法的信息筛选与过滤技术。基于句子语义相似度计算方法,提出融合文本语义特征的消重算法和文本聚类算法,用于新闻去重、社会关注热点挖掘、用户感兴趣话题的精准定位。具体工作内容与成果包括:1.提出了一种基于语义的短文本消重技术。针对新闻聚合中的信息冗余问题,提出了一种不仅能检测出字面上重复或者近似重复,还能检测出“话题重复”——报导同一事件的新闻的消重算法。文中首先探讨了句子语义相似度计算的一般方法,并对基于Word Embedding词向量计算句子相似度的方法进行了改进,将句子语义相似度计算用于判定新闻的话题相似度。实验证明,和单纯的基于字面的消重算法对比,该算法能在保持较高消重准确率的前提下,较大幅度提高召回率,因而该算法能够更大程度上去除新闻聚合的冗余。2.提出了一种基于语义和图的短文本聚类算法。传统的文本聚类算法往往采用词包(Bag-of-words)模型,忽略了文本包含的语义信息;而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开。本文通过融合词向量语义模型和能发现强连接自然簇的图聚类算法,提出了一种短文本聚类算法,弥补了传统算法的不足。通过对实验中共21个聚类簇的人工评估,发现新算法能更好地捕获新闻的主题信息且较传统的k-means表现出更高的聚类纯度,因此能更有效地完成新闻话题挖掘的任务。3.利用上述成果构建“科技视界”新闻服务系统,精简新闻聚合结果,改善用户体验。该系统已投放Android应用市场,实现稳定运行。