基于信息聚合的科技新闻服务研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sdddddddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网媒体和用户分享渠道的增加,信息的海量增长造成了严重的信息过载问题。此时,相比于传统的信息聚合主要关注如何提供更加丰富的资源,信息筛选与过滤反而成为更加有价值的技术。如何帮助用户快速获取真正感兴趣的信息,提高用户接受知识的效率成为信息聚合技术新的挑战。本文针对科技新闻服务中的信息过载问题,探索了结合文本挖掘方法的信息筛选与过滤技术。基于句子语义相似度计算方法,提出融合文本语义特征的消重算法和文本聚类算法,用于新闻去重、社会关注热点挖掘、用户感兴趣话题的精准定位。具体工作内容与成果包括:1.提出了一种基于语义的短文本消重技术。针对新闻聚合中的信息冗余问题,提出了一种不仅能检测出字面上重复或者近似重复,还能检测出“话题重复”——报导同一事件的新闻的消重算法。文中首先探讨了句子语义相似度计算的一般方法,并对基于Word Embedding词向量计算句子相似度的方法进行了改进,将句子语义相似度计算用于判定新闻的话题相似度。实验证明,和单纯的基于字面的消重算法对比,该算法能在保持较高消重准确率的前提下,较大幅度提高召回率,因而该算法能够更大程度上去除新闻聚合的冗余。2.提出了一种基于语义和图的短文本聚类算法。传统的文本聚类算法往往采用词包(Bag-of-words)模型,忽略了文本包含的语义信息;而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开。本文通过融合词向量语义模型和能发现强连接自然簇的图聚类算法,提出了一种短文本聚类算法,弥补了传统算法的不足。通过对实验中共21个聚类簇的人工评估,发现新算法能更好地捕获新闻的主题信息且较传统的k-means表现出更高的聚类纯度,因此能更有效地完成新闻话题挖掘的任务。3.利用上述成果构建“科技视界”新闻服务系统,精简新闻聚合结果,改善用户体验。该系统已投放Android应用市场,实现稳定运行。
其他文献
从今年2月25日开始,解放军南京政治学院新闻系的18名学员来到解放军报社,开始了为期8周的毕业实习。他们用眼睛、用耳朵、用心灵感知指导编辑和报社里的事务,悟出了许多课堂
根据党中央的统一部署,以实践“三个代表”重要思想为主要内容的保持共产党员先进性教育活动,正在全党扎实而有序地展开.
在节能减排及新能源政策的大力推动之下,天然气以其丰富的储量、相对低廉的价格及相对清洁的排放逐渐为人们所重视,以天然气为燃料的发动机也越来越被广泛应用。点火系统作为天
由于国内疫情已逐步得到有效控制,近期低迷的汽车产销市场已稳步回升,开始显露复苏迹象.4月初,国家发展改革委产业发展司表示,我国汽车日产量已逐步恢复到去年同期水平的75%以
期刊
为满足油井现场在线测量示功图的需求,本文设计了一种无线载荷传感器,使用了具有24位分辨率的低功耗模数转换器NAU7802,简化了前端模拟电路设计。文中分析了NAU7802特性,给出
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
机器人可以代替人类从事各种危险、繁重、枯燥的工作,在自然灾害和核泄漏救援、极地和外星探险、军事侦察和作战、工业制造和物流自动化、民用车辆智能化、助老助残等方面具
混凝土是建筑行业中应用最广泛的材料之一。随着建筑行业的迅猛发展,对混凝土的需求日益增加,而混凝土配料控制是保证混凝土生产质量的关键步骤。本文针对传统的混凝土配料控
期刊
又是一年秋风送爽。辽沈大地,人们不仅感受到金秋带来的喜悦,还领略着别样的收获。辽宁省直机关工委从今年下半年开始,为巩固和扩大保持共产党员先进性教育活动成果,在省直机