基于信息聚合的科技新闻服务研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：sdddddddd

【摘要】

：

随着互联网媒体和用户分享渠道的增加,信息的海量增长造成了严重的信息过载问题。此时,相比于传统的信息聚合主要关注如何提供更加丰富的资源,信息筛选与过滤反而成为更加有

【作者】

：

蒋旦

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2016年期

【关键词】

：

语义相似度词向量文本消重文本聚类完全子图新闻聚合话题挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网媒体和用户分享渠道的增加,信息的海量增长造成了严重的信息过载问题。此时,相比于传统的信息聚合主要关注如何提供更加丰富的资源,信息筛选与过滤反而成为更加有价值的技术。如何帮助用户快速获取真正感兴趣的信息,提高用户接受知识的效率成为信息聚合技术新的挑战。本文针对科技新闻服务中的信息过载问题,探索了结合文本挖掘方法的信息筛选与过滤技术。基于句子语义相似度计算方法,提出融合文本语义特征的消重算法和文本聚类算法,用于新闻去重、社会关注热点挖掘、用户感兴趣话题的精准定位。具体工作内容与成果包括：1.提出了一种基于语义的短文本消重技术。针对新闻聚合中的信息冗余问题,提出了一种不仅能检测出字面上重复或者近似重复,还能检测出“话题重复”——报导同一事件的新闻的消重算法。文中首先探讨了句子语义相似度计算的一般方法,并对基于Word Embedding词向量计算句子相似度的方法进行了改进,将句子语义相似度计算用于判定新闻的话题相似度。实验证明,和单纯的基于字面的消重算法对比,该算法能在保持较高消重准确率的前提下,较大幅度提高召回率,因而该算法能够更大程度上去除新闻聚合的冗余。2.提出了一种基于语义和图的短文本聚类算法。传统的文本聚类算法往往采用词包(Bag-of-words)模型,忽略了文本包含的语义信息；而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开。本文通过融合词向量语义模型和能发现强连接自然簇的图聚类算法,提出了一种短文本聚类算法,弥补了传统算法的不足。通过对实验中共21个聚类簇的人工评估,发现新算法能更好地捕获新闻的主题信息且较传统的k-means表现出更高的聚类纯度,因此能更有效地完成新闻话题挖掘的任务。3.利用上述成果构建“科技视界”新闻服务系统,精简新闻聚合结果,改善用户体验。该系统已投放Android应用市场,实现稳定运行。

其他文献

敏若惊鸟闻风起

从今年2月25日开始,解放军南京政治学院新闻系的18名学员来到解放军报社,开始了为期8周的毕业实习。他们用眼睛、用耳朵、用心灵感知指导编辑和报社里的事务,悟出了许多课堂

期刊

解放军报社敏若新闻写作新闻系编辑老师南京政治学院写作规律四季歌新闻敏感性通联部

保持先进与引导舆论

根据党中央的统一部署,以实践“三个代表”重要思想为主要内容的保持共产党员先进性教育活动,正在全党扎实而有序地展开.

期刊

保持先进保持共产党员先进性三个代表教育活动党中央思想实践

基于天然气发动机的点火控制系统研究

在节能减排及新能源政策的大力推动之下，天然气以其丰富的储量、相对低廉的价格及相对清洁的排放逐渐为人们所重视，以天然气为燃料的发动机也越来越被广泛应用。点火系统作为天

学位

天然气发动机点火控制系统驱动算法信号容错

T(U)V南德:新能源汽车驶入新基建快车道

由于国内疫情已逐步得到有效控制,近期低迷的汽车产销市场已稳步回升,开始显露复苏迹象.4月初,国家发展改革委产业发展司表示,我国汽车日产量已逐步恢复到去年同期水平的75％以

期刊

NAU7802在无线载荷传感器中的应用

为满足油井现场在线测量示功图的需求,本文设计了一种无线载荷传感器,使用了具有24位分辨率的低功耗模数转换器NAU7802,简化了前端模拟电路设计。文中分析了NAU7802特性,给出

期刊

传感器NAU7802示功图载荷模数转换器无线载荷传感器模拟电路设计在线测量前端模拟信号

先进性教育学习测试题标准答案

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

测试题性教育

机器人视觉能力测试方法研究及测试辅助工具的设计实现

机器人可以代替人类从事各种危险、繁重、枯燥的工作,在自然灾害和核泄漏救援、极地和外星探险、军事侦察和作战、工业制造和物流自动化、民用车辆智能化、助老助残等方面具

学位

机器人视觉能力测试方法真值标注雾效模拟

基于嵌入式技术的混凝土配料控制系统

混凝土是建筑行业中应用最广泛的材料之一。随着建筑行业的迅猛发展,对混凝土的需求日益增加,而混凝土配料控制是保证混凝土生产质量的关键步骤。本文针对传统的混凝土配料控

学位

配料控制嵌入式技术C8051F020迭代学习

王宜振作品入选中学语文教科书

期刊

作品中学

把好事办到底——辽宁省直机关委开展“保持先进性, 服务在基层”主题实践活动记

又是一年秋风送爽。辽沈大地,人们不仅感受到金秋带来的喜悦,还领略着别样的收获。辽宁省直机关工委从今年下半年开始,为巩固和扩大保持共产党员先进性教育活动成果,在省直机

期刊

秋风送爽金农热线医疗服务收费床位费患者负担辽宁省民政厅三方通话最低生活保障服务中心中准

基于信息聚合的科技新闻服务研究与实现

其他学术论文