【摘 要】
:
随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新
论文部分内容阅读
随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新闻媒体出现在人们的生活之中,包括微博、新闻门户、在线问答网站等。从这些网络平台和媒体上人们可以获取各种短文本形式的文本数据,绝大多数的数据都是没有类别的,因此短文本的主题自动聚类研究有非常广阔的应用前景。理解这些短文本数据内潜在的主题结构是非常重要的。本文的工作围绕短文本数据集上的主题聚类问题展开研究。针对短文本数据集的稀疏性问题,基于共现词语能够体现更多语义信息的思想,本文提出了一个基于词共现网络的词对伪文档主题模型(BPDTM)。本文在新闻标题和知乎问题标题数据集上进行主题聚合度、文本聚类和文本分类的实验。实验结果表明BPDTM模型表现优于LDA和BTM模型,这证明了BPDTM模型在短文本主题聚类问题上是有效的。本文的主要工作有:1) 定义了词共现网络中的词对三角关系,并据此构造词对伪文档集。2) 基于词对伪文档集,提出了针对短文本数据集的词对伪文档主题模型。3) 提出了一种降低模型时间开销的方法,在保证了模型性能的基础上,显著减少模型运行时间。
其他文献
本文首先阐述了Internet的发展对数据库技术的影响,简要的介绍了目前流行的Web开发工具,并进行比较。然后针对Browser/Server系统的主要问题和技术要点,概括了使用CGI开发一
病毒式营销被认为是最有效的营销方式之一,借助人与人之间的影响作用实现营销信息在消费者之间自发的扩散。随着信息技术的迅猛发展,大量在线社交网站和社会媒体网站涌现并成为
近几十年来,随着时间序列数据的飞速增加,以及数据挖掘技术在多个领域的广泛应用,时间序列数据的学习得到了越来越多的关注。这些时间序列数据不仅仅包含文本数据,更包含如图像、
互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语
该论文以"数据业务计算机综合服务管理系统"的设计和实现为基础,探讨了建立此类分布式系统的方法和模式,从多角度讨论了目前关于分布式处理的先进技术,提出了分布式应用系统
论文简单的介绍了WBM的原理及其分类,并结合作者设计的基于代理的WBM网络管理系统Netmiss及设计中的关键技术做了详尽的阐述.其中包括Netmiss原型系统SNMP通讯原语的设计实现
该文在阅读了大量有关文献的基础上,首先,对部线型网络和令牌环网这两种局域网的性能进行了分析和研究,得到了一些对局域网的规划和设计具有重要意义的结论:对总线型网络而言
无线射频识别(RFID)属于新近出现的先进的无线通信技术。能够利用非接触的工作方式实现远距离对待识别目标信号进行自动读写识别,信息读取速度快,存储量大,穿透性强,在工作中被广