【摘 要】
:
针对2个文本集合的语义相似性度量问题,提出了一种新的主题模型——集合相似主题模型(collection similarity topic model,CSTM),基于文本集合的生成过程,综合考虑2个文本集
【机 构】
:
浙江大学计算机科学与工程学院 杭州 310027
论文部分内容阅读
针对2个文本集合的语义相似性度量问题,提出了一种新的主题模型——集合相似主题模型(collection similarity topic model,CSTM),基于文本集合的生成过程,综合考虑2个文本集合对主题生成的相互作用.给出了CSTM基于gibbs抽样的近似推断方法,并提出了新的文本集合相似性度量方法.实验表明,与传统LDA主题模型相比,CSTM收敛更快,perplexity指标更低,能更好地度量文本集合的整体相似性以及特定主题下的相似性.
其他文献
方志人物传除介绍传主的姓名,生卒年、籍贯、民族、性别、经历等一些基本情况外,主要是记述传主的生平事迹,特别是典型事迹。而事迹不外“言”与“行”这两个方面。在“言”
社团结构被认为是真实世界网络中的重要特性之一.社团检测有助于理解真实的网络世界,并且能够更好地分析各种复杂系统.关于社团检测的研究已经提出了多种算法.目前,大部分社
传统的社会网络分析方法大都假设一个网络中只有一个关系,但实际中的社会网络大多数都是多关系社会网络,网络中的对象间存在着各种关系,这些关系在不同情境中起着不同的作用.
在推动共建“一带一路”的教育行动背景下,推动教育扩大对外开放,实现教育国际化,已然成为推动教育高质量发展的重要措施.新建本科院校走国际化发展道路,既是适应高等教育国
本文主要讨论了什么是IP电话,通过与传统电话的比较,分析了IP电话的发展前景
This article mainly discusses what is the IP phone, through the comparison with the traditiona
SimRank是一种依据网络结构衡量网络中节点相似度的重要方法,虽然已有很多SimRank的优化方法,但这些计算方法依然局限于单机计算环境,受限于单机的计算能力.提出一种分布式求
无论是在商业、医疗、教育,还是政府办公系统,对快速准确的通讯要求都在迅速增长。会议电视的出现,满足了人们面对面交流信息的需要。但传统的集团系统体积大、费用高,而个
美国研究人员发现,宠物狗不但能鼓舞心脏病人,还可实际改善他们的健康,包括减低焦虑程度、压力激素指数及肺部压力等。美国洛杉矶加州大学医疗中心在近80名心脏病病人身上,测
如今互联网上的信息呈爆炸式增长,如何从海量的网页中爬取大量网络实体成为一个重要的研究课题.而现有的网络实体爬取策略存在不少的缺点.基于枚举的网络实体爬取策略具有许
近年来,社会经济不断发展,多样化企业在时代发展洪流中所面临的挑战业越发严峻,而想要有效提升企业的市场竞争力,强化其的执行力,就需要重视对于人才的激励,从而实现对其潜能