【摘 要】
:
针对在线评论,提出了一种短文本语义距离计算模型,将文本距离看成是形式距离和单元语义距离的综合.首先,在对变异短文本进行预处理的基础上,以中文词语为单位,利用词典进行语
【基金项目】
:
国家自然科学基金(61001178);国家软科学研究计划(2010GXQ5D317);北京市优秀人才计划;北京市属高等学校青年拔尖人才计划(CITTCD201404052);北京市教育委员会科技计划(KM201210005024);北京工业大学基础研究基金;可信计算北京市重点实验室开放课题
论文部分内容阅读
针对在线评论,提出了一种短文本语义距离计算模型,将文本距离看成是形式距离和单元语义距离的综合.首先,在对变异短文本进行预处理的基础上,以中文词语为单位,利用词典进行语义扩展,计算短文本间最大匹配距离,将其作为衡量短文本间形式距离的指标;其次,基于短文本中的实义单元和非实义单元的不同作用,利用改进的编辑距离算法计算短文本的单元语义距离;最后,利用加权的方法将形式距离和单元语义距离综合为文本距离,并将其应用于网络在线评论的聚类分析.特别地,为了缓解短文本长度差异所造成的计算误差,提出利用词表长度对距离进行惩罚,并根据Zipf’s Law和Heap’s Law的对应关系,给出了一种文本词表长度的估计方法,并阐明了文本Zipf指数α对长度惩罚的关键性作用机制.实验结果表明,改进算法优于传统方法,聚类性能显著提升.
其他文献
对于一般企业来说,房产税属于小税种,涉及的问题也相对简单。但是对于以出租为主的商业地产公司而言,房产税是仅次于营业税和企业所得税的第三大税种。由于对房产税的一些规
以超前的意识、展望的眼光 ,对 2 1世纪安全管理科学的发展进行畅想和描述。其中论及安全原理、安全立法、安全管理方法、安全管理模式等问题。
洗钱是犯罪的放大器,是自由市场体系最大的漏洞,是冷战结束后典型的非传统性安全威胁。在现阶段的中国,洗钱特别成为官员贪污腐化的护身符和净化器;因此,反洗钱关系到党风廉
雌激素是一种具有多种功能的类固醇类激素。近年来的研究发现,外周血雌激素水平的变化会对听力产生影响,例如,女性在绝经会出现高频听力损失;绝经后给予外源性雌激素补充后,
为了预测未来气候变化对石羊河流域棉花生产和耗水的影响,该文采用英国Hadley中心的区域气候模式PRECIS并结合COSIM棉花模型,对SRESA2(强调经济发展)和B2(强调可持续发展)2种排放
企业离不开设计,从战略的角度上来看,它是一个企业保持竞争力的重要因素。本文重点讨论的是设计与市场如何有效地相互配合才哥以完成企业的经营战略,从而获取更大的利润。
减压转油线是指自减压炉至减压塔之间用于输送工艺介质的管系,它是常减压蒸馏装置中一组极其重要的管系,其布置形式将直接影响到整套装置的平面布置和最终设计成品质量。本文
早产儿是胎龄满28周至满37周(196~293d)的新生儿,其中胎龄小于32足周(224d)的早产儿称早早产儿,而第37周的早产儿因成熟度已接近足月儿,故又称过渡足月儿[1]。早产儿的成熟度随胎
中小企业作为经济与社会发展的主力军,在新旧动能转换背景下,各级地方政府亟须臻于完善的税收优惠政策扶持中小企业快速健康发展。以扶持中小企业的税收优惠政策为切入点,详
随着经济社会的快速发展、城市人口的不断增加、建成区规模的大幅扩大、机动化和小汽车进入家庭的速度加快,城市内外活动的客流和交通量急剧增长,达到了较高规模水平,而且呈