基于LDA的中文文本相似度计算

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:haobishuiduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。
其他文献
目的观察早期股骨头缺血性坏死应用"六维诊疗模式"保守治疗的临床效果。方法将2009年4月—2014年4月该科收治的Ⅰ~Ⅱ期(Ficat分期)股骨头缺血性坏死242例313髋,根据治疗方法
为使汉字草体计算机输入识别精简化,对汉字草书手写体,实施分类与亚分类等类似处理。参照人的汉字草书书写习惯,提出模糊识别汉字草体手写输入算法。结合各种具体编码约定,可
用电感耦合等离子体质谱法(ICP-MS)测定油品中痕量元素铁、铜、铅、锡、砷、银、铬、镍、钒。油品于铂金坩埚中,在马弗炉内进行亚沸加热,首先蒸发除去有机物质直至仅剩余无机
分析无刷直流电机的电磁转矩和起动控制,针对无位置传感器的永磁无刷直流电机的起动控制,提出了具有升频和电流调节控制的无位置传感器BLDCM的起动控制,其中电流调节控制采用两
<正>本刊讯据农业部调度,今年主要农作物种子生产形势基本稳定,可供种数量充足,能够满足明年用种需求。杂交玉米、杂交稻种子积压态势有所缓解。杂交玉米和杂交稻种子总量供
目前国内的正压呼吸机的控制系统采用常规的PID控制方法,由于呼吸机的压力和流量输出为非线性,故这样的控制方法不能达到满意的效果。为此,基于对正压呼吸机的结构原理以及传统
目的:观察保利尔胶囊治疗高脂血症的临床疗效及其对血液流变学的影响。方法:高脂血症患者100例,随机分为2组,治疗组60例,对照组40例,治疗组服用保利尔胶囊,对照组服用降脂灵
本文主要阐述了我国傣医药事业的发展现状及其发展前景,并阐明了傣医药在我国民族医药事业中的重要地位。
让幼儿在一日活动中自觉地遵守规则,需要在各种教育活动中因材施教、循序渐进。可以借助儿歌和童谣,启发提示幼儿自觉遵守规则;也可在游戏活动中培养幼儿规则意识,还可抓住教
研究性学习是一门新的必修课程,通过确定课题、制定有效的课题研究方案、有计划地实施研究以及多方位的评估交流,使研究性学习真正落实到实处,使学生加深对学习价值的认识,实