【摘 要】
:
文本数据含有与文章内容高度相关的额外信息,而标准的LDA主题模型对这些信息没有加以利用,导致在很多文本的处理过程中出现对关键信息的遗漏的问题,降低了LDA模型的主题提取
【基金项目】
:
国家自然科学基金“基于统计机器翻译和文摘的查询扩展研究(No.61363045)”;云南省自然科学基金重点项目“舆情观点分析(No.2013FA130)”
论文部分内容阅读
文本数据含有与文章内容高度相关的额外信息,而标准的LDA主题模型对这些信息没有加以利用,导致在很多文本的处理过程中出现对关键信息的遗漏的问题,降低了LDA模型的主题提取能力和数据降维能力。构建一种利用文档文摘信息的SLDA模型,在对文档建模时引入机械抽取的文摘信息,通过文摘信息对文档内容平滑,可以很全面地利用文档自身特征信息,从而提高了模型对文档的主题提取能力和数据降维能力。实验结果表明,在标准的LDA模型中引入文摘信息可以提高模型的文档主题提取能力。
其他文献
盾蚧长缨蚜小蜂和岭南蚜小蜂为广东柑桔园红圆蚧的主要寄生蜂。1988年我们从美国加州引入印巴黄蚜小蜂,经繁殖后在桔园分3次释放,每树共放蜂4000头。结果说明该蜂能成功地在广州越冬。在
盈利模式是企业持续获取超额利润的坚实保障,是关乎企业发展前途的核心环节所在,不同行业面对着不同的市场规律和特点,而不同市场的规律和特点则会导向不同的治理方式和盈利
针对青海省农村牧区经济结构中存在的主要问题 ,依据国家的产业政策和青海省的资源优势 ,分析和探讨了青海省农村牧区经济结构调整的基本原则 ,选择了调整的目标和重点 ,提出
独立学院源于20世纪90年代末公办本科院校创办的独立二级学院。独立学院转设是深化教育体制改革的需要,是市场经济的内在要求。独立学院转设迎来了新的机遇:一是教育规划纲要
碳捕集与封存(CCS)技术已被广泛地认为是一种潜力巨大、可供选择的CO2减排手段。据预测,其减排贡献将从2020年占总减排量的3%上升至2030年的10%,并在2050年将达到20%左右,成
以山西省潞城市为研究区域 ,对耕地整理潜力进行了研究。结果表明 ,从数量上来说 ,山西省潞城市耕地整理总潜力为 2 5 73 86hm2 ,占耕地待整理区面积的 9 36 % ,其主要来源是
准时JIT(JustInTime)生产方式是起源于日本丰田汽车公司的一种生产管理方法,它的基本思想是:只在需要的时候,按需要的量,生产所需的产品.本文结合跃进汽车集团公司的具体实例
IPv4是当前因特网的主要协议,但IPv4已来日不多了。开发新一代的IP(IPv6),是因特网发展的必然。文章详细介绍了IPv6的结构和特点,特别是IPv6的数据报头的结构:优先级、流标识
在《制药设备》课程教学项目化设计中,结合该课程的特点,对课程的教学方式和内容进行改革,设计了以林可霉素生产的培养基配制、灭菌-发酵-分离提取-制成合适的剂型所用到的设