【摘 要】
:
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征
论文部分内容阅读
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF-IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。
其他文献
产业集群是指在某一特定领域,通常以一个主导产业为主的市场领域中,大量产业联系密切的企业以及相关支撑机构在空间上集聚,并形成强劲、持续竞争优势的现象。工业园区的产业
目的调查分析广东省首例输入性甲型H1N1流感病例的流行病学特征,探讨发病特点,评估防控措施,为预防和控制甲型H1N1流感提供依据。方法采用面对面病例个案调查和现场调查方法,
【目的】解决沙土地区漏水漏肥的核心问题,建立保水防渗漏新技术体系,促进沙土地区农业可持续发展。【方法】基于保水剂的吸水保肥等物理化学特点,以保水剂和土壤混合物底施
室内模拟实验与盆栽试验的结果表明,外源HgCl2进入土壤后的形态分布为残留态>酸溶态>碱溶态与活性态。它们的稳定性依次下降,且随时间的延长,后三种形态的汞逐渐向残留态汞转化。添加CaCO3只
上海交通大学刘士林教授在《中国现代学人论学书信研究》[1]序言中认为,“论学书信”之题有一定的学理深度,因为书信往来一方面精要地反映了学人的学术观点,另一方面能够“再现一
本文研究了海鱼中甲基汞的萃取富集方法,采用了苯萃取和半胱氨酸滤纸富集,然后再用苯洗脱.并且对气相色谱测定甲基汞的方法也进行了研究.实验结果表明:浸取液酸度2mo1/L时,用
制造执行系统(简称MES)由多个子系统组成,其建模方法比较混乱和复杂。介绍了系统工程建模语言SysML的特点;并结合实例给出了基于SysML的MES建模方法,重点描述了需求图、用例图
目的探讨七氟醚静吸复合麻醉、全凭静脉麻醉(丙泊酚、芬太尼)应用于小儿手术的麻醉质量。方法现随机选取2015年3月—2016年4月在该院进行手术的患儿74例,分成实验组37例,对照组
主题性课程作为综合实践活动课程中一种新的课程形式,是特教学校全面实施素质教育的创新举措。该课程立足残疾学生实际和现实生活,对于培养残疾学生综合实践能力,丰富和补充校本
采用静态土柱法研究油田酸化压裂废液中不同浓度的H+、Cl在不同土壤中的迁移转化规律,并探讨相关作用机理。结果发现,随着土壤深度的增加,H+在黑钙土与黄土中的含量逐渐减少,且浓度