重复串特征提取算法及其在文本聚类中的应用

来源 :计算机工程 | 被引量 : 0次 | 上传用户:band420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词。实验表明。该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能。
其他文献
空间联系是经济地理学的研究热点,产业联系是空间联系的重要表现形式。山西省作为资源型省份,面临着产业结构调整、经济协调发展和可持续发展的多重目标。本文通过研究产业联
面对厨房电器高端化的趋势,老板电器(002508.SZ)通过与西班牙法格集团(FAGOG GROUP)合资,引入“De Dietrich”(帝泽)品牌,进军中国豪华家电市场。老板电器2月10日公告透露,该
本原元和本原多项式是有限域理论中的2个重要的概念。本原元的求解问题是解决实际密码序列问题的前提条件,而本原元的求解问题又可以归结为本原多项式的求解问题。该文结合求
10月21日,多元化的工业产品制造商伊顿公司在纽约证交所敲响了当天的“开市钟”纪念其100年诞辰。伊顿公司百年历史的重要时刻通过这一寓意深远的仪式逐一呈现:从1911年崎岖不平的公路上创业起步、之后进军和不断开拓工业和电气市场所取得的巨大发展,一直到现在交通和信息超级高速公路的无限延伸所带来的持续不断的发展机会,以及随之而来的全球性动力管理的挑战。  100年前的10月21日,美国发明家维格托本森
针对传统系统级芯片动态内存管理单元(SOCDMMU),提出用软件方法实现SOCDMMU中的核心部件。该方法分析了核心硬部件的功能,以软件方程的形式进行算法抽象,并在改进后实现算法。
针对传统医用监护仪存在的问题,提出一种基于全网络环境、具有较强信息处理能力、易于维护的新型医用监护仪解决方案。该方案采用面向服务的体系结构,设计协同监护服务平台。在
8月12日,长虹空调2014冷年营销开盘经营会议在梓潼两弹城开幕。长虹空调2014冷年开盘会议是一次总结过去,开拓未来的盛会,也是一次漫踏清秋,再展宏图的盛会。
期刊
陕西省地处我国内陆腹地,东与山西、河南省为邻,西连甘肃省和宁夏回族自治区,南与湖北、重庆、四川省(市)相接,北接内蒙古自治区。陕西是连接我国东部和西北、西南的交通要地。北部
网格安全基础设施解决了身份鉴别、保密性和完整性问题,但难以有效解决访问控制问题,传统的访问控制模型也不能很好地满足网格的安全需求。该文提出一种基于任务和角色的计算网
2009年中国航海日庆祝活动7月11日在大连举行,8位业内人士在庆祝大会上被授予中国航海教育贡献奖。获得中国航海教育贡献奖的分别是:上海海事大学副校长蔡存强,大连海事大学外