一种改进的K近邻算法在网页分类中的应用

来源 :电子技术 | 被引量 : 0次 | 上传用户:yyyypolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。 The k-nearest neighbor algorithm is the most commonly used text classification algorithm for classification. The basic k-nearest neighbor algorithm is based on the cosine vector distance to calculate the similarity. Since the TF-IDF method is used to calculate the weight of the syndromes, This algorithm is very sensitive to the noise features in the text classification. In this paper, we put forward that in the field of web page classification, according to the characteristics of web page articles, we consider the formulas of different positions of the feature words and improved similarity, The accuracy of the classification.
其他文献
作业的布置与批改是影响英语有效教学的重要因素之一,也直接影响学生在初中阶段英语学习的效果.本文结合教育教学管理实践,就初中英语有效作业的布置与批改作一探讨.笔者认为
工程测量是测绘科学与技术在国民经济和国防建设中的直接应用,是综合性的应用测绘科学与技术,要求计算理论严密,测量方法严密.本文对工程测量进行了定义,按照工程建设进行的
文章分析了2003年7月份高温环流形势变化及500hPa高度场异常特征.500hPa副热带高压对广西的控制、发展和地面低压区的维持是2003年盛夏高温天气形成的前提条件.副热带高压异
在语义学领域里对语言理据的研究已经有很长的历史了。通过对语言理据的探讨来解释“Watergate”类比构词形成的一系列词汇的语义理据,揭示转喻在这一现象产生中起到的重要作
地质实习是使学生加深对地球科学基本概念和基本理论的理解,培养初步的野外实践能力的重要手段.针对防灾科技学院在柳江盆地进行的认识性地质实习教学活动,笔者根据多年的地
本文分析了渠道站的实际情况,尤其是水文测报和管理中存在的问题,认为对于参与实时水情报汛的渠道站,可以与所属水文站一并计算报汛,对于不参与实时水情报汛的渠道站,作为水资源平衡计算的依据,其水文资料应参与整编刊印。最后提出渠道站不应该独立存在,但应加强引水资料的监测管理,包括对固定引水建筑物的长期监测和对临时引水设备的巡测和调查。
在英语学习中,翻译是一个重要组成部分,而翻译是要基于作者或译入语的文化背景.所以翻译时应该按照作者的文化要求还是译入语的文化标准是我们翻译准确与否的关键所在,也就是
本文从语言学的角度对诺亚·韦伯斯特编撰的韦氏词典的编撰特点进行了深入而全面的综合研究,并得出了以下结论:该版韦氏词典具有选词宽泛精确、选词规范、词汇美国化、百科化
利用全球定位系统(GPS)施测测区的首级平面控制网得到了广泛的应用,本文对三、四、五等工程GPS控制网平差成果实际精度与各行业GPS技术规范规程要求比较,进行内部符合精度检
据近几年豫东地热资源勘探开发经验和研究成果,叙述了区内第三系层状热储层中地热水化学成分随埋深(温度)增加的变化规律,采用同位素方法研究地下热水中δ D-δ 18O值(氢氧同