论文部分内容阅读
数据挖掘的发展是在互联网发展的基础上逐渐产生的,对于信息的要求从最初的信息获取到现在的信息检索、信息挖掘,逐步加深了对信息的需求,人们对于信息的要求也在不断提高。数据挖掘技术的发展就是为了提高对信息的获取,通过对数据信息的抓取,来挖掘数据中存在的信息,使用数据分析方法进行更加深入的分析,获取潜在的意义,提供更有价值的数据。数据挖掘技术已经将统计学、人工智能和数据库等技术进行了融合,使得在海量的数据中能够挖掘出未知的数据,并使用数据挖掘算法对这些数据进行挖掘分析,增强数据的智能化。在词语相似度的计算中,首先将词语转换成word embedding,通过计算emb edding的相似度来计算词语的相似度。本文在相似度计算中,区别于word2vec的方法,减少了神经网络的训练过程,通过对同义词词林进行分析,使用词林编码对词语进行embedding的转换,在局部敏感哈希算法的向量转化过程中,将词语转换成64位的二进制,使用海明距离就可以计算词语之间的相似度。为了提高词语相似度计算的准确性,又从词林的结构特点出发,将词语在词林中的路径信息与embedding相结合,来使用词林树形结构的加权方法来实现在词林语料库下的词语相似度计算,在对比实验中获得了很好的结果。高校校园网是在互联网的发展中出现的,在校园的发展过程中起到了关键性作用,为校园的建设提供了强大的数据支持。在对高校官网校情简介数据进行挖掘分析的过程中,提出了基于短语树形结构与CilinSimHash算法相结合的短语相似度计算方法,该算法首先将短语转换成以数字为根节点的树形结构来计算相似度,其次将同义词词林与SimHash算法相结合实现了基于CilinSimHash算法的相似度计算,最后将基于短语结构的相似度方法与基于CilinSimHash算法的相似度方法加权,来实现短语相似度的计算。将该算法应用到高校官网数据分析过程中,进而对高校官网数据进行聚类分析,来研究高校官网数据与高校评价指标之间的关系;从高校官网数据中获取的结构化数据,通过聚类算法来对相关指标数据进行分析,表明高校的发展在不同办学层次下仍然是不平衡的。