面向高校官网的数据挖掘方法研究

被引量 : 0次 | 上传用户:lukesong123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的发展是在互联网发展的基础上逐渐产生的,对于信息的要求从最初的信息获取到现在的信息检索、信息挖掘,逐步加深了对信息的需求,人们对于信息的要求也在不断提高。数据挖掘技术的发展就是为了提高对信息的获取,通过对数据信息的抓取,来挖掘数据中存在的信息,使用数据分析方法进行更加深入的分析,获取潜在的意义,提供更有价值的数据。数据挖掘技术已经将统计学、人工智能和数据库等技术进行了融合,使得在海量的数据中能够挖掘出未知的数据,并使用数据挖掘算法对这些数据进行挖掘分析,增强数据的智能化。在词语相似度的计算中,首先将词语转换成word embedding,通过计算emb edding的相似度来计算词语的相似度。本文在相似度计算中,区别于word2vec的方法,减少了神经网络的训练过程,通过对同义词词林进行分析,使用词林编码对词语进行embedding的转换,在局部敏感哈希算法的向量转化过程中,将词语转换成64位的二进制,使用海明距离就可以计算词语之间的相似度。为了提高词语相似度计算的准确性,又从词林的结构特点出发,将词语在词林中的路径信息与embedding相结合,来使用词林树形结构的加权方法来实现在词林语料库下的词语相似度计算,在对比实验中获得了很好的结果。高校校园网是在互联网的发展中出现的,在校园的发展过程中起到了关键性作用,为校园的建设提供了强大的数据支持。在对高校官网校情简介数据进行挖掘分析的过程中,提出了基于短语树形结构与CilinSimHash算法相结合的短语相似度计算方法,该算法首先将短语转换成以数字为根节点的树形结构来计算相似度,其次将同义词词林与SimHash算法相结合实现了基于CilinSimHash算法的相似度计算,最后将基于短语结构的相似度方法与基于CilinSimHash算法的相似度方法加权,来实现短语相似度的计算。将该算法应用到高校官网数据分析过程中,进而对高校官网数据进行聚类分析,来研究高校官网数据与高校评价指标之间的关系;从高校官网数据中获取的结构化数据,通过聚类算法来对相关指标数据进行分析,表明高校的发展在不同办学层次下仍然是不平衡的。
其他文献
针对永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)永磁体磁链为常数的特点,本文对其d-q轴模型进行分析,结合滑模控制原理,研究了永磁同步电机的滑模观测无传感器
柴油发电机组和UPS一样也可以并联运行,并且这种技术已在许多部门得到广泛应用,文中介绍柴油发电机组并联运行的技术条件、调控模式及应用实践。
农业作为我国的第一产业,对于我国的经济、社会发展具有至关重要的作用.加入世贸组织后,我国农业面临经济一体化带来的冲击与挑战.文章从这一背景出发,论述了我国应在遵循协
2006—02-2009—06,笔者运用中西医结合疗法治疗糖尿病肾病(diabetic nephmpathy,DN)32例,并与单纯西医治疗32例对照观察,结果如下。
艾萨克·阿西莫夫是科幻史上举足轻重的人物,美国科幻小说黄金时代的“三巨头”之一,他的勤奋写作给我们留下了一批科学文学著作的宝藏,但是笔者发现目前对他的作品中译本的
目的探讨营养预后指数与接受替吉奥联合阿帕替尼治疗的晚期三线结直肠癌患者的疗效的相关性。方法回顾性收集接受阿帕替尼联合替吉奥治疗的43例三线结直肠癌患者的临床资料,
首先给出能力开放架构的现状,描述能力开放平台与其他系统的交互接口和功能架构,并给出重定向访问和代理访问两种能力调用模式。
为工业级用户提供高效可靠的动力及节能应用解决方案,一直是台达发展的重要方向。台达于10月17日19日出席北京国际风能大会暨展览会,为业内客户提供更智能、环保以及高效的工
针对电网供电系统存在用电负荷和电能供应不平衡问题,设计了超级电容器储能系统。对设计的超级电容器储能系统两种工作模式(充电储能模式和放电释能模式)进行了介绍,对超级电
目的建立含当归、川芎中成药中藁本内酯的薄层色谱(TLC)、高效液相色谱(HPLC)检测分析方法。方法选择常用16种含当归、川芎的中成药,系统建立其藁本内酯TLC定性检测以及HPLC定量