【摘 要】
:
随着Internet的快速普及,Web已经成为世界上最大的资料库,给我们日常生活和学习带来了很多便利,同时由于Web内容难以规范管理,Web上存在越来越多的内容不规范的网页,这些不规范网
论文部分内容阅读
随着Internet的快速普及,Web已经成为世界上最大的资料库,给我们日常生活和学习带来了很多便利,同时由于Web内容难以规范管理,Web上存在越来越多的内容不规范的网页,这些不规范网页引起了许多社会问题。为了净化网络环境,本文提出一种基于内容的Web监控方式,该方式在不影响正常网络通讯的情况下,将Web的主题内容提取出来然后进行聚类、分类处理,可以做到基于内容的自动类别识别,解决了目前常用的基于关键词过滤和URL访问列表进行监控时遇到的难题。
为了避免相同网页的重复处理,本文设计一种针对URL的哈希函数SimHash,该函数可以快速查询一个网页是否需要处理,通过实验验证,该函数具有较高的可用性。
针对Web上存在过多的镜像网页,消除镜像网页对于Web内容监控来说可以有效提高处理速度和降低存储空间。本文提出一种基于噪音去除和特征码相结合的方式来消除镜像网页,实验结果表明,该方法针对主题内容相同的镜像网页具有很好的判断能力。
汉语信息处理需要进行汉语分词处理,由于Web上新词出现比较频繁,而且人名词比较多,这些未登录词都对汉语分词了提出一定的挑战,本文结合计算所的开放分词源码,采用重复子串扫描来进行新词的识别,可以有效解决新词识别问题。
汉语分词程序需要频繁访问分词词典,词典的性能已经成为分词程序的瓶颈,本文设计一种动态TRIE索引树的汉语分词词典,通过实验验证,该词典具有较高的性能。
文档聚类可以将大量文档进行内容相似性汇聚,由于Web内容监控需要处理的文档数量比较多,而且文档是动态增加的,传统的聚类算法难以满足本文需求。本文提出一种GFGC快速聚类算法,通过实验验证,该算法可以满足Web内容监控的需求。
文档分类可以进行有倾向性的文档类别识别,本文提出一种等效半径和KNN相结合的分类算法ERKNN,该算法解决了KNN算法难以处理大批量文档的缺陷,实验结果表明,该算法具有KNN的准确率而且具有接近向量夹角的速度,可以满足Web内容监控的需求。
其他文献
随着卫星、雷达等高科技的快速发展,分析测试系统的复杂度与性能也不断提升,具备高速高精度、功能丰富、数据深存储及处理等特点的分析系统得到了广泛关注和应用。对大容量数
便携式X荧光能谱仪是现代光谱仪的主要发展方向之一,而成为当前国内外的研究热点。本文主要目的是依据国内现有的技术及研究基础,架构一种便携式管激发X荧光能谱仪,常温下测量部
氧化铝陶瓷材料具有高的硬度、耐腐蚀、耐高温、耐磨损等优点,在微机电系统中有广泛的应用前景。预烧结是指在低于完全烧结的温度下进行的烧结。本文在预烧结陶瓷坯体上加工
在本文中我们结合压电效应与摩擦效应的各自特点,提出一种同时利用压电电势与摩擦电势结合的方法,以获得一种面向能量采集的,对环境友好的低阻抗、高输出电压、高输出功率的复合薄膜(P-TENG)。具体来说,在该结构的设计过程中我们利用表面具有金字塔状摩擦结构的PDMS(聚二甲基硅氧烷)薄膜来增强器件的输出性能。同时,我们在薄膜的制备过程中掺入压电钛酸钡纳米颗粒(BTO,平均粒径30nm)和多壁碳纳米管(M
目前,前方车辆检测方法可以分为基于车辆特征的方法、基于学习的方法以及基于光流场的方法等。基于学习的方法鲁棒性较强,但需要选择大量的车辆和非车辆样本对分类器进行训练;基
高速滑动电接触是随时间变化的瞬态电接触,每个时刻的电接触状态都是不同的,在电气化铁路系统、航空航天等领域中的某些部位都存在动态电接触的行为。高速滑动电接触元件及接触面流过大电流的电接触问题属于特殊条件下的大载流摩擦磨损问题。由于大电流及滑动摩擦的存在,接触元件因为接触而形成的接触面上将产生多种热量,进而导致了接触面及元件温度的升高。温度的上升使元件软化甚至熔化变形,使元件处于更有利于损伤形成的状态
在化工、锅炉、电子冷却装置、核反应堆等工业过程中,两相流动现象普遍存在着,其应用价值随着相关技术的逐渐成熟而有所提升,而且随着多相流的重要性越来越明显使得学术界对其展开了深入系统的研究,对于很多行业的发展具有很大的意义。现阶段得到业界广泛认可的流量计主要是差压式流量计,这种流量计的优点在于稳定性强,因此国内外专家围绕差压流量计建立了一系列经典的两相流测量模型,不过从这些模型实际应用效果来看还存在一
北京正负电子对撞机重大改造工程BEPCⅡ控制系统采用分布式体系结构,使用实验物理和工业控制系统EPICS进行开发。BEPCⅡ是大型加速器控制系统,前端控制计算机采用运行VxWorks实
嵌入式设备凭借其性能高、体积小、低功耗等优点出现在我们生活的方方面面中。同时,随着互联网迅速普及,嵌入式设备与互联网的结合成为了嵌入式设备发展的一种趋势,并成就了
涡流板型切割磁铁是第三代同步辐射装置普遍采用的一种切割磁铁,它需要高精度大功率的快脉冲电源来激励。随着加速器性能的不断提高,尤其是Top-up注入模式的采用,对切割磁铁磁场