【摘 要】
:
互联网的迅猛发展带动了网络应用的快速增长,互联网为用户提供了种类繁多的网络业务,并不断满足网络用户的各种需求。每天都会产生海量的数据信息,过滤不良信息,筛选有用的信
论文部分内容阅读
互联网的迅猛发展带动了网络应用的快速增长,互联网为用户提供了种类繁多的网络业务,并不断满足网络用户的各种需求。每天都会产生海量的数据信息,过滤不良信息,筛选有用的信息,具有重要的研究价值与工程意义。本文致力于网络应用的业务重组与内容提取的研究与实现,主要工作内容包括三个部分,网络业务重组设计与实现、基于正则表达式的论坛社区应用的内容提取与安全审计、基于DOM树的网页内容提取与分析。本文首先介绍了HTML语言、DOM模型以及涉及到的报文采集技术,数据包重组技术等关键技术。其次,设计与实现了网络业务重组过程,其中介绍了数据包重组过程,并使用了libnids开源库实现了TCP会话重组,并对HTTP数据进行了压缩解码与块解码,得到了web页面。再次,采集几十种热门论坛通信数据,通过分析得到了几种常用的论坛通用系统,并提取了论坛识别特征,提出了论坛指纹概念,优化了传统的论坛审计方法。最后,结合网页特点与提取信息的特征,提出了基于DOM的网页提取方法:对网页进行预处理,选择标签作为网页提取特征,通过构建DOM树,实现了对网页内容的快速提取。通过这个方法完成了网络办公管理服务系统的软件版本跟踪模块,并分析了网页特征提取方法与网页特点。
其他文献
该文就断层成象算法方面开展了以下几方面的研究工作:(1)文章还回顾了人工神经 网络发展的历史,详细介绍了BP网络和Hopfield网络的结构与功能以及如何利用神经网络解决实际问
该文通过对自适应信号处理及自适应阵列理论的研究,采用豪韦尔斯一阿普尔鲍姆自适应干扰对消原理为理论依据,开发设计了自适应四元阵天线系统.系统采用高速单片数字信号处理
肺结核是严重威胁人类健康的疾病之一,在传染病发病网络报告中,肺结核病发病和死亡人数始终位居各种传染病前列。目前,在临床医学诊断中,仍然采用医生阅读肺部影像的诊断方式。然而,病患数量过多会导致放射科医生的工作任务重,压力大,且诊断效率低。因此,应用计算机做出辅助诊断成为了时下研究的热点问题。本课题设计并仿真实现了一个应用在肺部X线摄片的肺结核的自动诊断系统,取得了较高的诊断准确率。诊断系统包括肺实质
该文对码分多址反向链路的接收技术进行了研究.首先分析了陆地蜂窝移动通信系统的信道特性,提出了计算机仿真多径衰落信道模型,然后遵照IS-95协议,在该模型上实现了反向链路
小学的作为写作指导是分阶段进行的,在写作指导过程中,应该全面考虑到学生的写作知识的学习、生活阅历以及身心发展规律等。小学五年级的学生身心发展比较稳定,生活的情感体验也
该文从历史和技术的角度出发,分析和概述了B-ISDN、ATM、TCP/IP以及Internet的发展历程,捋清了ATM最先从数据通信而非传统电信找到切入点的历史必然,直接指出了ATM和Internet"强
该文主要研究采用模型库技术对军用通信网络进行网络仿真和性能评估.首先,分析了通信系统仿真采用模型库技术的必要性,阐述了使用客户/服务器模式的优越性,并深入研究了军用
本研究采用文献法和调查法,从聋生身心发展特点、家庭、学校和社会四个方面深入分析聋生出走的原因,并从特殊教育学校教育和管理角度提出防范策略:帮助聋生正确认识社会和自己,认
该文综合当前对分组密码研究的大量文献和结果,主要针对分组密码的安全性问题进行讨论.首先简单介绍了分组密码的安全性要求和当前对分组密码主要的技术攻击手段,然后综合相