网页信息智能采集与个性化服务系统的研究与实现

来源 :河北工业大学 | 被引量 : 6次 | 上传用户:jake9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在全球的快速发展,网上的信息每天都在呈指针数级的增长,用户可以在网上获得越来越丰富的信息资源。但是,随着信息类型日渐多样化,如何快速、准确找到自己感兴趣的信息成为困扰用户的难题,原始的信息获取方式在很大程度上已经不能满失足用户的个性别化需求,以用户为中心的个性化信息采集与服务模式已成为当前研究的热点之一。本文研究与实现的系统将信息采集技术与信息服务技术相结合,通过信息采集技术获取互联网上的实时信息,为信息推送服务提供数据源,再根据不同用户的需求,创建用户的兴趣模型,以多种方式为用户提供专属的信休息服务。本文采用广度优先遍历算法结合网址的筛选策略(包括爬取深度、网址处理范围和网址URL格式等)设计并实现了一款高效、实用的网络爬虫,通过并行处理方式进行URL地址的爬取,极大的提高了爬取效率。在信息抽取技术中,结合网页信息的特点采用了基于模板的网页信息抽取技术,将网页上非结构化的信息提取转化为结构化的信息保存到数据库中,经过信息的去噪和分类等后期处理、加工,为用户提供个性化服务的数据源。在个性化信息推送部分,采用用户主动定制和系统自动分析相结合的用户兴趣模型生成方法,通过显示和隐式两种方式获取并分析用户兴趣,建立更加准确的用户兴趣模型。最后,利用信息主动推送技术,借助多种推送方式,如网页、邮件、短信等将信息传递给用户,为用户提供更加实时、高效的个性化信息推出送服务。
其他文献
针对传统 C4.5 决策树算法在处理含有大量噪声和多值属性的大型复杂数据库中的多维度数据集分类问题时决策树分类响应时间长、准确度低的问题,提出了一种新的剪枝算法—CDC算
公司或组织为了在遗留系统的基础之上,进行业务需求变更带来的持续迭代和改进,或者实现向新系统的迁移,并降低这一过程可能引起的不可预期的副作用,比如业务丢失等,需要仔细
近年来,信息技术高速发展,海量的文字、图片、音频、视频等数据随之产生,大数据的研究亦随之引起广大学者重视,其中分布式数据库的研究就是热点之一。在分布式数据库中查询是最频
网络摄像头应用的不断拓展,使其不仅在娱乐领域,在更多的专业领域都有着独特的应用,这样的背景下开发网络摄像头应用软件的需求也不断增多。如何快速开发出质量好、功能完善
随着全业务运营的到来,各运营商对市场和客户的争夺越来越激烈,而为企业贡献较高价值的中高价值客户,由于其对企业服务能力与业务特征相对最了解,也成为了各大运营商抢挖的对象。
版本控制软件是软件开发和管理过程中必备的工具,近几年托管型的版本控制软件服务越来越流行。版本控制软件一般分为三个模块:服务器,软件开发工具配套的插件,以及配置管理工
本文针对一种新型的字符二维条码图像进行识别研究。与传统图形二维条码的符号结构不同,字符二维条码由英文字母组成,故在识别过程上也有很大的区别。本文主要针对课题组研究
多投影技术在许多领域得到了广泛的应用,但多投影系统的构建以及维护过程复杂。投影仪位置的临时变动需要打断连续的展示过程对系统进行二次校正,展览过程中灯光以及环境光的
k-匿名隐私保护模型已经成为数据发布者可信的隐私保护模型。然而,受隐私保护要求的制约,即使最优的k-匿名算法,产生的数据也将十分不精确,正因为这种不精确导致了数据可用性
VoIP的日益普及使得其安全问题变得重要起来,对此国内外学者提出若干安全机制,例如S/MIME、SRTP、MIKEY、ZRTP等。这些安全机制为VoIP数据流的传输提供了一个安全通道,实现了