博客社区发现及其主题抽取技术的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cnreon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的高速发展推动了电子商务的崛起和发展,电子商务帮助众多企业赚取了高额利润,也深深地改变了人们传统的生活方式。但是,如何制定有效的网络营销方案更好地促进电子商务的运作成为众多电子商务企业的难题。而Blog作为Web2.0的典型应用,通过频繁的链接及评论回复等交互方式形成了庞大的社会网络,且Blog是人们思想行为在网络虚拟社区中的体现,因此快速有效地发现具有明确主题的Blog社区,有利于企业制定合理的营销方案,实现精准的网络营销,达到利润最大化目标,具有重要的现实应用价值。目前,基于链接分析的社区发现算法存在诸多缺陷,且发现的Blog社区不具有主题信息,无法反映社区的兴趣点。针对上述问题,本文研究工作主要如下:(1)确定了链接分析和内容分析结合发现Blog社区及主题抽取的整体思路。(2)介绍了Blog的基本概念、Blog链接和页面数据模型以及成熟的社区发现算法。比较了Blog社区发现算法的优劣,确定了将拖网算法作为本文研究的基础算法。(3)提出了“基于FCA的Blog社区发现算法”。该算法通过概念格的代数消解对社区核心进行划分及合并,有效解决了拖网算法中严格的社区定义所导致的发现社区数量过多、社区间重复率过高以及社区内容贫乏等缺陷。(4)提出了“基于LSA的Blog社区主题抽取方法”。该方法对Blog社区内容TF-IDF特征抽取之后进行LSA降维处理,并提出奇异矩阵自动k值截取方法和大矩阵自动分割方法,提高了该方法的准确性和效率,凸显了Blog社区的主题信息。(5)在Blog社区发现算法和主题抽取技术的基础上,结合异步网络爬虫技术,设计并实现了拓展性更强的Blog社区发现原型系统。
其他文献
记得文化大革命前,报刊上出现过一些署名“×××讲”、“×××口述”的文章。近十多年来,这类“口述”文章很少见了。给报刊投稿,不仅仅是有文化和会写文章的人的事,没有
期刊
文化产业是以创意为核心,以文化为灵魂,以科技创新为支撑,以知识产权的创造和运用为主体的智慧主导型和知识密集型战略产业,它已不仅仅是一种理念,而是知识经济体系中的重要组成部
南充地区“7753—5”红苕良种技术推广联合体为了确保红苕新品种的安全贮藏,去秋在11个县(区)分片设立36个窖贮点,采用大屋窖、大数量集中收贮加托布津处理种苕新技术,共集
专业市场是我国所有的一种特殊的商业业态,对区域经济的增长与集聚、生产与消费的流通活动甚至于城市化和社会生活产生了重要作用。但随着外部经济环境的变化,专业市场的地位和
人类已进入了一个知识经济的时代。随着知识经济时代的到来,知识已经成为比劳动力、资源、技术更加重要的经济因素。在知识经济的环境下,企业的生存环境和发展环境也在不断变化和更新,知识已经成为了环境因素的主要导向,企业正面临着来自不断变化的内外部环境的挑战。企业要想跟上时代的脚步,在激烈的竞争环境中获得一席之地,就必须拥有知识,而固有的陈旧的知识并不能让企业在残酷的竞争中获胜,与时俱进的知识才是企业的动力
优质服务是成功经营服务业的关键。服务组织经常追求零缺陷服务作为理想目标。然而,服务失误在现实中很难避免。当顾客感知到服务传递没有达到他们的预期时,服务失误就发生了。
车辆路径规划是快递企业一项重要的日常管理工作,其规划结果不仅会直接影响企业运输成本,更会影响对客户需求的响应速度。依靠传统人工方式难以保证规划结果的质量,而当出现动态
Based on sea level, air temperature, sea surface temperature(SST), air pressure and wind data during 1980–2014,this paper uses Morlet wavelet transform, Estuar
汨罗县红花公社上茶场,是1966年开办的。现有茶园308亩,其中采摘面积250亩。由于他们科学种茶,精培细管,从1977年以来,茶叶亩产都在两百斤以上。今年(1983年)虽遇上了历史上
乌鲁木齐县是新疆维吾尔自治区首府乌鲁木齐市唯一的市辖县,由汉、回、哈、维等25个民族组成,总人口17万人.乌鲁木齐县县属二工、大湾、七道湾、地窝堡等4乡均在城市建成区内