基于主题型页面的正文信息抽取技术研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：NET399

【摘要】

：

Web页面信息通常包含大量无关结构和HTML标记，而页面主题信息通常淹没其中，如何快速获取Web页面主题信息。本文提出了一种抽取策略，首先判定是否为主题型页面，然后提取网页正文信

【作者】

：

万文兵

【机构】

：

仪征技师学院

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2015年1期

【关键词】

：

主题型页面网页标题正文抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web页面信息通常包含大量无关结构和HTML标记，而页面主题信息通常淹没其中，如何快速获取Web页面主题信息。本文提出了一种抽取策略，首先判定是否为主题型页面，然后提取网页正文信息，最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明：该方法能准确地完成主题型网页的正文抽取任务。

其他文献

国内硫磺市场需求回落可能性明显

国内硫磺市场分化走势愈演愈烈，各硫磺生产企业出厂价格不断上调，而各主要港口硫磺交易价格却呈现不断回落之势，对此商家心态不一，市场观望情绪依旧浓厚。从国内需求面来看，随着下

期刊

市场需求硫磺国内出厂价格生产企业化肥市场

AIA公布2016小项目奖

美国建筑师学会（AIA）日前评选出了2016年7个小型项目获奖者。这些建筑公司因为设计出了如此优秀的小型建筑项目而让人们记住了他们。今年获奖者被分为两类：第一类是“针对单个小

期刊

小项AIA建筑设计建筑项目建筑公司环境艺术获奖者建筑师

做好小学图书室“五服务”工作

小学图书室的基本任务,就是为教师的教育、教学服务,为提高教育质量服务。回顾我校图书室建成9年来为教育、教学所发挥的效能,可归结为“五服务”。一、为教师备课、上课服

期刊

图书室科学研究小学教育质量教学服务教师教学各科教学理解教材教师备课效能

混合的味道意大利卡利亚里某建筑师工作室

卡利亚里位于意大利撒丁岛南部卡利亚里湾的北端,是撒丁区的首府,也是意大利著名的港口城市。从公元前开始,这里先后经历了腓尼基人、迦太基人和罗马人的统治,漫长的历史演变

期刊

卡利亚里撒丁岛迦太基人历史人文资源腓尼基人教堂建筑摄影作品等候区办公空间工作区

转角的牛棚日本Koyn办公室

Koya是一间IT公司的卫星办公室，坐落于东京德岛的神山町。这个远离东京市区的偏远地带是个真正的农村，全然没有大都市的繁华景象，甚至比较荒凉。办公室的选址也让人大跌眼镜，是一

期刊

办公室牛棚转角日本IT公司地理条件工作压力电子设施

创意源于掌控自然Arda安德厨电2016年新品亮相上海国际厨卫展

6月1日，始终致力于创新突破的整体厨房解决方案提供者Arda安德厨电，在此届上海国际厨房卫浴展上欣然向国人发出邀请，一起探索自然之力，领略创意之美：创意源于掌控自然。

期刊

自然创意国际上海厨卫整体厨房提供者卫浴

中等卫生学校期刊采购工作的做法与体会

<正> 我校是一所中等卫生学校,经过多次评估,被确定为省部级重点学校。近几年来,为了提高学校的档次,与山东医科大学联合办学,开设了临床医学检验、护理大专班。中专教育开设

期刊

中专图书馆藏书建设期刊采购工作科技期刊期刊选择

我国大锯片基体市场分析

期刊

锯片大锯片基体市场中国

人类细菌易位与肠内营养：——一位“旁观者”的观点

有关危重病人的脓毒血症是源于肠道内细菌这一问题已引起临床医师的广泛关注，肠内细菌为什么会成为全身性感染的致病菌是当今研究的重点。对多器官功能衰竭（ＭＯＦ）是细菌易位的原因还

期刊

肠外营养肠内营养细菌易位

关于触媒熔点与金刚石合成条件问题的探讨

期刊

人造金刚石催化剂熔点合成

基于主题型页面的正文信息抽取技术研究

其他学术论文