面向Web的新闻网页正文信息抽取策略研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wwbywbytc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正文中与主题相关的链接。
其他文献
通过立式旋转钝化机对硬质合金立铣刀进行刃口钝化,研究了钝化速度、钝化时间、磨粒粒度、磨粒类型等钝化参数对钝圆半径的影响规律,采用数学回归方法建立钝圆半径的数学模型
本报讯(记者谭迎春)北国初春,乍暖还寒,冰雪尚未消融的龙江大地吊塔林立,机器轰鸣,早早吹响了项目开复工的号角。2010年是我省大项目建设乘势而上的决战年,围绕民生工程项目、基础设
报纸
本文提出了一种基于ASP技术的学生管理系统,利用ASP+Access+Excel技术,可以实现教师异地实时的管理学生信息,分析有关数据并自动生成各种图表.提高学生管理工作的效率和灵活性.解决
教学目标:1.让学生理解剪纸的原理,能够剪出连续的对称图案。2.通过观察图形的形成过程,找出规律,初步培养学生的抽象思维,帮助学生建立初步的空间观念。3.在剪纸活动中,注意
Portal(门户)是企业目前最主要的网络构架形式,随着企业信息化建设的深入发展,portal技术得到广泛应用。本文从企业门户(Enterprise Portal)概念入手,在分析飞行试验院实际业