【摘 要】
:
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用
【机 构】
:
上海交通大学计算机科学与工程系,上海第二工业大学,
论文部分内容阅读
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。
Web pages have a different classification from plain text because they outperform plain text files in terms of the richness of information being expressed. In response to the characteristics of online Chinese news pages, we propose a dictionary-free utility algorithm for extracting topics from Web pages. The theme of the extracted class is integrated into the knowledge base of classification, and then classified by the hybrid classification algorithm proposed by our research team. The experimental corpus is taken from the Xinhua Financial News. The experimental results show that the classification performance is improved compared with the non-use of Web page features and the full text only.
其他文献
AIM:To assess whether polymorphisms in NOD2 and ATG16L1 affect cytokine responses and mycobacterium avium subspecies paratuberculosis (MAP) survival in monocyte
AIM:To investigate apparent diffusion coefficient (ADC) values as an indication of reconditioning of acute hepatic injury (AHI) after allogeneic mononuclear bon
早在九年前,出现了互联网化概念。当时我们就说,10-15年所有的企业都将是互联网企业。当时很多人都提出质疑。但在此刻,我相信很多企业都表示赞同的。数据是新能源对于很多行
近日,2014年度全省通信行业服务工作电视电话会议在南京召开。江苏通管局苏少林局长、许继金副局长出席会议并讲话,省工商局、省物价局、省消协、省通信行协等单位负责同志,
无论是国企还是私企,班组在整个生产经营活动中都处于基础环节,是企业发展和管理控制的基层单位,也是企业文化建设的重要阵地。企业各项生产指标的顺利完成取决于班组工作完
学习成绩与智力和人格特征有密切的关系,笔者为了加强大学生心理咨询和心理卫生保健工作的预见性和针对性,对本院学生进行这方面的比较研究。1对象与方法1、1调查对象:随机抽取
我国电信行业垄断之争的实质是垂直一体化电信运营商将其在垄断业务领域的网络优势延伸至竞争性业务领域的结果。针对这种现象,功能分离和组织分离是两种可替代的解决方案,从
情境教学的教学方式是非常受小学生喜爱的,情境式的教学方法能顺应小学生的发展规律,点燃智慧的火花,滋润情感的幼芽,挖掘小学生各自的聪明才智和潜在的力量,体验获得知识的
兴趣是最好的老师。这句话撼动了笔者,于是,笔者开始思考“怎样让学生对语文课感兴趣?正当笔者一筹莫展之际,”激发学生主动发展的自主高效“课堂教学模式研究在我校正是铺开
20世纪末开始的中国经济持续高速增长和21世纪初“金砖四国”的共同崛起,引起了经济学界对“大国”的特别关注。理论界在寻觅中国经济增长和“金砖四国”崛起原因的过程中,提