【摘 要】
:
网页内容分析及分类方法作为用户行为分析、兴趣识别、舆情分析等上层应用的底层核心技术逐渐成为学术界乃至工业界的热点。针对基于标签数据建立机器学习模型的传统网页分类
【机 构】
:
南京邮电大学计算机学院软件学院,南京大学计算机科学与技术系
论文部分内容阅读
网页内容分析及分类方法作为用户行为分析、兴趣识别、舆情分析等上层应用的底层核心技术逐渐成为学术界乃至工业界的热点。针对基于标签数据建立机器学习模型的传统网页分类算法已经无法适应移动互联网时代海量数据的迭代更新需求的问题,文中提出一种基于知识网络血缘关系的非监督页面分类方法。该方法以维基中文知识库作为知识网络,标定少量网络上层基础词汇和网络热词的类目体系,利用知识网络的传递性来遍历计算所有节点关键词的类目属性。文章根据中文知识网络特有的文本相似度提出血缘关系算法和相似度提权函数。实验表明这种方法能够有效地提
其他文献
根据沙坪二级水电站地形地质条件及枢纽布置,在施工导流期间采用预留岩坎作为纵向围堰挡水.现场施工过程中通过设计优化和工程加固等措施,提高了预留岩坎的整体稳定性,解决了
晚明艳情诗人王彦泓《疑雨集》中有大量无题、纪事类艳情诗,基本上完整、如实地记录了诗人生命历程中的种种艳遇。多情的诗人一生游历多地,涉及的女性有人妻、人妾、人女、尼
【正】 罗布桑却丹是我国近代蒙古族的一位精通多种语言勇于探索真理并致力于社会改革的学者。 罗布桑却丹的名著《蒙古风俗鉴》(内蒙古人民出版社1981年9月第一版,蒙文版。
某综合性医院污水处理站改建工程结合实际情况和《医疗机构水污染物排放标准》的相应要求,强化医院特殊排水分类收集预处理、污水处理站的废气、污泥处理。工程采用“特殊废
对市政道路桥梁工程施工管理中存在的问题展开分析,提出具体解决策略,以期为我国市政道路桥梁工程的发展提供有力参考。
以对叔丁基苯乙腈为原料,经酯化、酯交换得到中间体2-(4-叔丁基苯基)-氰基乙酸(2-甲氧基)乙基酯(Ⅰ);邻三氟甲基氯苯发生格氏反应后,通入二氧化碳得到邻三氟甲基苯甲酸,经氯化亚砜氯化
基于国际综合大洋钻探计划(IODP)346航次在日本海西南部钻取的U1430站位的沉积岩芯样品,通过粒度、扫描电镜-能谱(SEM-EDS)、粘土矿物、地球化学(Sr-Nd-Pb同位素和黑炭碳同位素组
目的建立高效液相色谱法(HPLC)测定盐酸普鲁卡因溶液中盐酸普鲁卡因的含量。方法色谱柱为Agilent Eclipse XDB-C_(18)(4.6 mm×150 mm,5μm);流动相为0.1%庚烷磺酸钠0.05 mol/L
本文对电视机用开关电源有关波形进行分析,并介绍了有关元器件热耗的测试方法。同时,对两种不同的稳压电源电路进行了分析对比,并提供了一些实验数据。
生物质经济时代正在到来.生物质产品正冲击着石油资源精细化学品以及其他石油资源化学品.介绍了一些具有代表性的,在世界范围内可规模生产应用的并且受到广泛关注的生物质精