【摘 要】
:
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作
【基金项目】
:
国家自然科学基金(No.61572079);北京市教育委员会科技计划一般项目(No.KM201711232018)
论文部分内容阅读
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作量、扩展性和准确率之间的平衡问题,提出一种商品网页规格信息自动抽取方法TSAE(Title Seed Automatic Extract),采用无监督的学习方法,以网页标题为种子,结合统计特征、自然语义和机器语义,在减少工作量、提升扩展性的同时,达到了较高的准确率。实验表明,TSAE方法在提供更好的自动化抽取效果的同时,具备良好的性能和扩展性,能够支撑海量数据处理,具有良好的实用价值。
其他文献
目的:观察芪葛丹红汤治疗冠心病稳定型心绞痛的疗效。方法:72例患者随机分为治疗组和对照组,分别采用芪葛丹红汤和西药治疗4周后,观察两组治疗心绞痛的疗效。结果:两组治疗后心绞
从土肥水管理、整形修剪、病虫害防治、中耕除草4个方面介绍了行道树的养护与管理技术,以供借鉴。
在漫画国际化和产业化的大趋势下,中国漫画如何形成并强化自己的特色,论文通过传统国画与工笔漫画的典型图例对比,指出当代工笔漫画对传统国画元素的继承和创新之处,从而就前
香山隧道是苏州市中环快速路太湖度假区连接线的重要节点工程,受寿山路立交匝道深入隧道、进口下穿废弃采石场、出口下穿公墓区、地质条件复杂等众多不利因素影响,隧道设计及
目的分析下呼吸道病患痰标本中产ESBLs菌株的分布情况,并对菌株的耐药性进行分析.方法将2017年6月-2018年6月我院收治的下呼吸道感染患者的200份痰标本作为研究对象,对分离出
钢构架是锅炉的承力部件,它支撑锅炉本体的重量,并抵御地震、风及炉膛额定爆炸力等荷载。就金属耗量而言,一台300MW锅炉重量在7000多吨,构架重量约占总重的1/3,所以钢构架是
本文提出了一种基于柱状全景图的空间漫游视图拟合算法。其核心是基于固定点柱状全景图之间的空间关系并通过图像拼接技术和图像混合技术生成任意视点下图像。为实现漫游行进中视图信息的合理过渡,设计了固定视点柱状全景图分割后各部分的图像映射关系。实验证明该漫游策略可以满足虚拟漫游的实时性要求,同时具有规模扩展性。
信息论是数据挖掘技术的重要指导理论之一,是决策树算法实现的理论依据。决策树算法是一种逼近离散值目标函数的方法,其实质是在实例学习的基础上,得到分类规则。本文简要介绍信
提出了一种基于CAN总线和RS485总线的变频器控制系统。系统设计了以C8051F040单片机为核心的智能测控仪表,通过CAN总线组成的现场网络与远程控制中心实现数据交换,接受控制中
本文主要介绍网络代理程序的基本原理,代理服务器的工作过程,TELENT协议,SOCKS5工作流程,并通过一个基本的TELNET代理程序和SOCKS5代理客户端程序来说明客户端和服务器端的实现方