论文部分内容阅读
地图几乎是每一部智能手机的必备软件,它为人们提供诸如定位,导航以及检索类的位置服务,极大地改善了人们生活的便利性.但是,各地图产品在可靠性上越来越无法满足用户的需求:比如,呈现给用户已经倒闭的饭店,或导航到正在施工的路上.其根本原因是现有的地图数据采集技术无法匹配如今城市更新的速度.
其实,地图数据存在于互联网的各个角落.只要研究出可以从互联网数据中自动生成地图数据的模型,就满足了以低成本化以及智能化地采集地图数据的要求.这就是本文研究的主要工作:以广阔的互联网数据为数据源,利用统计学手段,借助自然语言处理技术,并结合信息处理等技术手段,实现各类互联网数据的综合、分类、关联等;将无结构或半结构的互联网数据转化为平台可识别的信息完备,结构统一的结构化地图数据.本文的研究将围绕上述工作展开,具体包括以下四点:
互联网数据的特点与挖掘难点.互联网数据的挖掘在很多领域发挥着重大作用,互联网中的地图数据与传统技术采集到的地图数据相比,除了地理信息和时间外,通常还包含丰富的商业信息,以及来源渠道,这些信息有助于更好地生产信息完备的地图数据.首先,本文总结并分析了互联网数据的六大特点.然后,本文按照这六大特点制定了本文研究的技术路线.该技术路线充分地考虑了互联网数据的特点及研究难点.接着本文建立了地图新闻母库,并用局部敏感哈希算法为每条新闻生成独一无二的指纹,并以此实现任意时间间隔内的地图数据增量更新;
互联网地图数据的提取方法.挖掘地图数据的基础问题是从人类语言的文本表述中提取有价值的信息的过程,首先,本文从计算机的角度对互联网地图数据的语言理解过程进行分析,并且总结出从互联网数据中提取地图数据的时间、位置、品牌都属于边界识别问题;然后,本文引入了善于解决边界识别问题的隐马尔可夫模型,并用现有地图数据建立地图领域词库;接着,训练隐马尔可夫模型;最后,用该模型抽取新闻内的地图数据;实验结果表明,该算法相较于其它算法准确率更高,并且发现,高质量数据的积累是决定结果优劣的关键性因素,而非算法本身;
互联网地图数据的检索方法,传统检索技术既无法综合描述数据,又缺乏洞察力.检索所用的关键词需要基于经验积累,因此,本文提出了一种可以自我学习关键词的模型,首先,确定业务种类:比如,品牌入驻;然后,借鉴蒙特卡洛粒子滤波思想,创建学习模型,解决数据不均衡问题;面对当前众多AI产品“有多少智能,就有多少人工”的窘境,提出了一种漏斗统计方法实现用机器自动标注数据;最后,本文总结了智能自动标注模型的设计经验并提出结合改良的频率法及逆频率法,获取特征的方式.此外,本文提出了一种可以生产综合描述性数据的地图数据融合模型;
互联网地图数据的自动分类,类别是地图数据最重要的属性,本文首先提出了互联网地图数据的分类模型,主要基于贝叶斯定理设计分类模型,实现基于统计学习的地图数据分类模型;接着本文讨论了模型的实现细节以及测试数据,并建立效果衡量标准用于控制学习的起止点;最后,面对“新闻语言具有进化性及突发性”这一棘手问题,提出衰减因子并设计遗忘窗口,
研究成果应用于众包作弊检测以及众包任务下发和地图数据生产三个方面.
其实,地图数据存在于互联网的各个角落.只要研究出可以从互联网数据中自动生成地图数据的模型,就满足了以低成本化以及智能化地采集地图数据的要求.这就是本文研究的主要工作:以广阔的互联网数据为数据源,利用统计学手段,借助自然语言处理技术,并结合信息处理等技术手段,实现各类互联网数据的综合、分类、关联等;将无结构或半结构的互联网数据转化为平台可识别的信息完备,结构统一的结构化地图数据.本文的研究将围绕上述工作展开,具体包括以下四点:
互联网数据的特点与挖掘难点.互联网数据的挖掘在很多领域发挥着重大作用,互联网中的地图数据与传统技术采集到的地图数据相比,除了地理信息和时间外,通常还包含丰富的商业信息,以及来源渠道,这些信息有助于更好地生产信息完备的地图数据.首先,本文总结并分析了互联网数据的六大特点.然后,本文按照这六大特点制定了本文研究的技术路线.该技术路线充分地考虑了互联网数据的特点及研究难点.接着本文建立了地图新闻母库,并用局部敏感哈希算法为每条新闻生成独一无二的指纹,并以此实现任意时间间隔内的地图数据增量更新;
互联网地图数据的提取方法.挖掘地图数据的基础问题是从人类语言的文本表述中提取有价值的信息的过程,首先,本文从计算机的角度对互联网地图数据的语言理解过程进行分析,并且总结出从互联网数据中提取地图数据的时间、位置、品牌都属于边界识别问题;然后,本文引入了善于解决边界识别问题的隐马尔可夫模型,并用现有地图数据建立地图领域词库;接着,训练隐马尔可夫模型;最后,用该模型抽取新闻内的地图数据;实验结果表明,该算法相较于其它算法准确率更高,并且发现,高质量数据的积累是决定结果优劣的关键性因素,而非算法本身;
互联网地图数据的检索方法,传统检索技术既无法综合描述数据,又缺乏洞察力.检索所用的关键词需要基于经验积累,因此,本文提出了一种可以自我学习关键词的模型,首先,确定业务种类:比如,品牌入驻;然后,借鉴蒙特卡洛粒子滤波思想,创建学习模型,解决数据不均衡问题;面对当前众多AI产品“有多少智能,就有多少人工”的窘境,提出了一种漏斗统计方法实现用机器自动标注数据;最后,本文总结了智能自动标注模型的设计经验并提出结合改良的频率法及逆频率法,获取特征的方式.此外,本文提出了一种可以生产综合描述性数据的地图数据融合模型;
互联网地图数据的自动分类,类别是地图数据最重要的属性,本文首先提出了互联网地图数据的分类模型,主要基于贝叶斯定理设计分类模型,实现基于统计学习的地图数据分类模型;接着本文讨论了模型的实现细节以及测试数据,并建立效果衡量标准用于控制学习的起止点;最后,面对“新闻语言具有进化性及突发性”这一棘手问题,提出衰减因子并设计遗忘窗口,
研究成果应用于众包作弊检测以及众包任务下发和地图数据生产三个方面.