数据挖掘技术在地图数据采集领域中的应用研究

来源 :对外经济贸易大学 | 被引量 : 0次 | 上传用户：wanghuaimin

【摘要】

：

【作者】

：

付璟琦

【机构】

：

对外经济贸易大学

【出处】

：

对外经济贸易大学

【发表日期】

：

2020年12期

【关键词】

：

地图数据

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

地图几乎是每一部智能手机的必备软件，它为人们提供诸如定位，导航以及检索类的位置服务，极大地改善了人们生活的便利性．但是，各地图产品在可靠性上越来越无法满足用户的需求：比如，呈现给用户已经倒闭的饭店，或导航到正在施工的路上．其根本原因是现有的地图数据采集技术无法匹配如今城市更新的速度．
　　其实，地图数据存在于互联网的各个角落．只要研究出可以从互联网数据中自动生成地图数据的模型，就满足了以低成本化以及智能化地采集地图数据的要求．这就是本文研究的主要工作：以广阔的互联网数据为数据源，利用统计学手段，借助自然语言处理技术，并结合信息处理等技术手段，实现各类互联网数据的综合、分类、关联等；将无结构或半结构的互联网数据转化为平台可识别的信息完备，结构统一的结构化地图数据．本文的研究将围绕上述工作展开，具体包括以下四点：
　　互联网数据的特点与挖掘难点．互联网数据的挖掘在很多领域发挥着重大作用，互联网中的地图数据与传统技术采集到的地图数据相比，除了地理信息和时间外，通常还包含丰富的商业信息，以及来源渠道，这些信息有助于更好地生产信息完备的地图数据．首先，本文总结并分析了互联网数据的六大特点．然后，本文按照这六大特点制定了本文研究的技术路线．该技术路线充分地考虑了互联网数据的特点及研究难点．接着本文建立了地图新闻母库，并用局部敏感哈希算法为每条新闻生成独一无二的指纹，并以此实现任意时间间隔内的地图数据增量更新；
　　互联网地图数据的提取方法．挖掘地图数据的基础问题是从人类语言的文本表述中提取有价值的信息的过程，首先，本文从计算机的角度对互联网地图数据的语言理解过程进行分析，并且总结出从互联网数据中提取地图数据的时间、位置、品牌都属于边界识别问题；然后，本文引入了善于解决边界识别问题的隐马尔可夫模型，并用现有地图数据建立地图领域词库；接着，训练隐马尔可夫模型；最后，用该模型抽取新闻内的地图数据；实验结果表明，该算法相较于其它算法准确率更高，并且发现，高质量数据的积累是决定结果优劣的关键性因素，而非算法本身；
　　互联网地图数据的检索方法，传统检索技术既无法综合描述数据，又缺乏洞察力．检索所用的关键词需要基于经验积累，因此，本文提出了一种可以自我学习关键词的模型，首先，确定业务种类：比如，品牌入驻；然后，借鉴蒙特卡洛粒子滤波思想，创建学习模型，解决数据不均衡问题；面对当前众多AI产品“有多少智能，就有多少人工”的窘境，提出了一种漏斗统计方法实现用机器自动标注数据；最后，本文总结了智能自动标注模型的设计经验并提出结合改良的频率法及逆频率法，获取特征的方式．此外，本文提出了一种可以生产综合描述性数据的地图数据融合模型；
　　互联网地图数据的自动分类，类别是地图数据最重要的属性，本文首先提出了互联网地图数据的分类模型，主要基于贝叶斯定理设计分类模型，实现基于统计学习的地图数据分类模型；接着本文讨论了模型的实现细节以及测试数据，并建立效果衡量标准用于控制学习的起止点；最后，面对“新闻语言具有进化性及突发性”这一棘手问题，提出衰减因子并设计遗忘窗口，
　　研究成果应用于众包作弊检测以及众包任务下发和地图数据生产三个方面．

其他文献

农村集体产权制度改革中农民权益保护问题研究--以J市Y镇为例

学位

我国医疗器械生产企业监管问题研究--以山东省滨州市为例

学位

重大自然灾害网络舆情政府应对研究--以寿光水灾为例

学位

乌市医务人员和居民对分级诊疗的认知及满意度研究

目的:通过对乌鲁木齐市不同级别的医疗机构进行调查,了解各级医疗机构医务人员和各社区居民对分级诊疗的认知及满意度现况,探索影响医务人员和社区居民分级诊疗认知及满意度差异的影响因素,剖析分级诊疗运行过程中存在的现实困境,为进一步推动分级诊疗制度更好的落实提供政策建议。方法:本次研究选择乌鲁木齐市10家医疗机构共计673名调查对象,其中包括1所三级甲等医院、1所二级甲等医院和8个社会卫生服务中心,在20

学位

分级诊疗

服务员休假的生产服务库存模型的稳态分析及最优生产策略

企业进行合理的库存管理既能避免供过于求，造成资源浪费，又能避免供不应求，导致顾客流失。将传统的生产型企业与新兴服务行业相融合是适应现代经济快速发展的必然选择。企业进行库存管理不仅要降低自身费用，也要满足顾客需求，同时还需要增强员工积极性。因此本论文基于不同的休假策略研究了服务员休假的生产服务库存模型。综合利用Markov过程理论、拟生灭过程理论和矩阵几何解方法给出了系统稳态平衡条件，得到了系统稳态

学位

企业经营

流体可修排队系统均衡策略分析

由于信息技术的不断发展，排队系统中经常出现顾客的到达和服务速度远比系统的状态变化（休假、故障等）过程速度快，顾客的到达间隔可以忽略不计的现象，由此建模而成的流体排队模型在计算机通信网络以及生产库存系统中的应用越来越频繁。流体排队模型中，顾客被看作连续的流体，以与系统状态（工作、休假、故障维修等）相关的速率流入和流出缓冲器。与此同时，在排队理论中加入博弈论的思想，考虑行为主体的主观能动性也是排队论研

学位

流体排队

我国融资融券制度发展对证券市场的影响

经过近十年的发展，融资融券业务无疑成为中国较为成功的金融创新之一，为中国证券市场发展做出了突出贡献，2005起，融资融券业务被提上议程，经过五年的调研和探索，最终于2010年3月31日正式启动，融资融券机制的建立意味着中国证券市场体制的进一步健全和完善，对整个金融市场的未来发展都具有重要意义。融资融券在为证券市场带来活力的同时，又受制于政策与市场的变化，同时相对普通交易，融资融券交易的业务风险程度

学位

证券市场

贷款中技术价值评估的应用研究--基于创新型医药企业

生物医药产业是中国战略新兴产业之一，具有高风险、高投入、高技术、长周期等一系列特征。近年来，在国家政策的大力支持和市场需求不断扩大的影响下，涌现出一批研发实力较强的创新型医药企业。　　由于新药研发困难，需要大量资金的持续投入，创新型医药企业在高速发展的过程中也面临着巨大的融资需求。银行贷款作为典型的债权融资工具，具有资金成本低、不影响企业经营、可获得财务杠杆等优势，因此获得银行的资金支持对创新型医

学位

医药企业

人民币汇率变化对中国在朝鲜OFDI的影响

在邓小平的领导下选择改革开放以后的中国，经济往来越来越繁多，成长成为了一个名副其实的大国。朝鲜在中国的东北部与中国国土接壤，相邻的地理位置，从古至今都保持着友好往来，现在对朝鲜来说中国是最大的贸易伙伴。2005年，人民币汇率在原有制度上做出改变，用“一篮子货币”的浮动汇率代替了原有制度。人民币在之后的几年里一直保持稳步升值状态,直至中国2013年在世界投资国中赫然排第三。随着中国企业“走出去”的步

学位

对外直接投资

中国家庭间教育支出不均衡趋势研究--以中小学课外辅导为例

近些年家庭教育支出在不断提高，虽然校内支出得到有效控制出现下降，但是家庭校外支出大幅度增加，校外支出主要有课外辅导构成，课外辅导的使用越来越普遍，而且不同家庭在课外辅导支出的差异变大，这是造成家庭教育支出不均衡的主要原因，目前关于课外辅导支出的研究主要在对其影响因素的探究上，缺少对支出均衡性的研究。本文选择使用CFPS近两年的数据进行中小学阶段的课外辅导支出均衡性的研究。首先进行对课外辅导支出相关

学位

家庭教育支出

数据挖掘技术在地图数据采集领域中的应用研究

其他学术论文