POI中文地址模糊匹配技术研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wxthaoa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着电子商务和众包技术的迅猛发展,用户产生的地址数据呈现爆炸性增长。在各种基于位置的业务(如外卖服务和快递)中,地址匹配是一项至关重要的任务,其目的是识别地址数据库中具有相同位置的地址。由于中文地址表述有很多可能的方式,所以这是一项具有挑战性的任务。传统的地址匹配方法依靠字符串相似性和学习匹配规则来识别同一位置的地址,然而很难解决地址冗余,地址不完整或地址错误表达的情况。针对以上问题,本文研究了数据采集、文本嵌入、地址匹配等技术,实现了POI(Point of Interesting)中文地址模糊匹配系统,具体内容包括以下几个方面:1.为了学习地址字符串的地理语义表示,本文提出了通过搜索引擎从网络获取丰富的地址上下文,这可以极大地丰富可以学习的地址语义。2.本文提出了一种基于句子嵌入的地址匹配算法。该算法使用编码器-解码模型来学习每个地址字符串的语义向量表示,并且注意机制也被应用到模型中,用来突出地址在语义表示中的重要特征。3.更进一步,本文还提出了基于图嵌入的地址匹配算法,该算法把地址语料库中所有的地址构造一个大图,其中包含地址要素节点和地址节点,节点之间的边的权重是通过学习词语之间的共现信息得到。然后通过训练图神经网络得到图上所有节点的嵌入表示。本文在两个真实的地址数据集上进行实验。实验表明,相比以前的方法,本文提出的方法大大提高了准确率(高达8%)和召回率(高达12%)。4.实现了一个自动进行模型训练和地址匹配的系统,能够更好展示实验结果和更方便在其他数据集上做实验。
其他文献
高校图书馆勤工助学工作是图书馆服务工作不可或缺的主要组成部分,在图书馆工作中发挥积极作用。信息化环境下如何调动学生积极性、提高图书馆的工作效率、节约成本、提升图书
目的探讨腹主动脉球囊阻断术在凶险性前置胎盘并胎盘植入患者剖宫产术中的临床应用。方法回顾分析65例凶险性前置胎盘并胎盘植入患者的临床资料。全部患者均于剖宫产术前在介
一、关于企业所得税问题问:税改对企业所得税制做了哪些重大改革?答;1.统一了税种。将原《国营企业所得税》、《集体企业所得税》、《私营企业所得税》由一个税法来替代,即《中华
犬细小病毒是自主复制型病毒的一个成员,主要引起狗的肠炎和心肌炎,整个基因组是单链线形约5323个核苷酸,有2个主要的开放阅读框架。
机载LiDAR获取点云数据具有快速、高效和高精度的特点,以此为基础制作的DEM数据具有表达地貌细微、精度高的特性。本文以白城地区基础测绘DEM制作项目为例,探讨了LiDAR数据的获取、处理及以此为基础制作高精度DEM过程中的关键影响因素,以及解决方法。为推动"十三五"期间,利用现有的基础测绘现代化高新技术装备——机载激光扫描系统,完成吉林省LiDAR航摄生产1∶10 000 DEM及地貌测绘工作提
浮动车数据(Floating Car Data,FCD)已广泛应用于城市规划、智能交通系统中,其中地图匹配一直以来都是浮动车数据应用的技术难点。本文在已有地图匹配算法的基础上,提出了基于点序列和要素加权法的地图匹配模型,不仅考虑了当前GPS点的信息,同时也考虑了GPS数据的历史信息和道路网的拓扑结构,从空间关系上分析车辆行驶轨迹和道路的相似性。作者通过上海市出租车轨迹数据对算法进行验证,结果表明:
<正>一座城市积极招揽人才,是为这个城市的未来投资,彰显了城市管理者的深谋远虑。去年1月,西安市出台了"史上最宽松"户籍新政,5月出台23条人才新政,11月成立招财引智委员会,