基于Word2Vec的中文地址匹配

来源 :武汉大学 | 被引量 : 4次 | 上传用户:jinr0op8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代下的地址数据质量参差,存在错误或不完整信息,地址文本本身难以直接参与计算机模型的数值计算,传统地址匹配方法仅从文本字面解析地址,计算效率低且匹配准确性较差,非标准地址数据的匹配问题亟待解决。针对中文地址的本质和结构特征,结合自然语言处理领域在文本理解技术方法上的突破和创新,本文基于Word2Vec的词向量训练结果采用了多种地址向量化方法和相似度度量方法,探讨适用于非标准地址数据的无监督地址匹配方法以及各自在不同类型数据上的匹配能力。本文的主要研究内容如下:(1)以深圳市地址数据集为实验数据源,利用来自互联网的地址词典作为分词工具的辅助数据,提升中文地址分词准确性;(2)将地址语料库输入Word2Vec获得训练后的词向量,在此基础上,考虑地址的组成词语特征和结构特征,采用要素均值、幂均值、TF-IDF加权平均和SIF嵌入法获得不同方法下的地址句向量表示结果;(3)结合余弦相似度、Jaccard相似性系数以及从词语层面计算的WMD相似度这几种方法衡量非标准地址与对应的正确标准地址间的相似程度,并设计地址检索匹配的评价指标来分析和验证不同方法下的匹配质量。最终实验结果表明,从词语层面采用WMD相似度方法对非标准地址数据的匹配具有较高的准确率和可靠性,同时,要素均值结合余弦相似度的组合方法具备良好的计算效率和匹配能力。基于Word2Vec的地址匹配是兼顾了中文地址表达语义的、高效的匹配方法。
其他文献
各市、县、区人民政府、地区行政公署,省人民政府各工作部门、各直属机构:5月29日国务院发布的《关于基础教育改革与发展的决定》(以下简称《决定》),是国家实施"十五"计划纲
5—9日,全国人大副委员长成思危来陕参加第四届管理国际会议,并在延安、榆林等地考察工作。6日,副省长潘连生在省政府综合楼会见了法国国防研究委员会主席加诺夫妇一行。6—1
海湾是一面为大海,其他三面环绕陆地的海洋水域。采用合理的方法研究海湾,对于海湾的综合利用开发意义重大。采用数值模拟的方法,对两种不同类型的海湾的动力地貌特征演变进
选育单位山西省农业科学院高寒区作物研究所品种来源1998年以晋薯7号为母本,7xy.1×R22—3—13为父本进行杂交,从杂种后代中系选而成。原名同薯21号。
随着全球淡水量的日益减少,工业用排水政策逐步缩紧,越来越多的企业开始在提高水源重复利用率上做工作,膜浓缩工艺的应用越来越广泛,随之而来的就是浓水处理的问题,水源经过
本文通过对大学生基础文明建设"幼儿化"现象及原因的分析和对大学生基础文明建设"幼儿化"尴尬处境的反思,提出了改变大学生基础文明建设"幼儿化"现状的对策。
<正>汪曾祺先生的《胡同文化》一文最早是为摄影家沈继光先生的摄影展《胡同之没》写的序,这从该文末尾那句"看看这些胡同的照片,不禁使人产生怀旧情绪,甚至有些伤感"即可看
随着城市居民中长距离的出行占比越来越高,城市居民更多的采用私家车出行,或者采用出租车、专用车、滴滴快车、滴滴顺风车等轿车出行。但是,这引发了城市交通拥堵以及一系列的交通问题。为了缓解城市交通拥堵,需要抑制轿车式出行方式。发展城市公共交通、提高城市公共交通出行体验,是抑制城市轿车出行一种有效途径。当前城市公共交通存在很多问题,公交出行体验较差,如需要等车、换乘、换成距离较远,公共出行需要的时间也较长
《水浒传》自问世以来,不同的学者针对其宗教、侠义、历史等不同的角度进行深层次的探究。本文将以《水浒传》中的两个典型人物——李逵和武松为例,从集体无意识的角度去探讨
自二十世纪初年始,中国的历史书写传统经历了一场巨变。继1902年梁启超发表《新史学》,号召“史界革命”之後,顾颉刚在1920年代发起的“古史辨”运动,改变了中国人对自身历史的看