论文部分内容阅读
地址信息与人类社会经济活动密切相关,在中国,工商、统计、公安等部门记录和保存了海量的地址信息。地理编码技术能够将包含空间位置的文本信息与空间信息建立关联,整合社会经济信息和空间信息,为社会经济信息提供定位、分析、可视化和制图等功能。从而在国民经济建设和人们社会生活中发挥不可或缺的作用。地理编码(GeoCoding),又称地址匹配(address-matching),是将文字描述的地址信息映射到地理空间中的过程,这个过程完成了具有空间位置的文字地址到地理坐标的定量转换。地理编码的核心是基于自然语言处理技术的地址语义解析和地址匹配。因此如何利用自然语言处理技术完成地址精确解析,并利用解析成果进行地址匹配是提高地理编码准确性的关键。本文以非规范中文地址为研究对象,将条件随机场模型运用到地址解析中,对地址中的空间关系进行总结并应用到地址匹配中。为非规范中文地理编码找到一条可行途径,也为中文文本空间信息处理、自然语言空间查询等研究提供了理论和技术借鉴。论文主要研究内容包括:1.通过介绍地理编码的需求背景和应用领域,阐述了本文的研究背景和研究意义;从地址标准规范、地址模型、地理编码系统构建和地理编码方法四个方面分析了地理编码的研究现状;针对存在的问题确定了本文的研究内容和研究思路。2.阐述了地理编码的概念和一般过程,指出地理编码中两个核心过程——地址解析和地址匹配;总结了地址解析三种方法体系——基于词典(规则)、基于理解和基于统计,提出基于条件随机场的地址解析;分析了地址匹配的三种方法体系——模糊匹配、层级地址精确匹配和空间推理匹配。3.构建了空间关系地址模型及其标注体系。在层级模型、有限自动机模型的基础上,提出了空间关系地址模型,并分析了该模型的优势;阐述了空间关系地址模型的结构,分析了各种空间关系的表达;基于HashTable构建了地址模型哈希树,并对地址标注语料库进行了地址模式统计分析。4.提出了基于条件随机场模型的中文地址解析方法。将条件随机场模型应用到地址解析中,提出了基于条件随机场的地址解析方法,并着重研究了地址标注语料库构建和地址特征选取。该方法不依赖于词典,避免了其他方法的标注偏置问题,并允许灵活加入各种特征,对非规范地址的地址解析和结构化具有较好效果。5.研究了基于空间推理的地址匹配方法。在地址解析的基础上,探讨了利用地址中的空间关系进行地址推理匹配,并重点介绍了针对几种地址表达模式的匹配策略和方法。该方法充分利用了地址中的空间关系信息,提高地址匹配精度。