【摘 要】
:
本研究针对中文文本中地理信息描述的非结构化、定性化和不确定性等特点,通过系统分析地理信息的自然语言描述机制,围绕“规范化一结构化一时空化”的技术主线,重点突破了面向中文文本的地理信息资源挖掘与利用技术。首先,通过归纳总结中文文本中地理信息资源描述的语言特征和语义结构,设计了面向自然语言的地理信息表达框架和标注体系,基于GATE平台构建了大规模的地理信息标注语料库。其次,分别提出了时间、空间、属性等
【机 构】
:
南京师范大学虚拟地理环境教育部重点实验室,南京,210023 合肥工业大学土木与水利工程学院,合肥
论文部分内容阅读
本研究针对中文文本中地理信息描述的非结构化、定性化和不确定性等特点,通过系统分析地理信息的自然语言描述机制,围绕“规范化一结构化一时空化”的技术主线,重点突破了面向中文文本的地理信息资源挖掘与利用技术。
首先,通过归纳总结中文文本中地理信息资源描述的语言特征和语义结构,设计了面向自然语言的地理信息表达框架和标注体系,基于GATE平台构建了大规模的地理信息标注语料库。
其次,分别提出了时间、空间、属性等地理信息的信息抽取和语义解析模型,实现了基于规则模型的时间信息抽取、推理和规范化表达,基于条件随机场模型和规则模型的空间位置(包括地名和空间关系)信息抽取方法,以及基于Boot strapping的属性信息抽取算法,并以标注语料库为实验数据进行了相关实验分析。
再其次,提出了基于时间地理学理论的定性时空信息(地名、空间关系和时间信息)的匹配和可视化表达方法,探索了基于“时间一空间一概念类型”多重一致性约束的主题判断和时空过程重构方法。
最后,在上述研究成果基础上,进行了相关案例应用分析,包括面向网络文本的事件时空和属性挖掘和网络地理要素更新检测。
研究表明,通过借鉴自然语言处理、地理信息科学和人工智能等领域的先进成果,能够较为有效地解决中文文本中地理信息资源挖掘与利用问题,形成地理信息资源获取的新型手段,提升我国地理信息资源挖掘与利用的智能化水平,为地理信息产业化发展提供数据和技术支撑,拓宽地理信息资源的应用领域。
其他文献
随着区域自动站的应用日益广泛和站网布局的不断扩大,大量新站点不断投入业务运行,后续的管理、维护工作成为了保障人员的主要工作之一.本文介绍了区域站的功能结构,阐述了区域自动站系统常见故障,如板卡型号错误、通讯参数错误、数据宏等中心站故障,电源电池故障、SIM卡故障、传感器等子站故障,以及个别站点网络接入故障、大量站点网络接入故障等网络接入故障的快速诊断与解决方法,以保障区域自动站系统正常稳定的运行.
2010年4月14日青海玉树发生Ms7.1地震,本次大震及其强余震发生在青藏高原巴彦喀拉地块南的甘孜-玉树-风火山断裂带.通过小波变换去除山丹、古丰台2009年12月至2010年5月地电场分钟值数据中周期为24h,12h,6h和极高频扰动成份,然后再将滤波后的信号利用全局小波能谱法进行分析,小波能谱法计算其滤波后的数据,发现:山丹台、古丰台在玉树Ms7.1地震前均发生全局小波能谱值同步增大的现象,
中强地震后短时间内发生大量余震,这些余震的记录波形相互交叠干扰并受到主震面波尾波的影响,其中一些余震波形信噪较低,通过测震台网常规分析方法只能在震中距最近的一个台站检测到较清晰的P、S波震相到时,即为单台记录地震事件.中强地震余震序列的地震目录中存在大量单台记录地震事件.地震观测报告未给出其震中位置,且给出的震级可信度较差.精确估计单台记录地震事件的震中和震级,能够补充完善现有地震目录,为余震序列
遥感图像的场景分类是学习和发现图像与场景语义内容标签的一个映射过程.根据图像特征提取的层次,场景分类可分为低层特征描述和中层特征描述的两大主流方法.基于视觉词袋模型无需分析场景具体目标组成,根据场景统计特性建立视觉单词,然后利用文本相关模型来处理图像内容的表示.考虑图像空间关系、尺度和层次关系、上下文关系可获得有效的描述场景的视觉单词.在大脑对感知外界环境的神经结构与认知功能的相关研究基础上构建仿
在宏观层面,我国城镇化已进入加速期,预计到2020年城镇化率每年将提高1~1.5个百分点,庞大建设体量的背后是节能减排和环境民生的巨大压力.在这波城镇化的加速期中,我国迎来中规模化和区域化的全国绿色建筑集中建设新热潮.这类建筑群以住宅小区和商业综合体为代表,相对单体建筑,其规划设计却存在较大的变化空间,对应着不同建筑综合性能.本研究采用归纳总结、数据抽取、程序开发等方法,基于地理信息系统,结合风、
彩色描述符在几何不变性基础上加入彩色信息提高了影像特征点的不变性以及区分度,近几年来被广泛的研究和应用.但是目前的彩色描述符主要针内容较单一的数码图片或者视频,没有考虑到航空遥感影像地物复杂的基本特征.因此将彩色信息引入成像机理不同、颜色接近地物的Bayer真彩色的遥感影像的特征描述中,其效果与适用性是一个还没有深入研究的新问题.由于文献验证了基于几何不变性中SIFT描述符具有最佳性能,文献验证了
时空热点事件可定义为一定数量的人群在特定的时间和地点共同参与的事情.这里的人群数量反映的了事件的热度、流行度.参与的人越多,事件越热门.而特定的时间和地点则表征了热点事件的时空特征.实时的跟踪人群的活动轨迹,并获取人群的活动内容是当前大数据分析的一个重要内容.然而,如何及时准确的获取人群的位置信息、活动内容,并从中有效的提取有价值的信息,是一个研究难点.本文研究了面向新浪微博签到数据的时空热点事件
地理实体是国家基础地理信息数据库的基本组成部分,也是地图服务矢量化表达的重要形式,而地理信息则是有关地理实体的一切有用知识.随着传感器、定位、互联网等技术的不断发展,地理信息已经成为人们生活的必需品,在位置服务(LBS)领域发挥着重要的作用.在解决中文的语义和空间关系抽取问题时,引入词语的位置、词长和词性重要性有利于提升基于词频统计的关键词提取方法的正确率(增长加20%)。同时,在正确率相近的情况
泛在网络环境下地理信息服务的搜索对于地理信息资源的集成与共享具有重要意义.网络上分布着大量的地理信息服务,但用户无法快速检索到所需的服务.目前主流的两种服务查找方式均存在不足:地理信息门户的资源时效性差,元数据不完整;通用的搜索引擎查找地理信息服务的效率低下,地理信息服务通常淹没于大量无关的网页.本文提出了一种基于链接排序和网页相关度的地理信息服务网络爬虫。该爬虫专门针对地理信息服务的协议和接口设
地理信息服务具有开放、分布式、松耦合等特性,已经成为信息服务行业的一个重要组成部分.目前,大多数服务商或机构提供的地理信息服务仅局限于数据服务层面,较少实现处理服务,主要原因是缺少相关标准支持以及可调用资源,特别是分析、建模、处理和写作方面的服务.本文介绍了三种常见的处理服务实现方法,分别为OGC WPS(Web Processing Service),ArcGIS Server中的Geoproc