基于条件随机场的地质矿产文本分词研究

来源 :中国地质学会2017学术年会 | 被引量 : 0次 | 上传用户:libowen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于地质矿产文本中含有大量的专业术语,通用领域方法无法很好识别其未登录词,而其他特定领域中文分词方法移植性较差,不适用于地质矿产文本分词。目前,针对地质领域的中文分词研究不多,张思发等采用“庖丁解牛”中文分词算法实现对地学信息领域文本进行了分词研究,但其算法对未登录词汇识别能力较差。Huang et al.基于条件随机场构建地学领域分词方法,其训练语料库的标注采用的是人工自定义的方法,其方法虽然对地矿专业术语具有很好的识别能力,但训练语料库对于地矿专业术语的标注、定义在规范程度方面仍需提高。为了提高训练语料标注的规范程度,本文基于条件随机场模型方法,引人地质大辞典和地质矿产术语等标准规范词汇,采用半自动标注的语料处理方法制作地质领域语料库,将地质语料库和通用语料库结合训练条件随机场模型的分词规则,对地质矿产文本进行分词研究。
其他文献
航空放射性勘查方法在我国铀资源勘查中扮演重要角色,是直接寻找铀矿床的重要技术手段.在识别出露于地表和埋藏浅的花岗岩型铀矿过程中发挥了重要作用,随着花岗岩型隐伏铀矿床埋深的加大,与铀成矿有关的"矿致"铀异常信息在地表的显示越来越弱,并且与地质背景所产生的各种强干扰异常信息混合、叠加到一起,增加了找矿的难度.传统的航放数据处理技术难以提取出低缓、微弱的铀成矿信息,且区分复合叠加异常的效果也较差,其在当
目前,遥感技术特别是反映热液蚀变类型的短波红外光谱技术因能高效的进行地质填图、岩性区分、蚀变矿物识别而广泛应用在矿产勘查过程中.采用ASTER数据进行蚀变矿物提取的方法已经有了许多尝试。本文选择目前使用比较广泛和效果比较好的两种方法:MTMF和SAM,进行比较分析。首先采用ASTER数据和野外样品光谱,通过对西藏泽当矿田的ASTER遥感数据进行FLAASH大气校正、最小噪声转换等处理,然后采用MT
本文采用国产高分一号遥感影像,基于混合像元二分法的基本思想,建立植被指数反演植被覆盖度模型、将4种植被指数(RVI、NDVI、SAVI、ARVI)分别应用到该模型,为了找到最适合该模型的植被指数,本文对这4种植被指数反演植被覆盖度的结果进行一定的对比研究.结果发现,4种植被指数对该研究区的植被覆盖度反演存在着一定的差异,RVI与ARVI的反演结果明显不同于NDVI与SAVI的反演结果,根据实际情况
基于暗通道先验规律的去雾算法已取得了良好的效果,其复杂的软抠图也被导向滤波所代替,降低了算法复杂度,但仍达不到实时去雾的要求.文章通过GPU并行实现了去雾算法,并探讨了如何将数据存储到高速内存中以实现对数据的快速读取,以及减少算法在实现时的计算量,从而进一步优化了加速,提高了加速比,并将其应用于遥感图像的去雾处理中.优化后的加速算法,处理768*1024的图像仅需21ms,基本达到了实时去雾.
最近几年,边缘保持滤波算法在遥感图像处理和分析领域中获得了广泛关注.由于图像真实清晰性的要求,需要大部分的遥感图像具有很高的空间和灰度分辨率;然而图像采集过程中引入的不良噪音却很大程度上降低图像的质量.为解决图像降噪过程中的弱边缘问题,增加图像对比度,得到清晰度高,色彩恢复的图像,本文提出一种基于上下文量化技术的多尺度遥感图像增强算法.首先用混合灰度变换函数对图像做不同尺度的Retinex变化,分
致密砂岩储层具有储层物性差、资源丰度低、油气局部富集等特点,需要借助水平井钻井、压裂技术等进行开发,生产成本较高.进行有效的"甜点区"预测,圈定有利区,对勘探开发方案设计、降低成本有重要的指导意义.目前,尚未形成成熟的致密砂岩油"甜点"评价指标体系和评价模型.本文通过:(1)选取烃源岩特征、储层物性、储层含油性、储层压力、储层脆性、储层地应力等六方面的参数作为评价指标;(2)获取评价数据,建立三维
井网部署优化的结果服务于油藏开发,为了提高采收率和经济价值,应对不同的开发场景,做出有效的优化方案,得出更好的优化效果显得尤为重要.井网部署需要考虑油藏属性(孔渗饱、丰度、油藏有效厚度等),以及井网自身的几何模型(井距、排距、井型等).油藏数值模拟软件中,油藏属性数据均分布在油藏网格中,这些数据种类多,数量大,规律少.井网自身的几何模型一般需要从开发工艺角度由油藏工程师进行设定,主要包括注采单井的
在野外地质勘测过程中,地质工作者们往往对如何快速简便地以一种非破坏性的试验估测岩石强度比较感兴趣.比较有经验的地质专家可以通过用地质锤对岩石进行敲击,从敲击声音中判断出岩石的强度,其原理是岩石的表面强度在某种程度上可以反映岩石的抗压强度,而敲击声可以反映岩石的表面强度.然而,这种判断属于经验性的判断,看似有效却颇为主观,在极大程度上受个人的经验、健康状况等因素的影响.因此,本文在深度学习技术及声谱
地球化学元素是进行成矿预测的重要数据源,对其进行数据分析具有重要的意义,同时分析元素组合异常可以为下一步找矿奠定良好的工作基础.本文以大冶地区的地球化学元素为例,分析了Cu、Mn、Pb、Zn、Ni、Cr、Co、Ba、Y、B、V、Ti十二种元素,通过对数据进行预处理之后采用数据融合方法分析地球化学元素组合异常.从应用结果可以看出数据融合方法能有效的确定地球化学元素组合异常,圈定的异常元素组合与已知矿
上个世纪80年代,由于成像光谱概念的出现,使得遥感技术迈进了一个崭新的高光谱遥感阶段.高光谱遥感器能够获得整个可见光、近红外、短波红外和热红外波段的多而窄的连续光谱,光谱分辨率可达纳米级,获取的地表图像包含地物丰富的空间、辐射和光谱三重信息,表现了地物空间分布的影像特征,同时可能以其中某一像元或像元组为目标获得其辐射强度或光谱特征.高光谱遥感数据大量的光谱波段为了解地物提供了丰富的遥感信息,有助于