【摘 要】
:
电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖
论文部分内容阅读
电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。文章基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。
其他文献
茶叶防病作用研究初步总结第二军医大学长海医院营养科中国人民解放军临床营养中心(上海200433)蔡东联赵继军胡同杰梁华苏峰曹翔茶叶中含有多种营养素和具有药理作用的成分,大量资料表
用出生队列分析研究农村育龄妇女生育生育状况的年代变化。结果显示随着出生年代渐晚,妇女月经初潮年龄逐渐提前,而绝经年龄则推迟,平均生育次数减少,生育间隔缩短;五岁以下儿童死
诊断涎石病的传统方法主要为X线检查、涎腺造影、MR以及临床口底物理检查等。本研究应用经体表超声及经口腔内高频超声联合探查下颌下腺导管结石27例,现报道如下。1资料与方
目的探讨胎儿硬腭的三维超声显像方法及其在产前诊断胎儿腭裂中的应用价值。方法采集100胎孕13~35周正常胎儿及32胎唇裂胎儿颜面部的三维容积数据,通过旋转x、y、z轴、调节灰
目的探讨3.0T磁共振弥散张量成像(DTI)的表观弥散系数(ADC)和部分各向异性(FA)参数在脑胶质瘤术前分级中的应用价值。方法回顾性分析104例术后组织病理学证实为脑胶质瘤患者的DTI、
环境因子对肠道细菌耐酸性的影响浙江省卫生防疫站(杭州310009)梅玲玲(综述)王健(审校)自然界、食物、动物及人体的有些部位呈较强的酸性。诸如大肠杆菌(E.Coli)类肠道细菌是如何在这类环境中生存
本文在总结哈达门沟金矿床地质特征的基础上,通过系统的流体包裹体和氢氧同位素分析,揭示哈达门沟金矿床的成矿流体特征,探讨成矿流体来源,为找矿提供一定的理论依据。
工业区空气污染对儿童健康及居民死因的影响胡怀明,徐任霞,刘方针大量流行病学调查和病因研究证明,空气污染给人类带来诸多危害。大多数呼吸系统疾病的发病与环境因素有关,尤其与
2009年2月1日南京华伦君泽纸业有限公司20万吨/年新闻纸项目在南京经济技术开发区开工建设,总投资18.8亿元,合同利用外资约2800万美元,建设期24个月,投产后年销售收入约10.82亿元。
本文根据时间序列分析和计算机信息处理的原理,提出了用自回归谱诊断精密传动链误差的方法。由于自回归谱具有谱峰陡峭,频率定位准确、分辩率高等优良,从而可以用它来有效地