网络健康社区热点疾病话题识别与演化方法研究

来源 :东北电力大学 | 被引量 : 0次 | 上传用户:geosec
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国“互联网+医疗”产业的发展,众多网络健康社区以其便捷的线上问诊方式,破除传统医疗服务的时空壁垒,优化就诊流程,在促进优质医疗资源共享的同时,也积累了海量的医疗文本数据,为进一步研究高发疾病的话题演化趋势提供了重要的数据基础。然而,网络健康社区文本大多为非结构化数据,且口语化特性明显,数据处理难度较大。因此,如何针对上述文本特性进行准确高效的挖掘处理,是提高热点疾病话题趋势演化分析可靠性和有效性所面临的关键性难题。本文基于疾病话题强度演化分析的角度,对医患问答文本中的热点疾病话题识别与演化方法开展深入研究:首先,基于置信学习对误标语料进行检测与纠正处理,以提高语料的质量。并在此基础上,针对语料多为口语化的表达方式、专业术语难以识别、实体边界难以确定等问题,本文提出了基于多特征融合的命名实体识别模型(MF-NERM)。该模型基于词汇增强的方法,融合多种文本语义特征,将文本的字符表示、句向量、形态、词性以及字符位置信息嵌入到BERT(Bidirectional Encoder Representations from Transformers)层中,同时,结合双向长短期记忆网络编码和条件随机场评分机制,对语料数据中的疾病、症状、检查和治疗4类病症实体进行识别。其次,针对传统LDA算法在面向疾病主题挖掘方面存在的主题表达性差,语义稀疏等问题,提出了面向网络健康社区文本的实体增强主题模型(MEETM)。该模型将病症相关的实体标签以及相关参数引入主题模型的生成过程中,从而增强建模过程中的语义约束,充分挖掘文本中的热点疾病主题,并将相似疾病主题进行合并,进而形成疾病科属话题。此外,在建模过程中利用吉布斯采样算法对模型参数进行推断求解,提高了模型在多源数据融合下的泛化能力。最后,为探究疾病话题在时序关系下的强度演化趋势,本文设计了基于马尔科夫链疾病话题演化分析方法。该方法将文本按时间属性将其划分到不同的时间窗口,计算各疾病话题在当前时间窗口内的强度,并对相邻时间窗口内的疾病话题进行关联分析。在此基础上,进一步计算话题趋势值,并将其变化范围细分为四个状态变化子空间,构建各话题的初始状态向量及马尔可夫链状态转移矩阵,从而对下一时间窗口内的话题强度趋势进行预测。本文所提出的研究方法,为网络健康社区热点疾病话题的识别与话题强度趋势演化提供了新的途径,一方面,能够识别并量化患者群体较为关注的热点疾病话题及其时序强度演化规律,从而有助于研究高发疾病演化机理;另一方面,能够预测患者群体对疾病话题关注度的变化情况,从而有助于社区管理者为用户提供更具有针对性的医疗服务。
其他文献
传感器是机器类人化和智能化的关键组成部分,是工程检测和机器人运动控制的基础,也是社会发展和科技进步的重要组件。当前,单维力传感器技术已经发展得较为成熟,在市面上也很常见。然而在国防工业、医疗卫生和精密加工等特殊应用场合,传统的单维力传感器由于检测信息单一、布线要求较高、适应能力有限,易受环境等因素限制,因此无法满足日益增长的技术发展需求。为此,本文基于磁致伸缩逆效应提出一种万向节型机械自解耦无线无
卷积神经网络是一类由卷积计算构成的深层神经网络,具有优秀的图像特征提取能力。由于网络的性能差异主要体现在网络的参数训练与结构设计上,因此优化网络参数与网络结构可以有效地改进卷积神经网络。本文主要研究卷积神经网络的参数优化与结构优化两个方面:在参数优化方面,本文提出基于图像特征的网络参数优化方法。此方法使用多组图像特征初始化卷积核,通过调整卷积核初始值优化卷积核参数并加速网络收敛。在结构优化方面,本
GBDT算法是一种基于决策树的集成算法,多年来GBDT以其独有的特点和优势成为机器学习中应用广泛的算法之一。该算法能适应多种损失函数,既可用于分类也能用于回归预测,而且能够进行混合数据类型的自然处理。随着大数据、人工智能的快速发展,收敛速度、计算精度以及能否处理大规模数据已经成为衡量算法实用性的重要标准。基于此,对原有算法的进一步优化具有很大的实际意义。本文在基于GBDT数据分类方法的基础上,提出
循环神经网络作为研究大规模时间序列的分析及预测的有效方法,至今循环神经网络算法已有多个改进和变种,并在时间序列数据上已有多个方面的应用。但循环神经网络算法还有需要进一步研究的问题,主要是现有循环神经网络算法及其改进在收敛速度较慢和预测精度较差的问题上并没有很好地解决方法。因此,本文研究的主要内容是循环神经网络模型在初始权重选取问题上的改进,通过引入随机扰动项对循环神经网络模型进行修正。首先针对循环
呼吸、脉搏、语音等运动均会在人体表层产生或大或小的压力信号,蕴含大量信息,拥有潜在应用价值。因此,制备一种可有效将其获取的可穿戴设备,采集并通过合理分析发掘其应用价值以及应用手段是十分必要的。本文构建并制备了一种PVDF(聚偏二氟乙烯)柔性压电传感器,采集人体手部压力信号(脉搏、手指以及手腕压力信号)、呼吸吹气压力信号以及语音振动信号(发声时人体颈部皮肤振动信号),结合数据转换以及机器学习等数据处
时滞现象广泛存在于自然界的各类系统中,如航空航天系统、化工过程系统、网络化控制系统等,时滞的存在可能会导致系统性能指标变差甚至不稳定,因此时滞系统的相关控制问题研究得到了广泛的关注。然而在许多实际系统中,出于对测量的经济性、困难性和实际性的考量下,很难得到系统的全部状态信息,因此需要设计观测器进行状态重构。本文提出了一种函数观测器的参数化设计方法,并根据广义Sylvester方程的解,建立了函数观
随着电力系统智能化水平不断提高,智能电网已经呈现出信息物理高度融合的特征。信息流和物理流的深度融合提升了信息侧对物理电网的稳定控制。然而,信息空间存在的漏洞为网络攻击提供了可乘之机,信息侧网络攻击入侵后物理侧电力设备运行失去稳定控制,发生故障甚至损坏,严重时引发大范围停电事故。为了提升电力信息物理融合系统(Cyber-Physical-System,CPS)防范网络攻击的能力,本文提出一种基于集成
随着计算机科学的快速发展,人机交互领域逐渐呈现出多元化,不再单纯局限于传统的键盘,鼠标等输入设备。手势识别之所以作为自然交互的热点课题,是因为其直观、灵活、表达丰富等特点更加符合人们在日常生活中的习惯。使用基于视觉的手势识别方法已成为该领域的主流方法,通过对手势图像的采集和处理,最终输出理想的结果。使用Kinect二代传感器作为采集设备,不仅可以采集彩色信息,还可以获取深度信息及骨骼信息,文中分别
在现代电力系统中,网络部分与物理部分的连接越来越紧密,耦合越来越深入,而电力信息物理系统(Cyber-Physical Power Systems,简称CPPS)可以准确地描述现代电网的动态过程。电力通信网作为电力工业控制系统的专用网络,具有安全分区、网络专用性、水平隔离和垂直认证等特点。然而,在CPPS中,网络部分和物理部分是深度耦合并相互作用的,容易受到内部故障和外部攻击的影响。攻击者很容易利
信息物理系统(Cyber-physical System,CPS)是控制网络和通讯网络监控物理系统的同时,三者紧密联系,协调控制的整合系统,现代电网已逐步发展成电力系统与CPS的完美融合。然而,信息网络在大幅优化电力信息物理系统(Cyber-physical Power System,CPPS)与协调控制的同时,也产生了诸多潜在风险,如发生在信息网络中的攻击会随着信息网络与电力系统的融合交互威胁到