【摘 要】
:
近年来,电子病历文本的分类、挖掘成为医学大数据研究的基础。该文提出一种利用实体与依存句法结构分析构特征集的电子病历短文本分类方法。首先对病历文本进行自然语言处理,
【机 构】
:
复旦大学信息科学与工程学院,复旦大学信息学院智慧网络与系统研究中心
论文部分内容阅读
近年来,电子病历文本的分类、挖掘成为医学大数据研究的基础。该文提出一种利用实体与依存句法结构分析构特征集的电子病历短文本分类方法。首先对病历文本进行自然语言处理,包括分句、分词、词性标注以及实体提取,构建实体词典,利用TF-IDF方法构建词-文本矩阵并利用潜在语义分析LSA方法进行词汇特征的选择,然后分析病历文本的依存句法关系,挖掘出词汇之间的依存关系并构建特征三元组作为分类特征的扩展,最后构建出分类特征向量集对病历短文本进行分类。实验证明,相比于未进行特征扩展的短文本分类,所提方法能有效地提高分类器的分类性能,其分类的准确率与F值均有明显的提高。
其他文献
BACKGROUND: Lymphoepithelial cyst of the pancreas is a rare lesion of undetermined pathogenesis that had been documented almost exclusively in males. The litera
2001年6月,双双下岗的乌市头屯街建材公司职工张居俊、肖高淑两口子坐在家里发起了愁,孩子还在上学,一家人的生活开销怎么办,面对家里的困境,他们开始盘算起来,不能坐在家里
目的:通过测定各种脂肪酸对体外培养的牛主动脉平滑肌细胞二脂酰甘油(DAG)和蛋白激酶C(PKC)水平的影响,探讨脂肪酸对动脉粥样硬化(AS)发生的可能作用机制.方法:分离牛主动脉
目的:探讨有无淋巴转移、神经侵犯对胰头部小胰癌预后的影响.方法:回顾性分析1996年1月至2004年12月收治的48例胰头部小胰癌的临床资料.结果:本组48例中,男29例,女19例,年龄3
郝贵清现任农一师三团十一连党支部副书记、指导员,妻子刘富莲是三团社区的退休工人,儿子、女儿在大学就读。多年来,他们这四口之家相亲相爱,始终保持着浓浓的亲情与和谐氛围
加强社保基金管理是保证社会保险制度安全运行的基础,是社会保障基金管理中的核心部分。本文介绍了保证社保基金安全完整运行的方法,以期给相关研究人员提供借鉴。
【正】近几年来,本市节能工作取得了很大成绩。1995年,全市终端消耗能源折合标准煤4440万吨,每亿元国民生产总值能耗为1.85万吨标准煤,每亿元工业总产值能耗0.9万吨标准煤,分
自农一师十三团工会开展"和谐小康家庭"评比活动以来,全团职工家庭都争先恐后去"争星、抢星、追星",发生了一个个和谐的故事。
目的:改进新型抗恐慌症药物格辟龙的合成方法.方法:以氰基乙酸乙酯为起始原料,先制得关键中间体4,4-二甲基-2,6-哌啶二酮,再通过一系列反应最终合成格辟龙.结果和结论:改进的
目的:利用蛋白组学技术,建立晕船易感及不晕大鼠脑干总蛋白的双向电泳图谱,分析并鉴定差异表达蛋白质.方法:据模拟晕船刺激后异嗜高岭土量的增减将大鼠分为晕船易感组和不晕