论文部分内容阅读
中医医案文献浩如烟海,这些医案文献作为中医药理论与经验的载体,贯穿并指导着临床实践,其学术价值和实用价值经久不衰。对医案开发和利用是必不可少的工作。从自然语言处理的角度来研究医案,并采用数据挖掘技术来发现语料库中所蕴含的病证信息,是中医文献与诊断学研究的新方向。
本课题的研究目的有二:
其一:构建医案语料库的目的是为了建立适合医案分析的统计语言学模型做语言加工准备,来提高计算机程序解读中医医案中相关词汇和语义的能力,为后期的数据挖掘奠定基础。
其二:选择医案语料库中的“内生五邪”病机所引发的病证(本文简称“内生五邪”病证),作为数据挖掘的研究实例,通过随机森林、贝叶斯网络等数据挖掘方法,发现潜在的“内生五邪”病证知识,冀希望达到对中医基础理论中的“内生五邪”理论进行丰富和补充的目的。
本文主要内容如下:
由于机器学习和古籍文献数字化的需要,本文提出的方法和实验都基于语料库的数据驱动进行。医案语料库建设工作主要包括:多层次医案语料库的提出和构建,语料库加工规范的制定。在基于领域本体的语义分类框架的基础上,对医案语料进行深层次的语义加工。该方面工作是整个课题的研究基础,具有重要的意义。
在构建医案语料库的基础上,文章的后部分重点是对语料库中“内生五邪”病证进行辨证数据挖掘。主要采用随机森林和贝叶斯网络这两种数据挖掘方法对五邪病证的主要临床表现进行重点分析,找出其病证规律。其中,基于随机森林的机器学习方法主要对“内生五邪”病证的特征症状选择进行研究。而基于贝叶斯网络的模型主要对“内生五邪”病证的分类识别进行研究。通过上述两种不同的挖掘方法,对医案语料库中“内生五邪”病证的辨证知识进行了客观分析,从而对疾病过程中所产生得类似于风、寒、湿浊、火、瘀血、痰等病理状态进行了深入细致的客观化研究。