论文部分内容阅读
针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统。该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率。此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值。实验证明,该系统可以较好地实现医药信息文本分类。