论文部分内容阅读
文本质量好坏是影响读者阅读体验的重要因素,质量优秀的文本能够使人们更加快速并准确地获取自己想要的知识,同时可大大减少阅读时间。因此,对文本质量进行测评,发现文本在编写和内容上存在的问题,有助于作者对文本做进一步修改和完善,提高文本的可读性。然而,由于当前文本数量数以十亿计,而且每天还在增加,对文本进行人工测评是不现实的。因此,研究文本质量自动测评方法是非常有意义的。
本文首先介绍了文本质量测评的国内外研究现状,总结了文本质量测评相关的理论和技术,分析了中文文本质量测评方面存在的困难和不足,进而确定了中文文本质量测评主要包括的三个方面:词语一致性检测、文本主题数量是否过多以及文本重复度检测。其次,针对词语一致性检测方面,采用中文词语聚类的方法进行分析。本文提出了一种半约束的k-means聚类方法,利用主题聚类LDA(Latent Dirichlet Allocation)与k-means聚类相结合方法,对k-means的初始中心点进行约束选取,从而尽可能的接近最终聚类的中心点。实验结果表明,半约束的k-means聚类方法结果要优于传统的k-means聚类方法和GN(NewmanClustering)算法。接着,针对文本主题数量的研究,采用文本主题聚类的方法进行分析。本文提出了半约束的主题聚类方法LDA和HLDA(Hierarchical LatentDirichlet Allocation),通过对文本中词语进行二位频繁项集的剪枝,找到“主题-关键词”对,从而对主题聚类方法LDA和HLDA进行主题约束,实验结果表明,半约束的主题聚类方法HLDA要好于传统的LDA和HLDA方法以及半约束的LDA方法。最后,在文本重复率检测方面,使用句子相似度计算方法进行了详细描述,设计了中文文本质量测评的指标体系,提出了中文文本质量测评框架和算法流程,并实现了系统原型。
总之,本文研究成果对中文文本质量测评领域的研究工作具有重要的参考价值,能够帮助用户测评进而改进自己的原创文本,提高文本的可读性。