中文文本质量测评方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:youare2b2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本质量好坏是影响读者阅读体验的重要因素,质量优秀的文本能够使人们更加快速并准确地获取自己想要的知识,同时可大大减少阅读时间。因此,对文本质量进行测评,发现文本在编写和内容上存在的问题,有助于作者对文本做进一步修改和完善,提高文本的可读性。然而,由于当前文本数量数以十亿计,而且每天还在增加,对文本进行人工测评是不现实的。因此,研究文本质量自动测评方法是非常有意义的。   本文首先介绍了文本质量测评的国内外研究现状,总结了文本质量测评相关的理论和技术,分析了中文文本质量测评方面存在的困难和不足,进而确定了中文文本质量测评主要包括的三个方面:词语一致性检测、文本主题数量是否过多以及文本重复度检测。其次,针对词语一致性检测方面,采用中文词语聚类的方法进行分析。本文提出了一种半约束的k-means聚类方法,利用主题聚类LDA(Latent Dirichlet Allocation)与k-means聚类相结合方法,对k-means的初始中心点进行约束选取,从而尽可能的接近最终聚类的中心点。实验结果表明,半约束的k-means聚类方法结果要优于传统的k-means聚类方法和GN(NewmanClustering)算法。接着,针对文本主题数量的研究,采用文本主题聚类的方法进行分析。本文提出了半约束的主题聚类方法LDA和HLDA(Hierarchical LatentDirichlet Allocation),通过对文本中词语进行二位频繁项集的剪枝,找到“主题-关键词”对,从而对主题聚类方法LDA和HLDA进行主题约束,实验结果表明,半约束的主题聚类方法HLDA要好于传统的LDA和HLDA方法以及半约束的LDA方法。最后,在文本重复率检测方面,使用句子相似度计算方法进行了详细描述,设计了中文文本质量测评的指标体系,提出了中文文本质量测评框架和算法流程,并实现了系统原型。   总之,本文研究成果对中文文本质量测评领域的研究工作具有重要的参考价值,能够帮助用户测评进而改进自己的原创文本,提高文本的可读性。     
其他文献
计算机集群技术作为搭建高伸缩性与高可用性系统的最成熟的解决方案之一,受到学术界和工业界的密切关注与认可。集群移植作为快速搭建集群的一种方法,可以将单机模式的系统通过
图像中的显著区域是指图像中某些区域与其周围区域明显不同,同时能吸引人眼注意的区域。图像显著性检测的目的是利用计算机模拟人眼视觉系统自动检测出图像中的显著区域,图像显
随着人机交互技术和计算机视觉技术的不断发展,体感交互逐渐成为人机交互领域重要的研究热点之一。特别是微软的体感交互设备Kinect,加速了体感交互技术的研究进程。另一方面,大
随着信息时代的到来和信息化技术的快速发展,船舶信息系统中各应用系统之间便捷、高效的数据分发、处理、备份也显得日益重要。针对船舶信息系统日益复杂,系统对实时性、可靠性
实时系统是一类需要在规定的时间内响应外部事件并完成对外部事件处理的系统,这类系统常见于与生命财产密切相关的领域,一旦这类系统出现设计上的缺陷,将会导致非常严重的后果,因
在软件测试中,对于特定的软件而言,我们不仅要考虑单个因素对软件运行产生的影响,也要考虑各个因素之间的交互对软件正常运行产生的影响。   组合测试是一种黑盒测试方法,其目
随着软硬件以及网络技术的发展,视频数据在近几年呈现出爆炸式的增长,在人们的日常生活中占据越来越重要的地位,视频逐渐成为人们进行信息交流的重要载体。随着视频资源的急剧增
旅客出行需求的理解对民用航空公司而言是非常重要的。分析并理解海量旅客的出行行为特点,捕获旅客真实需求,不仅有益于航空公司精准营销,提升满意度,增强用户体验,从而获取更大收
超短波无线网络在灾难救援等紧急通信方面具有重要的作用。然而,目前国内外还鲜有公开文献对超短波无线网络规划展开研究。在不同的应用场景下,超短波无线网络需要采用不同的规
代码混淆技术是软件保护的有效技术之一。其中控制流混淆方法以其适用范围广、安全性能好等优点得到了广泛的应用。近年来研究人员提出了许多行之有效的控制流混淆方法。同时