【摘 要】
:
中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方
【机 构】
:
清华大学微纳电子系; 清华大学自动化系;
【基金项目】
:
国家自然科学基金面上项目(61174068)
论文部分内容阅读
中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型对待处理的中文短文本进行初步分词,然后再利用传统词典分词方法对初步分词结果进行修正,从而完成分词工作。针对中文短文本的特点,该方法在条件随机场的标记选择和特征模板编写上做了相应优化。测试结果表明,该方法改善了传统的基于词典的分词法因为未登录词和交叠歧义而产生的准确率和召回率下降的问题,并在Sighan bakeoff 2005的四个语料测试集中均取得了0.95以上的FScore。实验证明:该方法适合应用于信息检索领域的中文短文本分词工作。
其他文献
2014年10月28日,十八届四中全会通过了《中共中央关于全面推进依法治国若干重大问题的决定》(下称《决定》)。《决定》明确提出要“推进以审判为中心的诉讼制度改革”,这标志
中小企业在创造财富、增加税收、吸纳就业人口、活跃市场经济、方便人民生活等方面发挥了越来越大的作用,成为支持经济增长的重要力量.在德国,中小企业成为国家的重要经济支
作为以文学语言问题为主轴的文学理论范式,20世纪以来的西方语言批评经历了由"自然"到"文化"的演化生态。"自然"话语基于语言自身的技术性平台来审视文学,意图展现文学审美性
基于现有国外关于体验式学习的文献,从体验式学习的概念、基础理论发展与库伯的体验学习圈主要内容、体验学习的特征、相关测量——学习风格量表、实践运用的类型、在组织背
今天,商业中介空间的形态和意义,已不再局限于一个商业外延的空间领域,而是扩展到现代都市人们物质与精神交流、观赏、休息和娱乐的各个生活层面,成为现代商业文化在都市生活
教师在信息技术与化学课程的整合实践中容易陷入三大误区,为了更好地利用信息技术服务于化学教学,提出了解决的办法。
幼儿性教育应该成为学前教育课程的组成部分。其必要性在于实施幼儿性教育是满足儿童认知发展的需要,是保障个体未来性心理健康和生活幸福的需要。幼儿性教育内容的确定应根
本文分析了目前飞机机载成品供应商管理的现状及其存在的问题,通过结构化思维模式提出了建立供应商激励机制、优化供应商考核评价方法、完善信息双向沟通管理机制等措施,引导