【摘 要】
:
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术.通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很
【机 构】
:
华中师范大学语言学系,武汉大学计算机学院
【基金项目】
:
教育部人文社会科学研究项目:逻辑推理与词义匹配相融合的中文网页语义检索技术研究(10YJA740120);湖北省教育厅人文社会科学研究项目:基于语义理解的中文网页检索方法研究(2010b032)资助
论文部分内容阅读
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术.通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串.以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战.
其他文献
为实现分布式舰载作战系统状态监测,需要研究分布式系统数据采集的一般技术。首先研究分析了分布式系统的特性及常见模型,讨论了作战系统数据采集的技术难点,并在此基础上,通
电子商务蓬勃式的发展带来了国家税收大量流失、实体经济与电子商务不公平竞争、电子商务税收法律制度缺等问题。本文主要研究我国电子商务税收法律制度构建过程中应坚持的原
<正>【政策出台】2016年2月25日,山东省政府办公厅下发了《山东省养老服务业转型升级实施方案》(鲁政办字[2016]22号,下称《方案》)。《方案》立足当前,着眼长远,围绕解决影
针对多台水泵并联运行的光伏水泵集中群控系统,提出一种流量优化算法,实现系统功率的合理分配,并以预估流量最优值方式控制各单元的启停投切,使群控系统全天运行在流量最优的工况
随着改革开放的深入和社会经济环境的转变,环境保护和生态保持已经成为中国中央政府的工作重心。如何确保地方政府有效执行中央的环保政策成为了当前公共行政领域的热点与难点
目的对血吸虫病监测点的粪检感染率进行评估.方法从全国12个先经血检过筛后再用粪检进行确诊的监测点中随机抽取一个.采用统一的问卷调查居民与血吸虫病感染有密切关系的因素
基于矢量平面波角谱公式和球面波的Weyl表示式,未采用任何近似处理,非常方便地推导出矢量形式的第一类和第二类瑞利-索末菲衍射积分公式。作为特例,当只考虑光场的一维横向分量
研究了武夷山自然保护区森林土壤生化特性.结果表明,不同生境土壤呼吸作用、纤维分解作用和硝化作用等3项生化强度有明显差异,先峰岭(常绿阔叶林)>大竹岚(毛竹林).同一生境中的不同小生
一、当前地方债管理现状(1)地方政府债务举债主体多元化,有效管理困难化。就本溪而言,地方政府债务由国内银行贷款、发行债券、外国债务及其他相关债务组成,四类债务的举债主体
一、氮肥施用中存在的问题(一)氮肥流失对环境的污染人们逐步认识到不合理施肥会产生不良的后果。研究表明,氮肥的不合理施用导致土壤形成层状结构,容易引起土壤板结,土壤质量下降