【摘 要】
:
我们利用机器自动分词并经人工校对后的350万字语料,采用统计的方法,对出现在分词碎片中的未登录词进行识别。本文报告了我的实验情况:处理训练语料,从中获得有用的资源;对生语料
论文部分内容阅读
我们利用机器自动分词并经人工校对后的350万字语料,采用统计的方法,对出现在分词碎片中的未登录词进行识别。本文报告了我的实验情况:处理训练语料,从中获得有用的资源;对生语料文本进行两趟分词,第二趟分词是从分词碎片中识别未登录词;进行封闭测试和开放测试,测试的结果及其分析。 未登录词是指词表未收,因而机器不认识的词。机器自动分词一般会把未登录词切成一个一个单字,也就是说现有的一般自动分词方法对未登录词所做的“功”为零。分词碎片是指用这样的方法分词后形成的若干个连续单字。这些单字或者是单字词,或者是未登录词的一部分。所以,要识别出分词碎片中的未登录词,实际上是要区分哪些字形成单字词,哪些字组合起来形成未登录词。如果能首先确定分词碎片中哪些是单字词,那么剩下的相邻的字组合起来就形成了未登录词。如:“已请台湾的”这一分词碎片中,如能确定“已”、“请”、“的”是单字词,剩下的“台湾”就被归为未登录词了。这就是本文识别未登录词的基本思想。以往的未登录词的识别往往需要搜集特定资源,只对某一类型的未登录词进行识别,例如建立中文姓名资料库,进行中文姓名的识别。本文未利用任何有关未登录词的资源,如人名、地名资源,只采用简单的统计单字词共现概率的方法来识别任意类型的未登录词,这是本文最大的特点。 实验结果,开放测试分词碎片中的词的正确率为81.16%,,召回率为81.67%,足以表明这种方法作为一种新思路,是有效的。识别错误和识别难点的分析表明,有效地解决数据稀疏问题是最重要的,而如何制定有明确有效的优先级的规则是最困难的。如果能很好地解决上述问题,未登录词的识别效率就可以满足实用。
其他文献
汇源的首要任务是如何在竞争激烈的饮料市场中进一步的发展。本文运用SWOT定量分析模型从客观角度分析了汇源集团所面临的外部机会、威胁和内部优势、劣势,通过定量与定性结
随着经济的飞速发展,经济活动也变得越来越复杂,因此需要会计人员职业判断能力的进一步提高,以适应经济活动日益复杂化和多样化的需求,人们也逐渐意识到会计职业判断能力提高
在电力系统中,高压输电线路是其中必不可少的一个组成部分,在保证电力系统安全运行方面发挥着重要作用。在经济社会大发展的时代背景下,我国电力系统也得到了充分发展,在这种
二叠纪与三叠纪之交的生物大灭绝是自显生宙以来地球上发生的最大一次集群灭绝事件,距今约252Ma。这次事件造成当时海洋生态系统中大约90%以上的物种灭绝。许多学者将这次灾
鉴于两岸三地(或称大中华区)经贸政策日益开放、经贸活动益加频繁,汇率的角色举足轻重。所以,本文的主要研究动机是两岸三地的汇率联动性是否因政经体制及时空变化而有不同的
在日益激烈的竞争形势下,移动智能终端操作系统平台出现“百家争鸣”的现象。固网运营商受到来自互联网、智能网和移动话音等业务的影响,其赢利空间已越来越小,迫切需要寻求可持
在现代炼焦行业中,由于干熄焦工艺具有能源回收利用、保护环境以及改善焦炭质量等多项优点,建设和使用干熄焦已成为炼焦行业发展主流。干熄焦的节能与环保效果如何,干熄焦是
20世纪90年代,我国证券市场实现了无纸化操作,迎来了证券无纸化时代。但是,并未建立起适应无纸化发展需要的证券登记制度。我国证券登记制度并未定义证券账户法律性质,也未理清
本课题以天津钢管集团股份有限公司的信息化建设为背景,结合企业特点,以实际生产经营中的全过程质量管理为目标,作者在对业务部门的管理流程深入研究的基础上,对质量管控系统
现代汽车工业快速发展,为人类社会创造了巨大的财富,同时也带来了诸多环境问题。其中,重型柴油机NO_x(氮氧化物)排放已经成为大气污染物中氮氧化物的主要来源之一。针对NO_x排放须