【摘 要】
:
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始
【机 构】
:
微软亚洲研究院,北京,100080暨南大学华文学院预科部,广州,510610哈尔滨工业大学计算机学院,哈尔滨,150001
论文部分内容阅读
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始的知识载体,是大规模词例化知识的基本表示形式,关于这种语言知识的其他表示形式都是由此派生出来的.以自动分词技术为例,从分词规范到"规范+词表",然后到带分词标记的语料库,这条发展轨迹记录了人们在分词技术上取得的巨大进步,尤其是认识上的深化.本文通过2003年国际自动分词评测活动Bakeoffl介绍了活动用四种带分词标记的语料库来实现全自动评测的新方法.然后作者通过对BakeofflPK和AS两个测试语料库的调查发现,它们的分词出错率分别达到了1.29%和2.26%,从而对分词系统的评测结果带来显著的影响.为此建议用标注信息的出错率来定量地评价每个带标语料库的标注质量,以真正维护其金本位的功能.
其他文献
本项研究表明,土壤脲酶活性在NAM的作用下明显下降.这一作用在25~30℃的温度条件下可持续45天以上.与对照(只施尿素)相比(设对照脲酶增长为100%),而NAM处理在最高时只增加50%~60%.
肥料包括有机肥料、元机肥料和生物肥料.传统农业主要靠有机肥料增加作物产量,现代农业主要靠无机肥料提高作物产量,生物肥料以无机、有机肥料为基质间接提高作物产量.生物有
本文简要的介绍了喷浆造粒复合肥工艺流程和生产中存在的几个问题,针对上述生产中出现的几个问题的具体工艺改造.
本文应用Wilson法设计叶片,采用点的坐标的几何变换理论求解叶片各截面在空间实际位置的三维坐标,基于三维几何建模理论。采用PROE的曲面造型技术对叶片进行整体表面造型,获
关系数据库上提供关键词基于文本和数字属性的精确查找发展迅速,但是还不能较好的处理模糊查找以满足用户的更高要求。针对关系数据库上的关键词信息检索系统基于数字属性的
基于图像的三维建模已成为当前计算机图形学领域研究的热点与难点。基于单幅图像几何信息的交互式建模方法针对至少具有两个灭点的单幅照片,通过人机交互的方式标出场景中物体
本文为移动WebServices提出基于JAVA的解决方案及其优化方案-基于上下文的移动WebServices,根据获得的客户端上下文信息处理SOAP消息.根据信息的新类型对上下文进行扩展.由We
通过语义分析可以理解自然语言语句,并进行深入的知识获取和推理,使计算机能够与人类无障碍的沟通.为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想.浅层语
本文提出一种在BBS环境下进行热门话题挖掘的算法.BBS以讨论为主的文体决定了同一话题的文章在词语向量上并不一定相似,单纯采用基于向量空间模型的聚类算法难以有效地完成话
随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出.对于此类信息的组织和分析挖掘在话题检