基于古汉语语料的新词发现方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:pjliuchuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词。实验结果表明,该新词发
其他文献
通过分析钢厂滚道输送线用调心滚子轴承工况,提出了高温重载差曲率专用轴承,解决了钢厂输送线用高温轴承寿命难题,并对差曲率的定义、原理和制造方法给出了明确的论述,使之更
汽车产业是一个国家经济发展的支柱产业,对国民经济的发展具有很强的拉动作用。汽车产业是一个多层次、宽领域的产业链,上游产业涉及钢铁、机械、石化、橡胶、电子、纺织等行
地铁作为城市轨道交通的重要形式,在给人们生活带来便利的同时,也产生了振动与噪声污染的问题。文章分析了地铁振动与噪音给人类生活带来的危害,并从轮轨减振、扣件减振、浮
从《列女传》卷一《母仪》篇着手,将《母仪》篇所宣扬的主旨与其所引诗句结合起来分析研究,以期对《列女传》所标举的女性形象、《列女传》和《诗经》的主旨本义等都有更进一
鹿鞭又名鹿冲、鹿茎筋,由雄性成年鹿的阴茎和睾丸组成。传统鹿鞭单指鹿的阴茎。本规程鹿鞭是指鹿的阴茎和睾丸。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
为克服传统人工手动标定方法存在的效率低、主观评价偏差大等缺点,研究了湿式离合器颤振电流参数自动化标定的应用方法。选定滞环宽度和稳定油压振幅作为电磁阀的性能评价指
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
扬州是大运河文化带上比较重要的城市之一,是大运河申遗的牵头城市,同时也是唯一一个拥有大运河文化带、江淮生态经济建设区、城市口袋公园景观建设以及扬子江城市群这几个国