论文部分内容阅读
在参照众多语言学家关于新词新语的定义及其界定的基础上,定义了适合计算机处理的新词新语的扩充集--新现词语,给出了从大规模现代汉语语料库中基于数据挖掘技术的新现词语发现,并利用该技术辅助新词新语词典的编纂.新现词语发现先将非结构化数据准结构化,再利用数据变换函数将其转换为结构化数据,最后再用结构化数据挖掘技术进行数据挖掘.利用上述方法,对1991年人民日报的部分语料(约400万字)进行了初步测试,取得了良好的效果.