聚类算法在结构化语言模型中的应用

来源 :电信技术研究 | 被引量 : 0次 | 上传用户:lyd936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
逐步把握文章的语义对于自然语言处理来说是一项很大的挑战。在自然语言处理中,数据的稀疏性是一个让许多学者都感到头疼的问题。当一个词语的词频小到不能进行可靠的极大似然估计的时候,机器就不能准确的把握这个词的含义了。一个词的含义可以通过计算该词的相似词含义的加权得出。所以,词与词之间的相似度对于解决词语稀疏性问题将会有所帮助,本文所研究的词语相似度计算也是基于这一点进行的。实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进。在本文中,首先介绍国内外关于相似度计算的几种成熟的
其他文献
首先介绍了网络安全态势感知研究背景、概念。针对目前网络态势感知研究框架,总结网络安全态势感知模型的发展演变。比较不同模型的差异,分析了模型的优缺点及适用环境。最后介
重点介绍了对抽验不合格药品进行核查工作的内容、目的及其重要性,并简要叙述了其核查方法.
本文使用减法聚类算法对机载平台无源定位数据进行处理,达到了分选目标和对目标进行定位的目的,同时通过仿真试验验证了该方法的可行性。
本文研究了最大似然估计和最小二乘加权估计用于机动目标定位的问题。常规的几何交会定位受测向误差影响较大,定位精度低。本文将目标的位置坐标作为待估计量,采用统计学中的最
中医药传承发展至今,虽然取得了一些成果,但仍未突破固有的模式和框架,制约中医药发展的一些瓶颈问题至今尚未得到有效解决,中医药应用和潜力挖掘不够。为此,笔者就相关问题
依据大量监测、调查资料,从河道断流、水库蓄水量减少、地下水超采、泉水衰竭等方面阐述了山西省存在的水资源短缺问题;从河流、水库、地下水水环境恶化等方面说明了山西省水环境污染的严重性。提出了维护河道生态平衡、控制地下水超采、防止水质污染、治理水环境的具体措施。
AD9910是ADI公司首次推出的一款速度达到每秒一吉次采样(GSPS)同时将功耗减小50%以上的直接数字频率合成(DDS)器件。本文简单介绍TAD9910的系统结构和工作原理,并在此基础上给出了
目的 探讨IgA 肾病中医湿热证微观辨证相关性病理指标,为IgA 肾病湿热证候诊断寻找客观依据.方法 多家医院协作收集数据,对研究对象根据湿热证诊断标准进行中医辨证并量化评
介绍了新时期科技期刊创新的特点和对科技期刊编辑创新素质的要求,指出了提高科技期刊编辑创新素质的途径.
本文探讨了国际互联网(Internet)网络安全设备——安全加密路由器,它是集常规路由器和安全、加密功能于一体的“内嵌式”安全加密路由器,提出了它要解决的主要问题和相应的设计