基于词向量的向量空间模型的改进

来源 :现代计算机 | 被引量 : 0次 | 上传用户:yzymd_223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
向量空间模型是目前比较主流的文本表示模型,在多个领域内都有着很好的表现,但它却有着维度较高、不能有效提取特征词语义、文本表示稀疏等缺陷。针对以上不足,在传统的向量空间模型的基础上引入能高效获取语义的词向量,提出一种新的文本表示模型。该模型首先通过对特征词的词向量聚类,用聚类质心代表该类的其他特征词,求出聚类质心的TF-IDF权值,能够降低文本表示向量的维度、优化文本表示稀疏的问题和改进在计算TF-IDF权值中遇到的一词多义和同义词问题;再将聚类质心的权值与其词向量结合生成文本表示向量,使其能有效获取文本语
其他文献
根据相机内外参数标定方法的结论与性质,通过对阴影成像系统成像原理的分析,利用泰勒级数对图像坐标拾取偏差引起的空间坐标测量误差进行研究,获得了阴影成像系统空间坐标测量误差的数学模型。假定图像坐标拾取误差满足独立同分布,得到测量误差一次矩和二次矩的数学表达式,并进一步分析相机位于标定面同侧且与标定面等距时测量误差的概率特性。符号分析及数值验证结果表明:阴影成像系统坐标测量误差的各个分量非独立;图像识别
用2%”科瀚98”抗旱保水剂拌种法处理对弯孢菌叶斑病有不同抗病性的供试玉米品种,于出苗期、5-6叶、7-8叶及成熟后期调查玉米长势,并在自然发病情况下,分析经济产量。实验表明,保水剂在一定
从反思传统体育教学内容和课程体系入手,用辩证、发展的观点确立大学体育课程内容选择和体系建立的标准,以建构适应未来中国大学体育教育发展的新模式.
通过外源添加Ca^2+,EGT和Verapamil(异博啶),初步研究了渗透胁迫下CaM合成与Ca^2+的关系。渗透胁迫下,0mmol/L,20mmol/L,Ca^2+,EGTA和Verapamil处理均提高小麦幼苗根叶CaM含量。
从新时期农业技术创新的需要出发,分析了农业技术创新的信息需求特点,提出了农业技术创新机构满足自身信息需求的措施和策略.
针对浅海水声信道的强多途、长时延、严重衰落等特点,需采用性能好、能够实现线性编译码便于实时处理的信道纠错码技术以提高水声通信系统可靠性的问题,提出重复累积(Repeat-A
近年来,菜用大豆因其营养价值高,味道鲜美,并可用于出口创汇,越来越受到各国育种家的重视.本文从菜用大豆的品种选育、产量构成因素及经济效益、相关性状和品质育种等方面进
1949年新中国建立以来,我国农业产业结构变更大致经历了3个阶段,即:1950~1978年奠定粮食增长基础的设施建设阶段,1979~1984年的政策效应刺激粮食增长阶段,1985~1995年的突破以粮
1973年,中共中央决定恢复邓小平的工作。2月邓小平从江西回到北京,3月恢复国务院副总理的职务。1973年12月22日,中央根据毛泽东的意见,周恩来亲笔代中央起草文件,通知全党,邓
<正>发布时间:2011-05-27文号:汇发[2011]19号国家外汇管理局各省、自治区、直辖市分局、外汇管理部,深圳、大连、青岛、厦门、宁波市分局:为进一步明确《国家外汇管理局关于
期刊