基于词矢量的K均值短文本分类

来源 :中国科学院声学研究所纪念建所50周年暨第五届学术交流会 | 被引量 : 0次 | 上传用户:hulisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要以互联网中出现的短文本作为研究对象,由于短文本具有内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低.传统的文本分类算法,通常使用词袋模型或空间向量模型,将文本离散化,使用维度为词典大小的向量来表示文本.这种表示方法认为词与词之间是孤立的,忽略了词之间的句法和语义相似度.鉴于此,本文提出了一种基于词矢量的K均值(K-Means)短文本分类算法,利用词矢量将词映射成低维矢量,矢量之间的距离描述了词之间的句法和语义相似度.实验证明,本文提出的方法能够有效的解决集外词现象.
其他文献
随着信息化教学技术的丰富和完善,中职教育正越来越多地利用信息化技术、网络技术、多媒体应用等来构建多样化课堂.在中职学前教育专业美工课教学中,信息化技术被广泛应用,且
Q:新生儿为何体香?A新生儿粉粉嫩嫩,圆实可爱;闻起来又有一种特别的味道,一般认为这是宝宝的奶香味;但最近美国医生LorettaPratt Balin MD在其著作《皮肤的生命》指出,这是因
目的:探讨现阶段影响我国医学专业学位临床教学发展的内外因素,为之后临床医学专业学位研究生的临床教学提供参考.方法:采用SWOT分析临床医学专业学位研究生临床教学内部的优
本文针对汉语语音关键词检索任务中的集外词检索提出了一种基于局部声学信息的改进算法.在汉语语音识别和语音关键词检索任务中,由于集外词可以由词典内部的字词组合而成,因
会议
为了能够有效的从包含歌声的复调音乐中提取主旋律,提出一种贝叶斯框架下的旋律提取方法.充分利用音乐信号中的各种信息,在贝叶斯概率框架下通过表示基频变化特性的基频演变
会议
[摘 要] 课程思政是当前高校思政教育工作的一部分,如何将思政教育与专业知识有机结合,是高校教师需要思考的问题。讨论在结晶学与矿物学课程中开展思政教育的必要性和可行性,对于该课程思政内容的设计及实施过程提出建议。  [关 键 词] 课程思政;结晶学与矿物学;教学改革  [中图分类号] G642 [文献标志码] A [文章编号] 2096-0603(2020)49
列宁在劳动人民中享有极高的威望,可是他从不滥用职权,也不容许为了他而在国家的规章、制度、法律方面,造成某种例外。十月革命胜利后,有些农场的同志给列宁送来一些水果样
期刊
朝鲜语在语言形态学中是一种黏着语。在茹着语语音识别技术中,子词切分技术致力于解决黏着语缺乏自然语言模型建模单元的问题,其语言中的自然词由大量词缀附着于词干而构成.在
会议
教学策略设计是从教学活动顺序、教学方法、教学媒体、辅助教学资源需求等方面,对教学过程进行全方位的系统设计.从“以学员能力生成为核心”的教学理念入手,剖析了教员与学
提出了一种基于能量谱包络非负矩阵分解的钢琴多音符估计算法.首先对钢琴88个单音片段进行RTFI时频分析,求得对应平均能量谱,经过时序平均、归一化求得平均能量谱包络,拼接成
会议