汉语意见型语句主题与情感关系抽取的研究

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:liug1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展,越来越多的人在网上发表观点、评论等。目前对于这些包含观点的意见型文本的研究十分活跃,而主题与情感的关系匹配是意见挖掘中比较关键的一项研究内容。通过获得的意见元素关系(以下简称元素关系)为意见挖掘的后续研究奠定了基础,同时元素关系可以有效解决汉语意见挖掘中指代消解以及评价对象遗漏等问题。本文主要研究意见型文本中主题、情感成分的抽取以及二者所含有的元素关系等。本文首先使用信息检索中常用的tf/idf算法抽取主题,利用情感词词典抽取情感,然后将同一个句子中共现的主题以及情感作为候选集合,使用最近匹配以及SVM算法并结合词汇,词性,语义、距离等句子以及上下文特征进行主题以及情感的元素关系抽取。最后,本文除了比较两种算法,还比较了不同规模,不同正反例比例以及不同领域条件下的系统性能指标。
其他文献
本文研究开放式中文命名实体识别问题。针对传统命名实体识别方法具有训练语料标注困难,自适应能力不强等缺点,研究人员提出了开放式的命名实体识别。但由于汉语的特殊性,使得开
在利用统计方法对文摘中词频特征和词位置分布特征进行分析的基础上,提出增加词同现特征用于自动文摘系统的新方法。文中把该方法表示为基于词位置与同现特征的中文自动文摘模
随着生物医学的迅速发展,从医学文献中抽取蛋白质关系已经成为面向生物医学方面的自然语言处理任务中一项非常重要的任务。目前研究学者已经提出很多蛋白质关系抽取的方法,但是
会议
近年来,关于药的作用及其对人类健康影响的研究越来越多,相关的文献也迅速增长,工业界认为90%的药物标靶来自于生物医学文献,随之基于药的相关检索逐渐成为焦点。而为相关专家提高
会议
针对专利文献专业术语相对较多、形式规范、语言严谨的特点,本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进,并加入了词汇语
特殊命名实体**是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重
会议
“很多书我都没看过,很多作家都没听说过,很愚蠢。那么多思想,人类宝贵的财富,那么美好的东西我都没有经历。”2011年,我跟(薛)蛮子一样也得了癌症,也是肠癌,部位也差不多,但
蛋白质相互作用关系抽取是蛋白质知识网络构建的必要前提,对生物医学领域的研究具有十分重要的意义。本文使用了基于SVM的方法,从生物医学文献中抽取蛋白质相互作用的有向关系
会议
查询切分是对查询进行结构分析和优化的基础。使用常规的分词方法对查询进行切分效果并不理想。在对分词错误进行分析的基础上,本文提出了一种单字消除和实体识别的查询切分方
话题跟踪属于话题识别与跟踪(TDT)的一项子任务,是一种基于事件的信息组织技术。话题跟踪任务就是根据某一话题的训练报道,在后续报道中找出讨论该话题的所有报道。用话题跟踪