蕴含地理事件微博客消息的自动识别方法

来源 :地球信息科学学报 | 被引量 : 0次 | 上传用户：wb_0622

【摘要】

：

微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件

【作者】

：

仇培元陆锋张恒才余丽

【机构】

：

中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,中国科学院大学,

【出处】

：

地球信息科学学报

【发表日期】

：

2016年07期

【关键词】

：

自动识别方法微博客地理事件事件文本识别主题模型词向量文本事件信息识别方法定点监测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。 Microblogging text contains rich types of geographic event information, which can make up for the shortcomings of traditional fixed point monitoring and improve the quality of emergency response. However, due to the general lack of large-scale annotation corpus, it is impossible to use the supervised learning process to identify micro-blogging texts that contain geographic event information. To this end, this paper proposes a method of automatic recognition of microblog messages containing geographic events, which enhances the recognition effect through the rapid acquisition of corpus resources. The method uses the theme model to extract the topic set in the document, and filters the candidate corpus text through the topic to realize the automatic extraction of the geographic event corpus. At the same time, the distributed expression vector vector model is introduced into the process of event correlation calculation, and the context content of micro-blog short text is enriched by the semantic information hidden by word vectors to further enhance the recognition effect of event messages. Experiments conducted with Sina Weibo as a data source show that the proposed F-1 value of the message texts containing event information microblogging messages is 71.41% SVM model supervised learning method increased by 10.79%. In the simulated real microblogging environment 5 million micro-blog data set recognition accuracy of 60%.

其他文献

生命因你而美丽

他不羁的脸像天色将晚，她洗过的发像心中火焰。短暂的狂欢以为一生绵延，漫长的告别是青春盛宴……　　王菲用竖琴般的音色吟唱着《致青春》，不知是在赞颂还是在告别，告别那些被欢笑、泪水、幸福、遗憾所填满的年华岁月。青春，一个让人欣喜又忧伤的词语。　　有些甜蜜。欣赏的人，手中紧攥着牛奶瓶，轻轻摆在你的桌前，一张便条提醒着添衣保暖，一首吉他小调描摹着信念，一次偶然相遇让心思昭然若揭。青春是甜的，夹杂着厚重的面

期刊

偶然相遇王菲青芥辣作文大赛光里青柠高中组小管人间喜剧指导教师

人巨细胞病毒单克隆抗体的研制检定和应用

采用人巨细胞病毒（ＨＣＭＶ）ＡＤ１６９株作为免疫原，制备出１３株鼠－鼠杂交瘤细胞系。对其中的６株进行了检定．免疫印迹试验结果表明：单克隆抗体（ＭｃＡｂ）７Ｂ４、７Ｄ７、７Ｅ１１、８Ｅ８和８Ｄ６相对应的ＨＣＭＶ多肽分子量分别为４６、１５０、３８、５１７２和６５ｋＤ．ＨＣＭＶ感染人胚肺二倍体

期刊

人巨细胞病毒单克隆抗体抗体捕获法抗原片杂交瘤细胞系免疫原病毒体免疫印迹试验早期抗原假阳性

小说语言的难题

讨论小说语言,分歧总是难免的.麻烦在于更多的时候分歧总在一开始就决定了,而我们却视而不见,在那里热烈地讨论着以后的分歧,并在那里争论不休,寻求着孰是孰非的结果,自然,

期刊

小说语言小说叙事小说艺术叙述视角语言叙述语言修辞语言艺术语言规则表现好罗兰·巴特

卡尔曼滤波与土壤水数值模型耦合推求渗透系数

本文采用非饱和土壤水数值模拟结合卡尔曼滤波实时校正技术推求饱和渗透系数,根据饱和渗透系数在强降雨期、无雨或小降雨期的变化,发现在强降雨期土壤中形成自由水后农田作物

期刊

渗透系数土壤水运动孔隙介质土壤含水率数值模拟模型耦合大孔隙雨期实时校正非饱和带

槽形内域中的数值许瓦尔兹──克力斯托夫保角变换

针对数值计瓦尔兹─克力斯托夫保角变换过程中出现的数值奇异性，根据复平面上槽形内域边界的特点，分别导出了左右对称槽形内域和左右非对称槽形内域的保角变换公式，并给出保角变

期刊

槽形保角变换瓦尔兹复平面变换参数斯托左右对称非对称结构变换法二次变换

突破性免疫疗法将惠及2.5亿慢性乙型肝炎病毒感染者

目前,各种治疗CHB的方法也仅仅是抑制病毒,而无法清除病毒。患者依然生活在各种并发症的危险之下,部分人最终导致死亡。Lion TCR公司的科学创始人Antonio Bertoletti教授以及

期刊

德国汉堡大学乙型肝炎免疫疗法研究机构产品开发资讯网特异性杜克策略方案

IL－10和IL－4在人类感染中的免疫抑制作用

ＩＬ－１０和ＩＬ－４在人类感染中的免疫抑制作用／〔英〕ＳｉｅｌｉｎｇＰＡ…／／ＪＩｍｍｕｎｏｌ．─１９９３，１５０，─５５０１～５５１０ＩＬ－１０和ＩＬ－４是对机体的细胞免疫反应起抑制作用的两种细胞因子。研究表明：在麻风患者病变部位，ＩＬ－１０和ＩＬ... Immunosuppression of IL-10 and IL-4 i

期刊

免疫抑制作用类感染IL麻风患者细胞免疫反应细胞因子麻风分枝杆菌增殖反应人外周血细胞群

颅底椎动脉的手术解剖

头颈外科医生熟悉颈前部解剖，不熟悉颈后外侧的解剖，对累及颅底后外侧的肿瘤，常觉棘手。该作者在解剖7个尸体的基础上，详细介绍了颅底外侧的解剖，对开展此部位的手术，尤其对定位、

期刊

手术解剖乳突尖解剖标志斜方肌颈前部头长肌头夹肌外科医生静脉丛发育不良

提高非放射性标记核酸分子杂交敏感性的研讨

提高非放射性标记核酸分子杂交敏感性的研讨王伯云，彭玮丹，吴人亮，李玉松（西安第四军医大学病理学教研室，西安７１００３２）非同位素标记核酸探针应用于分子杂交技术，已受到重视，正在生物学和医学

期刊

核酸分子杂交非放射性标记非同位素标记核酸探针光敏生物素斑点杂交地高辛标记基因诊断医学领域玉松

氧自由基清除剂抗骨骺缺血再灌流损伤的研究

期刊

氧自由基清除剂缺血再灌流带血管蒂股骨上段软骨细胞组织形态胫腓骨右后肢分笼饲养胞核固缩

蕴含地理事件微博客消息的自动识别方法

其他学术论文