蕴含地理事件微博客消息的自动识别方法

来源 :地球信息科学学报 | 被引量 : 0次 | 上传用户:wb_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。 Microblogging text contains rich types of geographic event information, which can make up for the shortcomings of traditional fixed point monitoring and improve the quality of emergency response. However, due to the general lack of large-scale annotation corpus, it is impossible to use the supervised learning process to identify micro-blogging texts that contain geographic event information. To this end, this paper proposes a method of automatic recognition of microblog messages containing geographic events, which enhances the recognition effect through the rapid acquisition of corpus resources. The method uses the theme model to extract the topic set in the document, and filters the candidate corpus text through the topic to realize the automatic extraction of the geographic event corpus. At the same time, the distributed expression vector vector model is introduced into the process of event correlation calculation, and the context content of micro-blog short text is enriched by the semantic information hidden by word vectors to further enhance the recognition effect of event messages. Experiments conducted with Sina Weibo as a data source show that the proposed F-1 value of the message texts containing event information microblogging messages is 71.41% SVM model supervised learning method increased by 10.79%. In the simulated real microblogging environment 5 million micro-blog data set recognition accuracy of 60%.
其他文献
他不羁的脸像天色将晚,她洗过的发像心中火焰。短暂的狂欢以为一生绵延,漫长的告别是青春盛宴……  王菲用竖琴般的音色吟唱着《致青春》,不知是在赞颂还是在告别,告别那些被欢笑、泪水、幸福、遗憾所填满的年华岁月。青春,一个让人欣喜又忧伤的词语。  有些甜蜜。欣赏的人,手中紧攥着牛奶瓶,轻轻摆在你的桌前,一张便条提醒着添衣保暖,一首吉他小调描摹着信念,一次偶然相遇让心思昭然若揭。青春是甜的,夹杂着厚重的面
采用人巨细胞病毒(HCMV)AD169株作为免疫原,制备出13株鼠-鼠杂交瘤细胞系。对其中的6株进行了检定.免疫印迹试验结果表明:单克隆抗体(McAb)7B4、7D7、7E11、8E8和8D6相对应的HCMV多肽分子量分别为46、150、38、5172和65kD.HCMV感染人胚肺二倍体
讨论小说语言,分歧总是难免的.麻烦在于更多的时候分歧总在一开始就决定了,而我们却视而不见,在那里热烈地讨论着以后的分歧,并在那里争论不休,寻求着孰是孰非的结果,自然,
本文采用非饱和土壤水数值模拟结合卡尔曼滤波实时校正技术推求饱和渗透系数,根据饱和渗透系数在强降雨期、无雨或小降雨期的变化,发现在强降雨期土壤中形成自由水后农田作物
针对数值计瓦尔兹─克力斯托夫保角变换过程中出现的数值奇异性,根据复平面上槽形内域边界的特点,分别导出了左右对称槽形内域和左右非对称槽形内域的保角变换公式,并给出保角变
目前,各种治疗CHB的方法也仅仅是抑制病毒,而无法清除病毒。患者依然生活在各种并发症的危险之下,部分人最终导致死亡。Lion TCR公司的科学创始人Antonio Bertoletti教授以及
IL-10和IL-4在人类感染中的免疫抑制作用/〔英〕SielingPA…//JImmunol.─1993,150,─5501~5510IL-10和IL-4是对机体的细胞免疫反应起抑制作用的两种细胞因子。研究表明:在麻风患者病变部位,IL-10和IL... Immunosuppression of IL-10 and IL-4 i
头颈外科医生熟悉颈前部解剖,不熟悉颈后外侧的解剖,对累及颅底后外侧的肿瘤,常觉棘手。该作者在解剖7个尸体的基础上,详细介绍了颅底外侧的解剖,对开展此部位的手术,尤其对定位、
提高非放射性标记核酸分子杂交敏感性的研讨王伯云,彭玮丹,吴人亮,李玉松(西安第四军医大学病理学教研室,西安710032)非同位素标记核酸探针应用于分子杂交技术,已受到重视,正在生物学和医学