论文部分内容阅读
社交媒体网络作为一种新型的互联网信息交流平台,在近几年内得到了迅猛地发展,越来越多的网民开始使用社交媒体分享信息,关注新闻时事,在以社交媒体为平台的基础上,构建了庞大、复杂的社交关系网络。通过对这些社交关系进行分析和总结,可以为社交媒体数据挖掘的研究提供高效结构化的数据源,并发掘出巨大的商业价值,因此研究社交媒体中用户之间的关系抽取具有重大意义。但由于社交媒体数据的复杂性和多样性,社交媒体语料与传统的新闻语料相比,用户关系特征提取更加困难,为解决这一问题,本文以Twitter这一具有代表性的网络平台作为对象,研究面向Twitter的多用户实例关系抽取技术,并提出一种基于分段卷积神经网络的深层网络模型,通过利用残差网络的特性对模型进行改进,提高关系抽取的性能。此外,由于社交媒体关系抽取数据集较少,为构造充足的实验数据集,本文还提出一种多通道数据采集框架,实现对Twitter数据的高效采集,并结合其数据特性,对数据进行噪声滤除和用户实例抽取,利用词向量技术对处理后的数据进行文本表示,将其转换为神经网络可以计算处理的数据格式,从而利用模型实现用户关系抽取。最后在上述工作基础上,设计并实现了Twitter的用户实例关系抽取系统。本文的主要工作如下:(1)实现了高效的Twitter数据采集。通过对Twitter数据采集技术的调研,根据实验需求与应用场景的需要,提出一种Twitter API与网页爬虫相结合的多通道采集框架。为保证数据源的多样性并解决采集受限的问题,提出了面向不同数据范围的采集策略,包括:基于特定用户的采集、基于关键词搜索的采集、实时采集等,保证了数据采集的高效性。(2)根据Twitter数据的特性,提出一种面向Twitter的多用户实例关系抽取模型,该模型通过对采集到的数据进行噪声滤除与用户实例抽取迭代,构造出适合实验训练和测试的样本,在此基础上利用残差网络特性构造深度卷积网络模型,从而优化关系抽取的性能,经实验表明,该模型在Twitter数据集中关系抽取的准确率与召回率均具有不错的效果。(3)设计并实现了面向Twitter的多用户实例关系抽取系统,该系统主要分为:数据采集模块、多用户实例关系抽取模块、结果展示模块。系统功能主要包括:Twitter数据采集与存储、Twitter数据噪声滤除、Twitter用户实例抽取迭代、用户关系抽取与存储、关系抽取结果展示等。经测试,该系统具有较好的性能,展示界面简单便捷,适用于实际的Twitter用户关系抽取。