论文部分内容阅读
随着互联网的高速发展,越来越多的人开始享受互联网带来的便利。微博作为一项基于网络的社交应用,因为其快捷、社交性的特点,成为人们发表言论、讨论社会话题等的一项重要工具。正是由于其用户群体庞大、传播速度快、具有群体效应等特点,广告媒体、社会舆情监督部门等急切需要通过微博分析,挖掘出可用的信息。另外,如何通过对微博内容及用户资料,研究用户的行为习惯、检测网络欺诈行为等,也是诸如Twitter、Facebook、腾讯、新浪微博等社交媒体研究工作的一个重要部分。如果能够通过微博用户的性别、年龄、爱好等特征进行有效的预测,必然会在以上提到的方面发挥巨大的作用。目前国内外虽然已经针对微博的信息挖掘做了相当多的工作,但这些工作主要集中在话题发现、微博情感分析、意见领袖发现、社交群体挖掘等方向,而针对用户的属性信息,如性别、年龄分类的研究较少。本文仅选取与用户性别相关的特征,通过对微博内容以及能够获取到的用户个人信息,设计了分类算法,在用户的性别分类判断方面做了一些研究工作。本文的主要贡献和创新点如下:1.以腾讯微博为例,研究了腾讯微博的开放平台接口和微博特点,提出了基于微博内容的用户名自动发现算法和海量微博文本自动下载算法。在对腾讯微博的内容进行分析时,发现其中有很多和其他用户的互动,而这些操作都涉及到其他用户的用户名,据此提出了用户名自动发现算法;结合腾讯官方开放平台提供的微博数据下载接口,利用自动发现的用户名,设计了海量微博数据自动下载算法、用户信息自动下载算法,建立了微博语料库,包括微博文本信息和用户的个人资料。2.根据对微博内容和用户信息的统计分析,提出了根据昵称和动词进行性别分类的算法以及分类时特征词提取的方法。通过对下载的海量微博内容和用户个人资料的抽样统计分析,发现用户的昵称大都与汉语的人名相似,而汉语人名具有比较强的性别区分性,因此提出了一种基于昵称的性别分类方法,以昵称中的单个字为特征进行了分类研究;在对微博文本进行分词后,对动词在两种性别中出现频次的统计分析,发现部分动词具有较大的性别区分度,根据这个特点提出了一种基于动词的性别分类算法,设计了动词特征项选取的标准。通过实验对比和分析,发现以上提出的算法,在性别分类中具有较好的准确率。