基于微博数据的微博用户性别判断研究

被引量 : 0次 | 上传用户:dfvg43g3544
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,越来越多的人开始享受互联网带来的便利。微博作为一项基于网络的社交应用,因为其快捷、社交性的特点,成为人们发表言论、讨论社会话题等的一项重要工具。正是由于其用户群体庞大、传播速度快、具有群体效应等特点,广告媒体、社会舆情监督部门等急切需要通过微博分析,挖掘出可用的信息。另外,如何通过对微博内容及用户资料,研究用户的行为习惯、检测网络欺诈行为等,也是诸如Twitter、Facebook、腾讯、新浪微博等社交媒体研究工作的一个重要部分。如果能够通过微博用户的性别、年龄、爱好等特征进行有效的预测,必然会在以上提到的方面发挥巨大的作用。目前国内外虽然已经针对微博的信息挖掘做了相当多的工作,但这些工作主要集中在话题发现、微博情感分析、意见领袖发现、社交群体挖掘等方向,而针对用户的属性信息,如性别、年龄分类的研究较少。本文仅选取与用户性别相关的特征,通过对微博内容以及能够获取到的用户个人信息,设计了分类算法,在用户的性别分类判断方面做了一些研究工作。本文的主要贡献和创新点如下:1.以腾讯微博为例,研究了腾讯微博的开放平台接口和微博特点,提出了基于微博内容的用户名自动发现算法和海量微博文本自动下载算法。在对腾讯微博的内容进行分析时,发现其中有很多和其他用户的互动,而这些操作都涉及到其他用户的用户名,据此提出了用户名自动发现算法;结合腾讯官方开放平台提供的微博数据下载接口,利用自动发现的用户名,设计了海量微博数据自动下载算法、用户信息自动下载算法,建立了微博语料库,包括微博文本信息和用户的个人资料。2.根据对微博内容和用户信息的统计分析,提出了根据昵称和动词进行性别分类的算法以及分类时特征词提取的方法。通过对下载的海量微博内容和用户个人资料的抽样统计分析,发现用户的昵称大都与汉语的人名相似,而汉语人名具有比较强的性别区分性,因此提出了一种基于昵称的性别分类方法,以昵称中的单个字为特征进行了分类研究;在对微博文本进行分词后,对动词在两种性别中出现频次的统计分析,发现部分动词具有较大的性别区分度,根据这个特点提出了一种基于动词的性别分类算法,设计了动词特征项选取的标准。通过实验对比和分析,发现以上提出的算法,在性别分类中具有较好的准确率。
其他文献
工伤保险权益是农民工社会保障权的重要组成部分,但由于制度与相关配套设施欠完善,使得农民工在实现工伤保险社会保障权的过程中遭遇了许多困境。本文旨在探究农民工工伤保险
浙江东阳以“人才之乡”和“百工之乡”名闻于世,但“百工之乡”的形成要比“人才之乡”早,且对东阳的社会经济发展影响深远。本文探讨了“百工之乡”的形成、发展过程,提出了促
城市化体现了人类创造的又一次文明,但是,过快的发展却带来了一系列的环境污染和生态破坏问题。目前,生态城市建设已经成为了世界发展的主流,各个国家都在寻求改善城市环境的
为满足人们的生活和生产的需要,各种大型复杂结构不断涌现。因为结构在长期使用过程中不可避免地受到环境侵蚀、荷载长期效应、突变效应等因素的影响,所以会引起结构受损以及
目的:本课题研究“补肾益髓埋线法”对绝经后骨质疏松模型大鼠的下丘脑-垂体-肾上腺轴的影响,并观察绝经后骨质疏松模型大鼠血清性激素水平、下丘脑、肾上腺受体α mRNA的表达
车站设备监控系统是地铁车站设备安全管理的其中一种重要手段。受限于显示屏的尺寸,传统的车站设备监控系统无法对车站全局进行直观的监控,只能监控某个具体区域。为解决这一
以上海轨交13号线金科路站公交枢纽的基坑工程为背景,介绍了在紧邻地铁连通道口及地下隧道的复杂环境条件下,为缩短工期,将原深基坑“分坑”改为“双坑合一”施工的总体思路
对同一基坑工程中分别采用预应力装配式钢支撑和桩锚进行支护的施工效果和经济性进行了对比。结果显示,预应力装配式钢支撑的形态控制能力强,且支撑构件可重复利用,节能、环
2012年8月31日,第十一届全国人民代表大会常务委员会第二十八次会议通过了《关于修改<中华人民共和国民事诉讼法>的决定》。新民事诉讼法的诸多亮点之一便是首次以立法的形式
进入二十一世纪以来,我国铁路交通快速发展,无论是城市轨道交通还是高速铁路,都呈现出迅猛增长的势头。如何在线对轨道进行高效准确的无损检测就显得越来越重要。传统的检测