论文部分内容阅读
目前针对特殊人群的研究还主要停留在基于人群抽样的现场访谈和问卷调查,这种传统方法效率低、样本有限,且由于特殊人群极强的隐蔽性和难接触属性,使得调查结果的真实性也有待考量,对特殊人群的行为研究迫切需要一种更加科学有效的方式。随着互联网的发展,人们的社交生活发生了巨大改变,越来越多的人习惯在各种网络虚拟社区中发布、传递和共享消息,其中也包括诸如艾滋病、男同性恋(MSM)等特殊群体。各种互联网社区上蕴含的海量用户发言和活动数据,为研究特殊人群提供了新的突破口,能有效解决特殊人群及其数据的难接触问题。本研究以艾滋病人群和男同性恋人群这两类在我国最具代表性的特殊群体为例,通过采集全球最大的在线中文社区——百度贴吧中HIV主题、MSM主题和新闻时事主题共36个贴吧的贴吧数据和用户信息,从时间、文本、情感、网络、社区等多个维度分析特殊人群的在线活动模式,深入剖析了特殊人群在线行为的特点。并结合与北京大学的合作项目,验证了通过在线数据挖掘分析特殊人群这一方法的可行性与实际应用价值。研究发现,艾滋病群体和男同性恋群体在线活动都表现出明显的特征,具体表现为:艾滋病人群在线活动时间更规律,讨论的话题大多围绕着HIV/AIDS,并且在线艾滋病人群同样会关注其它更多的艾滋病主题社区;相较而言,男同性恋人群在每天的活跃时间会持续到很晚,且活动目的大多与交友、处对象有关,并且男同性恋人群对同类型贴吧的关注表现出很强的偏好性,主要集中在少数几个MSM主题贴吧。对艾滋病主题社区进一步挖掘发现,社区中用户的平均主题相似度与该社区对应的交互网络的网络效率存在正相关关系。并且在情感表现上,社区中消极情绪占据主导地位,各艾滋病社区中消极用户比例大多位于60%左右。本研究通过对艾滋病主题和男同性恋主题网络社区数据的挖掘,对艾滋病人群和MSM人群的在线活动特点进行了多视角的直观呈现,证明了通过在线数据分析挖掘特殊人群的多维特征这一研究方法的可行性,对特殊人群传统调查研究方法是一个极大的补充。