论文部分内容阅读
随着Internet技术的发展,互联网成为民众表达观点、参与社会公共事务讨论的重要渠道。由于对社会问题或社会事件的立场不同,网络用户之间会分成不同的阵营,开展网络辩论,出现网络群体极化现象。 本文应用机器学习、自然语言处理技术和方法,对各种模型进行集成,通过定量计算、定性分析相结合,从众多网民对辩论议题的点滴认识中,挖掘公众的意见倾向、观点结构,以及对同一主题表达不同观点的方式。从网民的行为信息、以及辩论中的互动信息挖掘网民表达意见的行为规律,以及持有不同立场的阵营之间的交互模式。本文主要研究内容包括: 第一,构建一种通过在线辩论的内容,自动获取公众意见倾向的方法。对于特定议题的网络辩论,通过网络数据定向爬取、逻辑回归提取领域特征词、SVM(support vector machine)模型分类预测,实现对同一主题下语言信息的自动立场分类。结合说服理论,对能够表征特定领域立场的特征词进行分析,探索不同阵营的观点表达方式。 第二,在立场分类的基础上,通过LDA(latent Dirichlet allocation)模型生成不同阵营的话题,这些话题即体现不同阵营对同一议题的不同认知。结合立场表达的理性层次对不同阵营的话题进行分析,通过统计阵营中话题的分布,对各个阵营表达观点的理性程度进行量化和比较。 第三,根据在线辩论的互动关系构建辩论网络,网络中的节点为辩论参与者,网络中的边为辩论参与者之间的回复关系。根据网络用户的行为、网络特性,挖掘辩论参与者的行为规律;通过辩论网络节点的属性识别辩论中的关键人物,并对关键人物的意见表达进行分析;通过对辩论网络开展分析,如网络的聚集性、连通性,以及辩论网络的三元闭包、结构平衡三元组的统计,挖掘辩论过程中不同阵营内、阵营之间的互动模式。