论文部分内容阅读
近年来,随着社交网络传媒的飞速发展,越来越多的人习惯使用如微博,twitter,Facabook以及各大论坛作为针对各类事件发表看法、态度和言论的窗口与平台。在不同的平台上,每分每秒都有数以亿计的文本信息发布,各类突发事件及热点新闻在这些平台上的传播速度大大快过传统媒体,那么,如何能够快速对这些文本进行挖掘分析,实时地从中找出当前热点,成为了一个十分有价值的研究方向。本文主要针对社交网络传媒中用户产生的文本数据进行主题挖掘算法的研究与改进工作,并通过分布式计算平台提升算法的运行效率。本文分析了社交网络传媒中进行热点挖掘的难点,依据传统短文本热点建模方法的优点与不足,并为保证方法的实时性和有效性,提出了基于SIFRANK算法流程改进的关键热词挖掘算法HSIFRANK和基于词共现模型的热点话题挖掘算法HCH,以及并将其应用于Spark分布式计算框架,提高了输出话题的可解释性,在社交网络传媒下的文本挖掘效果等,这能为下游的数据分析,舆情监管环节提供有效的数据支持和保证。本文的主要研究内容如下:(1)由于在社交网络传媒的场境下,文本存在有携带信息量不足,数据稀疏,特征维度高等问题,为了克服这些问题,本文通过改进热度评价指标,并在短文本关键词提取任务上效果显著的SIFRANK算法的基础上,添加热度权值、新词发现模块,并分离原算法计算词向量的步骤,提出了能够高效地提炼短文本中关键热词的方法HSIFRANK,其提炼短文本热词的效果不差于SIFRANK,并在提取速度上领先了5到8倍。(2)根据社交网络传媒中的用户社交关系,话题热度变化,网络水军,营销号等情况对热点挖掘产生的影响,设计热度权值模型,提出了对传统共现词模型进行改进的算法HCH,使用滑动窗口算法、HSIFRANK、PWMI、用户特征、文本特征、热度变化率等,得到热点话题热度排行榜单,能够保证所得热点话题的可靠性、话题可解释性、有效捕捉热度跃迁话题、挖掘热点子话题等。(3)使用Py Spark分布式计算框架,将原单机算法改进为分布式环境下可运行算法,加速了算法运行,提升算法运行效率。(4)使用了4种不同的社交网络传媒数据集,测试了改进算法在提炼短文本关键热词的性能,热点话题挖掘的主题优劣性,相对于单机算法的加速比等方面。实验表明,相较于基准算法,改进算法在运行速度、热词召回、输出话题可解释性及可靠性、热度跃迁话题挖掘等多个方面的表现均更加优秀。