基于分布计算的社交网络传媒热点挖掘算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:liongliong459
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交网络传媒的飞速发展,越来越多的人习惯使用如微博,twitter,Facabook以及各大论坛作为针对各类事件发表看法、态度和言论的窗口与平台。在不同的平台上,每分每秒都有数以亿计的文本信息发布,各类突发事件及热点新闻在这些平台上的传播速度大大快过传统媒体,那么,如何能够快速对这些文本进行挖掘分析,实时地从中找出当前热点,成为了一个十分有价值的研究方向。本文主要针对社交网络传媒中用户产生的文本数据进行主题挖掘算法的研究与改进工作,并通过分布式计算平台提升算法的运行效率。本文分析了社交网络传媒中进行热点挖掘的难点,依据传统短文本热点建模方法的优点与不足,并为保证方法的实时性和有效性,提出了基于SIFRANK算法流程改进的关键热词挖掘算法HSIFRANK和基于词共现模型的热点话题挖掘算法HCH,以及并将其应用于Spark分布式计算框架,提高了输出话题的可解释性,在社交网络传媒下的文本挖掘效果等,这能为下游的数据分析,舆情监管环节提供有效的数据支持和保证。本文的主要研究内容如下:(1)由于在社交网络传媒的场境下,文本存在有携带信息量不足,数据稀疏,特征维度高等问题,为了克服这些问题,本文通过改进热度评价指标,并在短文本关键词提取任务上效果显著的SIFRANK算法的基础上,添加热度权值、新词发现模块,并分离原算法计算词向量的步骤,提出了能够高效地提炼短文本中关键热词的方法HSIFRANK,其提炼短文本热词的效果不差于SIFRANK,并在提取速度上领先了5到8倍。(2)根据社交网络传媒中的用户社交关系,话题热度变化,网络水军,营销号等情况对热点挖掘产生的影响,设计热度权值模型,提出了对传统共现词模型进行改进的算法HCH,使用滑动窗口算法、HSIFRANK、PWMI、用户特征、文本特征、热度变化率等,得到热点话题热度排行榜单,能够保证所得热点话题的可靠性、话题可解释性、有效捕捉热度跃迁话题、挖掘热点子话题等。(3)使用Py Spark分布式计算框架,将原单机算法改进为分布式环境下可运行算法,加速了算法运行,提升算法运行效率。(4)使用了4种不同的社交网络传媒数据集,测试了改进算法在提炼短文本关键热词的性能,热点话题挖掘的主题优劣性,相对于单机算法的加速比等方面。实验表明,相较于基准算法,改进算法在运行速度、热词召回、输出话题可解释性及可靠性、热度跃迁话题挖掘等多个方面的表现均更加优秀。
其他文献
随着互联网的普及,来自新闻、博客、社交网络等媒体的文档爆炸增长,从中发现特定信息的需求因而日益强烈。对于大规模文本,主题模型可以自动地发现其中的关键主题,从而成为一种有效的组织、探索和理解信息的方式。近年来,神经网络的发展为主题建模提供了灵活的学习框架。因此,基于神经网络的主题模型(又称神经主题模型)引起了广泛的关注。然而,现有的神经主题模型依然面临许多挑战,如无法在主题推断过程中利用文档间关系、
学位
学位
学位
学位
近年来,IEEE 802.11 WLAN技术快速发展并广泛部署于家庭、校园、企业园区、机场等诸多场景,为用户终端设备提供高速率的无线连接。随着终端设备数量的爆炸式增长以及互联网应用的日益丰富,大多公共场所的WLAN网络呈现出用户密集的态势。在用户密集环境下,由于频谱信道资源有限,增量部署AP并不能有效提升网络容量,且用户间的信道争用更为激烈,传统的关联控制机制使得终端选择信号强度最高的AP进行接入
学位
核方法是人工智能领域中卓有成效的统计学习技术,是改善学习器解决非线性问题能力的关键方法。但近年来,随着机器学习快速发展,经典核已难满足愈加苛刻的拟合和泛化性能需求,甚至无法有效利用。已有理论和实验研究表明其核心瓶颈在于局部性限制与计算效能低下。而新兴的谱核与深度核分别从映射性质与复合架构两方面,各自尝试突破局部性和计算效能的问题,对核方法的进一步发展提供启发性思考。然而,目前业界对谱核和深度核的研
学位
学位