【摘 要】
:
在智能手机和移动网络日益普及的当代社会,微信成为继微博、腾讯QQ之后主流的社交工具。其中微信特有的微信公众号功能受到广大用户的喜爱,并产生了数以万计的微信公众号和海量的有关公众号经营内容的文章。对这一类独特的且具有真实来源的非正规文本进行分析与挖掘是目前数据挖掘研究领域的一大热点与难点。本文利用主题模型算法对微信公众号文章进行文本主题提取,并进一步融合文本的多种特征实现阅读者的画像构建,以帮助公众
论文部分内容阅读
在智能手机和移动网络日益普及的当代社会,微信成为继微博、腾讯QQ之后主流的社交工具。其中微信特有的微信公众号功能受到广大用户的喜爱,并产生了数以万计的微信公众号和海量的有关公众号经营内容的文章。对这一类独特的且具有真实来源的非正规文本进行分析与挖掘是目前数据挖掘研究领域的一大热点与难点。本文利用主题模型算法对微信公众号文章进行文本主题提取,并进一步融合文本的多种特征实现阅读者的画像构建,以帮助公众号运营者提高个性化推送的准确性,同时也为网络环境监控提供数据支撑。本文的主要工作包括以下三个方面:(1)针对主题模型算法产生的主题-词分布包含较多噪声词以及一词多义问题,提出了一种有效融合词的先验信息和背景词的主题模型算法。算法主要思想是根据词的先验信息计算出特定于每个主题的先验分布参数,并在词语的采样过程中对背景词和主题词进行区分。(2)本文提出的主题模型算法保留了传统模型的共轭分布的特性,因此进一步提出了一种有效的Gibbs采样方法来实现模型的参数推断。本文使用微信公众号文章数据集合进行了大量的实验,证明本文提出的主题模型算法在模型困惑度、主题一致性、模型训练时间等方面都有一定的提高。为了更进一步评价本文提出的主题模型算法的文本表示能力,针对文本分类任务和聚类任务分别进行了实验,进一步验证了本文提出的主题模型算法的有效性。(3)进一步将主题模型算法应用到用户画像构建任务上,提出了两种不同的应用方法。一种是基于Stacking分类器融合策略的用户画像标签分类算法,该分类算法可以对用户四个方面的画像内容进行建模。另一种是基于语义相似性的用户兴趣建模算法,该算法只针对用户兴趣这一个方面来建模,改善了将主题模型算法应用到用户兴趣建模任务上结果缺乏可解释性的缺点。实验证明,本文提出的两种应用方法获得的用户画像构建的准确率具有一定的先进性,与其他算法相比准确率有一定的提高,并且结果更易被理解,更具有实际应用价值。
其他文献
采用层次分析法(AHP)在医疗设备询价采购中,从质量、价格、质保、交期4个评价指标,计算甲、乙、丙三种医疗设备的权重,构建医疗设备询价采购评价系统,从而做出最优决策。
本文解释了蓝海战略的概念,简要说明了移动数字图书馆产业目前的发展趋势,并运用战略布局图与四步动作框架等蓝海战略的基本分析工具和框架,依据重建市场边界和超越现有需求
青年群体是公租房的受益者。作为公租房配套中重要的一部分,公共设施在设计时只有从青年群体的特点入手,掌握安居与乡愁的平衡、趣味与成长的参与、科学与艺术的融合、传统与现
根据国内外水生态补偿最新研究成果及试点地区的实践经验,指出珠江流域水生态补偿分类及重点区域,明确珠江流域水生态补偿内容及方式,并提出珠江流域水生态补偿技术支撑体系,初步
中国和巴西远隔重洋,但两国人民之间的友谊源远流长,历史上巴西民风曾受到经由澳门传播的华夏文化的影响.中国是东方最大的发展中国家,巴西是西方最大的发展中国家.中巴建交
2006年大选中,针对卢拉第一任期的外交政策,卢拉与反对党总统候选人进行了激烈的辩论,辩论内容涉及外交政策的各个方面。本文首先以两位总统候选人对外交政策的辩论为切入点,
本文介绍利用细黄链霉菌(Streptomycesmicroflavus)5406除去家禽粪臭的方法。处理后的禽粪无臭味,略带冰片香,经化学分析测试肥效较原来有明显的提高。更多还原
心与胃相互关系探析李志安河南中医学院(450003)主题词心(中医)/生理学胃(中医)/生理学心(中医)/病理学胃(中医)/病理学中医学中所谈的心与胃,既是具有实体的解剖概念,又是各具效用的功能系统。笔者
知识产权案件的模拟法庭实训一直以来是高校培养应用型知识产权专业人才的重要途径,其优势在于能推动专业学生将所学的理论基础知识转化为实际操作,从而达到真正的学习效果。但
护患关系是在护理过程中护士与病人之间产生和发展的一种工作性、专业性、帮助性的人际关系.护患关系是以解决病人在患病期间所遇到的生理、社会心理、精神方面的问题,以满足