用户画像构建中知识表示与模型融合研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wangold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术特别是以谷歌和百度等为代表的搜索引擎的飞速发展,互联网的数据呈现爆炸性增长。数据就是我们这个时代的石油,如何高效地、系统地开发利用这些海量数据显得尤为重要。我们每天都通过搜索引擎留下大量行为记录如历史查询词等,这些数据为分析用户人口属性和爱好习惯,细致、全面地构建用户画像,提供了丰富的数据基础。能否充分利用用户行为记录数据,刻画出用户属性信息全貌,可以看作是企业大数据应用的基础,用户画像构建任务越来越受到企业的关注。2016年由中国计算机协会举办的大数据竞赛《搜狗用户画像挖掘》中,本题目的数据集包括了搜狗用户的历史查询记录数据与用户的人口属性(包括年龄、性别、学历)标签。针对用户历史查询词语料,本文比较系统地对比分析了多种表示学习方法,Bag of ngrams特征反映了用户用词习惯的差异,主题词向量(Topic Word Embedding,TWE)用于提取用户查询词的主题信息,文档向量(Doc2Vec)用于总结用户查询词之间的语义关联信息;此外,针对用户查询词的短文本的特点,本文专门改进了Doc2Vec模型,分别提出了Query Document Vector:distributed bag of words(qdv-dbow)和Query Document Vector:A distributed memory model(qdv-dm)2种算法,进一步提升了查询词文档向量的知识表示质量。针对用户画像构建任务,本文提出了一种用于预测多维人口属性标签(包括性别、年龄、学历)的二级融合算法框架。(1)在第一级单任务单模型中,结合Trigram特征与传统机器学习模型来总结用户用词习惯的差异,结合Doc2Vec知识表示与神经网络模型来抽取用户查询语义关联信息;(2)在第一级多任务单模型中,使用深层卷积神经网络模型(Very Deep Convolutional Neural Network,VDCNN)来从字符粒度上深层萃取上下文关联信息,使用FastText神经网络模型从单词粒度上刻画用户查询习惯的信息;(3)在第二级融合模型中,使用了XGBTree模型以及Stacking多模型融合的方法,综合提取用户画像各属性标签之间的关联信息,进一步提升了模型的泛化能力和预测准确性。本文所提出的二级融合算法框架在大数据竞赛《搜狗用户画像挖掘》中以72.5%的线上结果获得了冠军的成绩。
其他文献
<正> 屈光不正患者在验光配镜后发生的一些不适反应,有生理性的,也与验光配镜过程中存在着一定的缺陷有关。作者结合几年来开展验光配镜工作中的体会与教训,试图对框架眼镜配
<正>作为学界新人,非常荣幸能在中国社会科学院新闻与传播研究所成立40周年研讨会上发言。我想谈谈对马克思主义新闻学的一些学习体会和研究设想,主要包括以下两点:第一,我们
目的探讨在行膝关节镜手术中应用手术室优质护理的临床效果及价值。方法针对本院2015年1月~2017年12月收治的100例行膝关节镜手术治疗的患者为研究对象,随机分为两组,各50例
本文通过大气压滑动弧等离子体高效修饰改性了氧化石墨烯(GO),制备GO/SiO2纳米复合材料。GO/SiO2的整体形态及SiO2沉积物中的颗粒粒径与分布可分别通过反应物中正硅酸乙酯(TEOS)
特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)是一种原因不明的、进行性的、局限于肺部以纤维化伴蜂窝状改变为特征的疾病[1],HRCT扫描可见胸膜下、两肺基底部网格状
期刊