论文部分内容阅读
随着互联网技术特别是以谷歌和百度等为代表的搜索引擎的飞速发展,互联网的数据呈现爆炸性增长。数据就是我们这个时代的石油,如何高效地、系统地开发利用这些海量数据显得尤为重要。我们每天都通过搜索引擎留下大量行为记录如历史查询词等,这些数据为分析用户人口属性和爱好习惯,细致、全面地构建用户画像,提供了丰富的数据基础。能否充分利用用户行为记录数据,刻画出用户属性信息全貌,可以看作是企业大数据应用的基础,用户画像构建任务越来越受到企业的关注。2016年由中国计算机协会举办的大数据竞赛《搜狗用户画像挖掘》中,本题目的数据集包括了搜狗用户的历史查询记录数据与用户的人口属性(包括年龄、性别、学历)标签。针对用户历史查询词语料,本文比较系统地对比分析了多种表示学习方法,Bag of ngrams特征反映了用户用词习惯的差异,主题词向量(Topic Word Embedding,TWE)用于提取用户查询词的主题信息,文档向量(Doc2Vec)用于总结用户查询词之间的语义关联信息;此外,针对用户查询词的短文本的特点,本文专门改进了Doc2Vec模型,分别提出了Query Document Vector:distributed bag of words(qdv-dbow)和Query Document Vector:A distributed memory model(qdv-dm)2种算法,进一步提升了查询词文档向量的知识表示质量。针对用户画像构建任务,本文提出了一种用于预测多维人口属性标签(包括性别、年龄、学历)的二级融合算法框架。(1)在第一级单任务单模型中,结合Trigram特征与传统机器学习模型来总结用户用词习惯的差异,结合Doc2Vec知识表示与神经网络模型来抽取用户查询语义关联信息;(2)在第一级多任务单模型中,使用深层卷积神经网络模型(Very Deep Convolutional Neural Network,VDCNN)来从字符粒度上深层萃取上下文关联信息,使用FastText神经网络模型从单词粒度上刻画用户查询习惯的信息;(3)在第二级融合模型中,使用了XGBTree模型以及Stacking多模型融合的方法,综合提取用户画像各属性标签之间的关联信息,进一步提升了模型的泛化能力和预测准确性。本文所提出的二级融合算法框架在大数据竞赛《搜狗用户画像挖掘》中以72.5%的线上结果获得了冠军的成绩。