【摘 要】
:
随着智能电视的普及,节目付费成为电视生产企业或视频内容企业最重要的利润来源之一.挖掘潜在付费用户,促使用户付费购买增值服务越来越成为企业亟待解决的问题.本文首先基于国内最大的电视厂家之一的海信公司日志数据的特点,提出了对日志信息扩展、特征衍生以及特征提取的解决方案.结合深度模型在高阶抽象特征学习上的优势以及线性模型在低阶特征学习上的优势,提出了Simplified Wide&Deep(SWD)模型
【机 构】
:
山东大学青岛校区计算机科学与技术学院 266100
【出 处】
:
第六届中国计算机学会大数据学术会议
论文部分内容阅读
随着智能电视的普及,节目付费成为电视生产企业或视频内容企业最重要的利润来源之一.挖掘潜在付费用户,促使用户付费购买增值服务越来越成为企业亟待解决的问题.本文首先基于国内最大的电视厂家之一的海信公司日志数据的特点,提出了对日志信息扩展、特征衍生以及特征提取的解决方案.结合深度模型在高阶抽象特征学习上的优势以及线性模型在低阶特征学习上的优势,提出了Simplified Wide&Deep(SWD)模型.为了验证模型的性能,和传统分类模型进行了比较,实验结果表明,SWD模型在智能电视潜在付费用户预测中的F1测度上优于传统的分类模型,F1值能够达到0.8401.
其他文献
科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者-文章大数据,本文综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,提出了基于集成学习分类方法的科研合作者潜力预测模型.本文分析
在货物配送路径规划问题中,为了保持基本布谷鸟算法中Lévy飞行机制与偏好随机游动策略的特点,本文提出了基于定向变异的布谷鸟算法和求解配送路径问题的完整有效方法.首先采用快速排序法将实数编码个体的每一维元素映射成问题的城市编号,从而建立算法与问题模型之间的联系;然后运用邻域搜索法决定城市访问的次序,即通过各城市之间的距离寻找当前城市的邻近城市,增强算法的收敛速度.同时,在算法局部搜索机制中,通过平均
心电图是检测心脏疾病的重要手段之一,然而多种异常心电信号之间存在较大的相似性使得心电分类的准确性成为研究的焦点.传统的机器学习方法和当前的深度学习方法能较大的提升异常心电的分类准确率,但存在训练时间长、结构不灵活,难以实时在线学习更新等不足.基于此,提出一种基于宽度学习系统(BroadLearning System,BLS)的异常心电分类方法,该方法能够实时在线调整增强节点的个数并学习新样本的特征
This paper extends our previous DESIQUE [1] algorithm to a local-and-global way(LaG-DESIQUE)to blindly measure image quality without training on human opinion scores.The local DESIQUE extracts block-b
在语义结构查询问题中,由于语义结构的特殊性及庞大数据集的存在,传统的点查询和频繁子图查询,无法简洁直观的描述百万节点的大图,并衡量查询到的语义结构的重要性.针对该问题,VoG算法利用子图分割并最大化对特殊结构进行匹配,但存在查询时间长,错误率较高等问题.因此提出了一种新算法,解决了传统算法的缺陷.所提算法的具体思路为:1)利用ApxGreedy算法对输入图进行聚集处理;2)通过聚集之后的超点内部与
随着全国司法机关智能化建设和信息化建设应用的深入推进,积累了海量的司法文书,这为开展司法大数据应用和司法智能服务提供了基础.通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率.本文提出了一种语义驱动的方法来学习和分类司法文书.首先提出并构建了面向司法领域的领域知识本体以清晰表达文档级语义,然后在领域本体基础之上对司法文档进行相应的领域知识抽取.接着
In recent years,as an emerging technology,cloud computing has pro-vided us with convenient services,and power consumption on issues have be-come increasingly prominent.Virtual machine live migration t
随着大数据时代的来临,人类社会产生了大量的数据,这些数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段往往更具领域价值,因为单个数据点仅仅表示了值的变化,而波段则是在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.虽然各个领域的数据流表现复杂,但是都有一定规律可循,如
智能电网系统一直以来就是智慧城市中的紧要一环.通过对智能电网系统进行分析,可以创造出更加便利的用电服务.负荷曲线聚类是智能电网分析中的基础一环,大量后续的应用如负荷预测,用户画像构建都可以在负荷曲线聚类的基础上得以优化.本文结合最新的语音处理模型,提出一种基于卷积循环神经网络和快速傅里叶变换的方法去提取电网负荷聚类特征,同时借助三元组损失函数使该方法可以仅依靠部分标签类型的数据进行训练,进而对未出
在图数据库中,现有的基于图模拟的匹配问题主要集中在静态图的图模拟上,但是,现实生活中的许多场景,如社交网络、交通系统网络等,需要采用带有时间变化标签的时序图进行建模,因此在时序图中解决图模拟问题是必要的.由于时序图中包含的信息量相较于静态图更为庞大,并且结构更为复杂,使现有的静态图中的图模拟方法不能直接适用于时序图中.为此本文首次提出时序图的图模拟匹配定义——时序边界模拟.首先,进行模式图分割,将