基于集成学习的科研合作者潜力预测:一种分类方法

来源 :第六届中国计算机学会大数据学术会议 | 被引量 : 0次 | 上传用户:zmz28859330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者-文章大数据,本文综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,提出了基于集成学习分类方法的科研合作者潜力预测模型.本文分析并构造对应于科研合作者潜力预测问题的特征集,并采用分类方法解决这一问题.实验中准确率、召回率、F1分数都能够以较少的样本和时间收敛于较高值(80%以上),说明了模型的优越性.
其他文献
In this paper,an intelligent inventory management system for vending machines based on image recognition has been proposed.The outside image of a vending machine goods cabinet is obtained by a camera
We study the GroupBy implementation scheme widely used in distributed systems and databases.The GroupBy operation partitions a set of out-of-order records into groups.Due to the massive data size,many
Recently,deep convolutional neural networks(CNNs)in single image super-resolution(SISR)have received excellent performance.However,most deep-learning-based methods do not make full use of low-level fe
数据中心数量与规模的不断扩大使得其能耗开销也快速上升,由于数据中心并不是持续处于高负载状态,因此研究者提出了“能耗同比性”设想,即系统的能耗可随着负载变化而动态调整.但是,如何实现服务器集群的能耗同比性还是一个未决问题.本文针对性地提出了一种基于负载预测的服务器集群能耗同比性控制方法.在一个时间窗口内采样服务器集群负载信息,然后通过时间线性序列拟合算法找出负载变化的关键点,并使用最小二乘法对关键点
Image dehazing has become a significant research area in recent years.However,the traditional dehazing algorithms based on statistics priors cannot adaptive to various conditions of natural hazy image
针对现有的半监督多标签特征选择方法利用l2-范数建立谱图易受到噪声影响的问题,本文提出一种基于l1图的半监督多标签特征选择方法,利用全局线性回归函数建立多标签特征选择模型,结合l1图获取局部描述信息,引入l2,1约束提升特征之间可区分度和回归分析的稳定性,避免噪声干扰.最后通过实验验证文中方法的有效性.
哈希方法作为最近邻搜索中的一个重要算法,具有快速及低内存的优良特性,能够较好的解决现实图像数据库中存在着样本标签信息缺失、人工标注成本过高等问题,因此在图像检索领域得到广泛使用.本文提出了一种基于语义相似度的无监督图像哈希方法.该方法首先对原始图像进行语义聚类,然后基于图像的语义相似性,把原始图像特征映射到汉明空间.同时为了增强哈希学习的鲁棒性,在所得到的目标函数中,该方法采用了l2,p范数(0<
近年来,在多标签分类中标签相关性研究成为热点之一.针对已有的基于k近邻的多标签相关性算法未充分考虑样本分布的问题进行了研究,即算法在利用近邻标签时因仅考虑了近邻标签相关性信息,这可能会使算法的鲁棒性有所降低.基于此,引入萤火虫方法(Firefly Algorithm),将相似度信息与标签信息相结合,提出一种融合萤火虫方法的多标签懒惰学习算法(FF-IMLLA).首先,利用Minkowski距离来度
Collaborative filtering(CF)plays a key role in various rec-ommendation systems,but its effiectiveness will be limited by the highly sparse user-image click-through data when CF deploys for image recom
基于MathorCup全国大学生数学建模挑战赛提供的某地区共享单车骑行记录数据,利用时空统计分析,本文可视化的分析了该地区的共享单车时空分布情况;创新性的设计了依据骑行起讫时间及地址计算区域相对位置的计算方法,并应用蚁群算法优化了该地区共享单车的调度方案;基于该数据源中单车需求数据表,评估了该地区十个区域共享单车的使用满足程度,研究了基于满足程度趋势的共享单车最佳投放方案;最后,对共享单车投放量和