学者主页的判别与信息抽取

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：fwy825

【摘要】

：

【作者】

：

张秋颖

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2020年01期

【关键词】

：

网络爬虫主页判别信息抽取序列标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科技的发展,学者的数量也迅速增长,由于学者之间交流频繁,而且学者个人信息在许多领域都有应用,因此如何准确快速地获取学者信息变得非常重要。Acemap作为一个学术大数据平台,目前数据库中还缺少相关学者信息的数据。本文从Acemap的实际情况出发,对使用计算机方法自动从互联网中获取学者信息进行了研究。本文将该过程分成三大部分,分别是网络数据采集、学者主页判别和学者主页信息抽取,对每一部分分别进行了研究和实现。本文的主要贡献和创新包括:一、网络数据采集。本文搭建了一个高性能网络爬虫,可以方便的从不同的网站进行数据采集。而且采取多种反反爬措施,保证了爬虫的健壮性。二、学者主页判别。本文将学者主页的判别视为一个二分类问题,从爬虫获得的学者的Google搜索结果的标题、链接和摘要中提取特征,利用XGBoost进行学习和预测。本文将预测概率最高的页面作为该学者的个人主页,实验结果表明,该方法在本文自主标注的数据集上识别出了95.83%的学者的主页。三、学者主页信息抽取。本文将该任务转化为序列标注问题,在流行的Bi LSTM-CRF模型的基础上,分析了现有的几种向量表示方法不能处理“一词多义”的缺点,提出了BERT-Bi LSTM-CRF模型,利用BERT的深层双向Transformer结构获取输入文本的向量表示,使得生成的向量蕴含其上下文信息。实验结果表明,本文提出的BERTBi LSTM-CRF模型相较于其他几种模型具有更好的标注效果。在此基础上,本文针对具有明显特征的email、phone和fax等标签,利用正则表达式和一些简单规则对标注结果进行修正,进一步提高了这三种标签的标注效果。四、在前三部分研究的基础上,总结了自动从互联网资源中获取学者信息的整体流程,并获取了一批学者个人信息,补充完善到Acemap数据库中。

其他文献

自动驾驶场景下点云的实例分割方法研究

自动驾驶是智能交通与人工智能技术融合的交叉领域,旨在实现无人操控的智能化车辆行驶,往往需要结合多种人工智能技术。最早应用在自动驾驶系统中的技术为基于二维图像的目标检测技术,然而粗粒度的推理任务在应用中无法准确预测物体的真实形状,并且相机图像的局限性也增加了预测的不确定性。因此,探究鲁棒的三维点云数据形式结合细粒度的实例分割推理任务对自动驾驶技术的研究具有重要意义。本文的研究内容便是自动驾驶场景下基

学位

点云实例分割视柱投影困难样本

基于外观特征和步态特征的行人身份识别问题研究

随着社会的不断发展和进步,城市中的监控设备覆盖率越来越高。普通监控条件下的行人外观信息（包括人脸、服装、体型）和行走的步态信息都在一定时间限度内有着较高的可靠性和稳定性。同时这些信息的采集可以非常容易的获得。因此很适合在人员较多的公共场所或注重客户体验的商店中,借助人的外观和步态等信息完成身份识别的工作。本文中首先分别对行人的外观特征提取网络和步态特征提取网络进行了研究改进。之后尝试将外观特征和步

学位

行人重识别步态识别深度度量学习多任务学习

基于BFT共识协议的区块链方案研究

区块链技术是一种新型的去中心化账本技术,它可以在没有可信第三方参与的情况下,在多个互不信任的参与方之间构建全局的信任。由于其独特的数据结构设计,区块链上的交易信息具有完整性及不可篡改性。区块链技术在金融服务、物联网、征信管理等领域都有广泛的应用场景。共识机制是区块链的核心技术,系统中的共识节点通过共识机制来共同维护全局的账本。工作量证明（Po W,Proof of Work）类共识机制应用最为广泛

学位

区块链共识机制BFT协议动态特性联盟链

信息中心物联网节点状态监测及其安全防护技术研究

随着“智慧城市”的建设快速发展,近年来我国城市建设和信息化的应用技术水平不断提高,物联网产生的信息量不断增加,如何更快更有效地分配和处理信息是当前一个非常重要的问题。从这个意义上说,信息中心网络（ICN）正是为了满足日益增长的对高效率内容分发的需求而设计的。不同于典型的基于IP的请求机制,物联网中生成的信息可以被视为内容,将物联网内容与名称相关联使用户能够直接请求他们真正想要的内容,此外ICN特有

学位

信息中心网络物联网节点状态监测访问控制

基于深度信息的三维物体识别与姿态估计

近年来,深度神经网络在二维图像领域的应用取得了很大的成功,随着三维传感器的普及,机器人可以直接通过深度相机获取深度数据,如何利用三维信息去提升机器人的感知能力也成为了计算机视觉领域的一大热点,本文主要针对机器抓取任务,利用三维信息实现对物体的识别和姿态估计。本文研究物体的机器抓取中的两个核心感知算法,包含三维识别和姿态估计,其中姿态估计是基于标准模型的相对姿态估计。抓取过程中首先需要知道物体的位置

学位

深度数据物体识别姿态估计点云分割霍夫投票

基于生成模型的图像属性转换技术

图像属性转换是一项新兴的图像处理技术,其任务是根据使用者需求,对图像中的一种或多种属性进行相应转换,同时保证生成图像的高质量、真实度和多样性。图像属性转换技术的应用十分广泛,涉及电影制片、照片编辑、电子商务等众多行业,也因此成为了当今计算机视觉领域的热门研究课题。早些年间,图像属性转换的主要形式为神经风格迁移,依靠卷积神经网络进行学习。由于传统卷积神经网络需要设立明确的训练目标,所以无法适用于其他

学位

生成对抗网络图像属性转换多尺度特征融合融合注意力机制

360度视频自适应流传输的边缘缓存、转码、分发策略研究

360度视频的高精度和全景特性既给用户带来了沉浸式体验,也使其在现有网络中传输面临巨大的挑战。这种挑战性表现在传输整个360度视频会占用大量的带宽资源,容易引起网络拥堵和造成传输延迟。事实上,当用户佩戴头戴式显示设备观看360度视频时,同一时刻仅能看到一部分视频区域。因此,结合Tiling技术和自适应流传输技术,将360度视频在时间和空间上切片,以Tile粒度传输视频可以节约大量带宽资源。另一方面

学位

360度视频自适应流传输边缘缓存边缘计算深度强化学习

基于图模型的细粒度行为识别研究

视频中的行为识别一直以来都是计算机视觉社区中最热门并且悬而未决的问题之一。行为识别不仅能够直接运用在智能监控,无人驾驶,人机交互等多个领域,并且是许多其他视频研究任务的基础。随着深度学习技术的发展,行为识别这一领域涌现了许多基于深度神经网络的新算法。主流的方法大体上分为3D卷积,双流,循环神经网络三个家族。依靠这些方法,视频的时空特征能够被有效地挖掘和运用。这些模型能够在UCF101,HMDB51

学位

计算机视觉行为识别图模型场景建模

深层页岩气地层沉积微相细分类型测井识别与应用——以四川盆地泸州地区五峰组——龙马溪组为例

深层页岩气储层岩石组构复杂、非均质性强，基于矿物含量三端元的岩相分类无法精细反映其非均质性变化。利用X射线衍射、物性、薄片、地球化学以及测井等资料，对川南泸州地区五峰组—龙马溪组深层页岩地层开展了以“氧化还原+TOC含量+矿物组分”三重信息为基础的微相细分，分析了不同测井曲线对微相细分类型的敏感性，并采用基于K-means的贝叶斯判别法建立了微相细分类型的测井精细识别方法。结果表明：（1）研究区页

期刊

深层页岩气微相细分测井贝叶斯判别法“甜点”预测五峰组—龙马溪组

面向脊柱转移肿瘤的医疗影像研究

转移肿瘤是指癌症从身体的一个部位扩散到了另一个部位,大约三分之二的癌症患者都会患有骨转移肿瘤,而脊柱是骨转移肿瘤最常见的发病部位,脊柱转移肿瘤可能会引起病人疼痛、脊椎不稳定和神经损伤。因此,脊柱转移肿瘤的早期检测对于疾病的精准分期、改善患者的预后以及最佳治疗方案的选择至关重要。在脊柱转移肿瘤的临床诊疗中,脊椎的检测分割以及骨质质量的诊断分类是两个非常重要的问题。本文针对这两个问题,基于深度学习的方

学位

脊柱转移肿瘤自学习方法切片传播多任务学习自步学习

学者主页的判别与信息抽取

其他学术论文