论文部分内容阅读
随着科技的发展以及互联网的普及,招聘行业的工作模式产生了翻天覆地的变化。招聘应聘的信息传播载体正在从过去的报纸电视迁移至互联网,传播速度更快,数据规模更大,传统招聘行业迫切需要通过技术手段快速定位合适的求职者,从而减少招聘流程中产生的时间和人力成本。通过网络爬虫,商业合作,平台收集等多方渠道采集到了大量的人才简历文本数据以及大量雇主发布的职位文本数据,但如何在二者之间建立快速并准确的匹配桥梁是本文的关键,如果仅仅通过词语命中的方式进行匹配,会发现匹配精度不高,原因是匹配文本中存在大量无关干扰词语,同时也会忽略掉那些潜在的匹配对象,比如职位中的词语是技术,但是人才简历中的词语是软件开发,虽然两个词语并不相同,但可以发现二者的含义是在一定程度上重合的,是能够匹配得上的。综上所述,如何通过计算机技术实现人才简历和职位文本之间的高效精准的匹配,针对招聘行业是一件非常具有研究意义的课题。本文使用基于改进TF-IDF的简历文本特征提取算法,使用优化后的倒排索引技术,针对该问题提出一种可行的解决方案,并运用在实际生产环境中。本文主要研究内容如下:(1)针对常用的文本特征提取算法进行优化。分析现在各种特征提取算法的优劣后提出了一套基于改进TF-IDF的简历文本特征提取算法。传统TF-IDF算法考虑了特征项对全局的贡献,能够有效描述特征词在全局文本中发挥的作用。但也忽略了某些特征词在全局上作用不大,但对指定类别文档缺尤为重要的情况。本文结合TF-IDF算法,在计算特征词对全局文本的贡献程度上加入信息熵计算,进一步描述特征词对全局的贡献,同时在计算特征项对某类文档的贡献时也加入信息熵计算,充分考虑对特定文本类别的影响,最终将改进的TF-IDF算法运用在针对简历文本内容的特征提取上。(2)职位文本分类。本文应用场景是在数据量大,数据更新迭代速度快,文本内容频繁更新换代的环境下。通过分析各个分类算法优劣,同时考虑现有应用场景,提出了“基于倒排索引技术的职位文本实时分类”的分类框架。该框架通过倒排索引技术将标注数据放入索引库中,该索引库可以实时进行数据的更新迭代,在搜索层面加入排序计算。待分类职位文本通过“分词-特征提取-搜索”三个步骤,得到一批有标注的文本匹配结果,每个结果都有对应的匹配值,通过标注数据的加权聚合操作,最终得到分类结果。该框架可以实时更新分类模型数据,同时也能实时进行文本分类。(3)特征相似性计算。仅仅针对关键词是否相同来进行匹配是无法解决潜在匹配对象的,本文将借鉴文本向量化技术,对特征词进行向量化,从而将特征词映射到多维空间中的各个坐标上,接着再计算各个特征词之间的余弦相似度,最终得到特征之间的相似程度,在匹配过程中,对文本特征词进行扩充,达到考虑了潜在匹配对象的目的。最后搭建匹配系统,基于倒排索引技术采用多域匹配并且设置权重,同时分析文本的句式规则,提取重要的文本段落单独做特征提取,还有集成相关的算法结果,最终达到提高匹配准确度的效果。本文最后将搭建实际生产环境中的匹配系统。数据存储采用集群,能够适应未来数据规模的增长;匹配系统底层倒排索引使用集群模式,一方面提高匹配速度,另一方面加强横向扩展能力。截止目前,该匹配系统已经在实际生产环境中使用,为众多客户提供招聘服务。通过分析系统中的记录数据,针对职位匹配的人才简历信息平均合格率有69.60%,同时根据客户反馈情况,实际证明了该系统能够实现在线的人职匹配功能,匹配效果好,能够为招聘方提供服务,降低招聘成本,加快招聘速度。