本篇文章1357字,读完约3分钟

介绍

假设简历库中有10,000份名为“软件工程师”的简历。一个人力资源在搜索“安卓工程师”的时候,只注意一个叫“安卓工程师”的简历,她会错过912个可能匹配的简历;如果这位人力资源愿意花时间从头到尾通读一遍“软件工程师”的每一份简历,并选择真正从事安卓R&D的简历,那么她需要阅读9088份无效的软件工程师简历。假设读一份简历需要15秒钟,这份工作需要她38小时。

我是如何用机器学习技术帮助 HR 省时间的

第一,低歧视的简历——隐藏的招聘雷区

搜索和阅读简历占据了招聘的大部分时间。人力资源部在搜索或阅读简历时,有必要根据简历名称或工作内容来判断简历类别。简历类别的“区分度”越高,人力资源就越容易通过搜索找到相应的简历,也就越容易确定简历与空缺失职位的匹配度。

例如,当人力资源部招聘一名“安卓工程师”时,它非常喜欢那些职称为“安卓工程师”的简历,因为它很容易搜索和识别。简历的这一部分可以被定义为高度差异化的简历。

令人头痛的是,许多求职者的简历没有考虑招聘人员的经历。例如,一个软件工程师在他的简历中提到了许多编程技巧,并把他的简历命名为“软件工程师”,这使得系统很难搜索和定位这个简历。这意味着,由于jd的写作方法和求职者的写作方法之间的自然差异,大量匹配简历的简历会在搜索中被忽略,并且许多在工作内容中包含这些关键字的简历(如招聘人员)实际上是不相关的。

我是如何用机器学习技术帮助 HR 省时间的

其次,大量低歧视简历增加了筛选的难度

我们从简历数据库中抽取了1479818份互联网行业“工程师”的简历,并根据简历名称进行了统计。从高到低排序后,我们截取了前15名,并显示如下:

从统计数据可以看出,低类别歧视的简历在整个简历数据中占很大比例。例如,互联网行业包含大量的“软件工程师”、“高级软件工程师”、“软件R&D工程师”和“R&D工程师”的简历,占总样本的25.7%,但这些简历并不能轻易判断候选人对应的技术方向。

实际上,java工程师、php工程师和后端开发工程师都可以被称为软件工程师。有很多简历的标题是“软件工程师”,需要根据职位或工作描述进一步判断。

例如,在搜索简历时,输入“python Engineer”,简历名称中可能会有较少的python简历,导致搜索结果数量较少。然而,如果该模型能够判断简历名称是软件工程的特定角色,并增强简历的区分度,则可以在软件工程师的简历中筛选出属于python工程师的简历,以进一步提高搜索的丰富性。

第三,通过机器学习方法提高角色识别的准确性

1.建立合理的立场理解

加强简历的区分可以理解为“如何更准确地理解职位,包括职位的不同表达和与职位相关的技能模型”——这可以通过专业词汇来完成。

例如,我们定义了一个简单的词汇——“软件工程师”作为第一级类别,它的次级技能类别分为java、c++、php、.net、python、delphi、perl等等。这个词汇定义了一个清晰的职位/技能关系。当词汇表“阅读”一份名为“软件工程师”的简历时,它实际上是阅读上述技能。

雇佣宝藏的知识地图更加复杂,除了技能分支之外,还包括行业和公司等多个维度。

2.如何进行高效的角色分类和识别计算

深度学习方法近年来在文本处理领域非常流行,但是需要注意的是,它们的训练和测试过程非常缓慢,导致工程应用的门槛很高。

经过一系列技术方案的研究和比较,我们尝试比较和分析了机器学习的三种文本分类算法:文本分类、快速文本分类和朴素贝叶斯分类。

是一个基于libshorttext和口吃分词的短文本分类工具。它基于线性核svm分类器,使用二进制分词,不停顿词,不做词性过滤,同时支持中文和英文语料库,使得文本分类变得简单。

fast Text——fair(Facebook ai)开发的一种快速文本分类器,它提供了一种简单而有效的文本分类和表示学习方法,来自于word2vec的作者mikolov的《高效文本分类的技巧》一文

Fasttext适用于大数据+高效的训练速度,可以训练模型“使用标准多核cpu在10分钟内处理10亿字以上”。与深度模型相比,fasttext可以将训练时间从几天缩短到几秒钟。Fasttext的性能明显优于流行的word2vec工具,也优于其他最高级的词汇表示。

朴素贝叶斯——一种从贝叶斯定理扩展而来的概率模型,它根据每个特征的概率来确定一个物体属于某一类别的概率。这种方法假设所有特征都需要相互独立,即任何特征的值与其他特征的值之间没有相关性。

在自然语言处理领域,经过处理的数据可以被视为文本文档中的注释数据,并且这些数据可以被用作训练数据集,用于使用机器学习算法进行训练。

当训练样本时,构造能够表示文本的特征向量(词汇),并且根据该特征向量来表征训练集。每个类别的频率被计算为该类别的先验概率和每个类别条件下每个特征属性的条件概率。分类时,根据贝叶斯公式计算每个类别中待分类句子的后验概率,取最大值作为其分类。

4.一个简单的分类和识别实验

为了更好地分析不同技术手段对增强简历区分度的影响,我们进行了一个简单的对比实验,展示了该算法如何在特定的技能方向上对低区分度的简历进行分类,如“软件工程师”。

1.实验数据集的准备:

根据职称选择二级工程师680,731份简历数据,随机选择80%的数据作为培训数据,其余20%作为测试数据。

2.实验性能:

通过实验,我们发现通过机器学习的方法,我们可以快速识别并准确分类低区分度的简历,从而大大减少了人工搜索和阅读的时间。

与上述模型的结果相比,快速文本模型是基于基于词袋的英语文本分类方法,组成英语句子的词是有间隔的;然而,中文文本是连续的,因此需要通过分词和标点将中文文本转换成模型所要求的数据格式,但是分类效果一般,特别是当类别之间的区别不是很大时。此外,参数优化对模型的结果有很大影响,但模型的优势在于训练时间短。因此,fasttext模型更适合具有更大类别区分和分类效率的应用场景,例如自动将新闻分类到金融、军事、社会和娱乐部门。

我是如何用机器学习技术帮助 HR 省时间的

text杂货模型是一种短文本分类模型,它直接输入文本,无需特征矢量化预处理、停顿词、词性过滤和优雅的api接口。然而,在这种角色预测模型中,模型精度和模型训练时间不是很突出。

朴素贝叶斯是一种传统的文本分类模型。特征矢量化的预处理相对繁琐,训练时间长。然而,当分类类别在多个文本之间几乎没有区别时,分类效果优于其他两种算法。该实验结果表明,在产品实现中不应过分追求“时尚”技术。对于特定的企业来说,帮助企业取得更好结果的技术是最好的技术。

低歧视简历下的雇佣包角色识别算法吸收并结合了上述算法的特点,应用于不同的场景中,取得了较好的分类效果。tmt行业主要工种的识别准确率高于75%。

以“软件工程师”为例,在工作邀请中输入软件工程师的工作描述,并预测可能的角色。效果如下:

对于其他行业的低歧视简历,也可以培训相应的模型。如果单个行业预测类别不太详细,可以将许多行业数据混合在一起,以训练模型进行预测。

基于本实验的样本数据,假设在简历数据库中有10,000份名为“软件工程师”的简历。在搜索“安卓工程师”时,人力资源只关注简历名称为“安卓工程师”的简历。她将错过912份可能匹配的简历——这些简历都标有“软件工程师”的标签;如果这位人力资源愿意花时间从头到尾通读一遍“软件工程师”的每一份简历,并选择真正从事安卓R&D的简历,那么她需要阅读9088份无效的软件工程师简历。假设读一份简历需要15秒钟,这份工作需要她38小时。

我是如何用机器学习技术帮助 HR 省时间的

除了角色识别在简历检索中的应用,它还广泛应用于其他方面。例如,薪资预测,根据职务描述预测角色作为特征变量将有助于提高薪资预测的准确性。

另一个例子是简历解析,它将简历详细信息页面的每个块作为文本,预测信息类型(如工作经历、教育经历等)。)解析,然后使用相应的解析程序来解析该块,这将大大提高简历详细信息页面的解析效率。

我们始终相信技术可以提高工作效率,这就是为什么我们三年来一直深入参与简历的分析和匹配。我相信在机器学习技术的帮助下,人力资源招聘将变得更加省时高效。

参考文献:

[1] super fasttext[eb/ol]。超快文本,2017年4月10日/2017年4月24日。

[2]用于快速文本表示和分类的库。[eb/ol]。facebookresearch/fasttext,2017-04-10/2017-04-24。

text杂货店,一个更好的文本分类python库[eb/ol]。岭南六少——在灯下挣扎的云,2017-04-10/2017-04-24。

[4]libshorttext简介[EB/OL]。Guo ze . me/2014/09/25/libshorttext-Introduction/,2017-04-10/2017-04-24。

[5]自然语言处理系列(2)_朴素贝叶斯文本分类(一)[英/俄]。自然语言处理系列(2)_文本分类与朴素贝叶斯(1)-龙陈欣-博客Channel-csdn.net,2017年4月10日/2017年4月24日。

[6]从朴素贝叶斯到n-gram语言模型。nlp系列(5)_从朴素贝叶斯到n-gram语言模型-龙陈欣-博客Channel-csdn.net,2017年4月10日/2017年4月24日。

[7]高效文本分类技巧包[eb/ol]。2017-04-10/2017-04-24高效文本分类技巧包。

雷锋。本文的原作者方圆是《雇佣宝藏》的创始人。这篇文章最初发表在作者的智虎专栏。雷(公开号:雷)已获授权转载。

张量流&神经网络算法高级应用类即将开始!

从初级到高级,理论+实战,一站式深入了解张量流!

本课程面向深入学习的开发人员,教授如何使用张量流解决特定问题,如图像识别和文本分析。为期10周的课程将从张量流的原理和基本实践技能开始,逐步教会学生如何在张量流上构建cnn、自编码、rnn、gan等模型,最终掌握一套基于张量流的深度学习和发展的专业技能。

作为思想工作的高级技术专家,童达和白华川两位教师在构建大数据平台和开发深度学习系统方面有着丰富的经验。

时间:每周二和周四晚上20: 00到21: 00

课程时长:共20小时,10周完成,每周2次,每次1小时

在线教学地址:mooc.ai/

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:我是如何用机器学习技术帮助 HR 省时间的

地址:http://www.shwmhw.com/shxw/62777.html