本篇文章1751字,读完约4分钟
雷锋。(公开号码:雷锋。com)出版社:这篇文章是“范式大学系列课程”的第三篇文章:年薪一百万的机器学习专家,为什么他们不创造价值?
第一部分
一个朋友的企业,他们招募了两个数据科学家从事机器学习,年薪加起来是一百万。
但是经过一段蜜月期后,他们发现机器学习专家并没有给公司带来真正的价值。高管们不知道他们做了什么,商业人士每周都会给他们预测需求,但他们很少在短时间内得到回应。
不到一年,公司和机器学习专家就不欢而散了。
第二部分
巧合的是,离开他们公司的机器学习专家是我的朋友。
当我问他这个问题时,他说他每天都很忙,但是他不能理解公司的其他人。我和他描述了他们的工作过程。
他花了很多时间为机器学习构建计算环境。
在建模之前,他花了很多时间清理和处理数据。
他花了大量时间进行模型选择和参数调整,以获得更好的结果。
他花了大量时间做实时预测,并花了大量精力实现毫秒级延迟。
……
事实上,要完成一个机器学习模型需要做很多事情。团队的数量很少,事情也很多,所以他的兴趣只能集中在模型本身。
至于与这些模型相对应的业务问题,比如如何定义问题以及确定哪些指标?虽然这也很重要,但他觉得这些主要是由业务人员解决的。
(据估计,商业人士也认为这是机器学习专家解决的问题)
第3部分
事实上,这个问题不是个案。大多数公司在引入机器学习专家后都会面临这样的问题。
麻省理工学院的机器学习研究员Kalyan veeramachaneni曾经做过一项调查。在一个由150名机器学习爱好者组成的小组中,他问道:“你们中有多少人已经建立了机器学习的模型?”大约三分之一的人举起了手。当他进一步问道:“有多少人使用这个模型来创造价值并衡量它?”结果,没有人举手。
换句话说,机器学习专家将90%的时间花在数据准备、处理、特征工程、建模和参数调整上,而他们背后的业务问题和业务问题往往没有得到严格考虑。
然而,为了让数据产生真正的价值,有必要将数据与业务价值联系起来,这至少需要50%的努力。
第4部分
相比之下,更理想的情况是在机器学习工程和商业价值之间建立平衡。一般来说,有五个原则:
1.从最简单的模型开始
逻辑返回或基于随机森林和决策树的模型足以解决大多数问题。因此,您的重点应该是缩短数据收集和模型构建的时间。
2.探索更多问题
你应该探索几十个问题,然后为每个问题创建一个相对简单的预测模型,并评估模型背后的商业价值,而不是通过一个难以置信的模型来探索一个商业问题。
3.用所有数据和特征训练模型
过去,机器学习的能力是不够的。在许多情况下,它依赖人工筛选出样本数据和特征用于模型训练。但是,由于计算资源更便宜,人工成本更高,您应该使用所有数据和功能来训练模型,以获得更好的结果。
4.业务驱动模式
让机器学习专家和业务人员有更多的合作。事实上,许多想法来自业务部门的假设,机器学习专家与他们一起为公司探索有价值的解决方案。
5.关注自动化
为了更快地得到第一个模型并缩短探索问题的速度,公司应该自动执行通常手工完成的任务。我们发现,无论是在数据清理和准备阶段、数据建模阶段还是模型在线阶段,在不同的数据问题背后都应用了相似的数据处理技术。
第5部分
这五个原则表明,如果机器学习是一场战斗,它过去强调士兵的能力和经验,但现在它强调武器的选择。
就像伊拉克战争一样,美国军队强调每平方公里的弹药数量,最终投入了60亿弹药。尽管这是一个不恰当的比喻,但机器学习的未来趋势是出现一个大规模的机器学习平台,通过大规模计算来解决特定的业务问题。大型机器学习平台是未来企业最重要的武器。
所以对于一个机器学习专家来说,他可能不能自己完成事情,而只能给他工具。
第6部分
在我的介绍下,机器学习专家回到了那个公司,一个人,一个月,完成了去年没有完成的工作。
参考文献:
为什么你没有从数据科学中获得价值
如果没有目的,数据就没有价值
为什么你没有从你的数据科学中获得价值
由第四范式发起的“范式大学”致力于成为黄埔军校的“数据科学家”。“范型大学系列课程”将推荐机器学习领域顶尖实践者如戴文渊、杨强、陈玉强的最新分享,以及第四代范型产品团队推荐和安排的机器学习材料。
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:年薪百万的机器学习专家 为什么不产生价值?
地址:http://www.shwmhw.com/shxw/60193.html