本篇文章1167字,读完约3分钟
雷锋。(公开号码:雷锋。点击:本文是“范式大学系列课程”。
亚马逊目前的运营和维护水平已经成为行业标准。然而,如果任何公司想自己构建openstack,它必须首先回答一个问题:openstack相对于亚马逊云有什么优势?
对于机器学习,公司应该建立自己的机器学习系统,或者先问一个问题:实现行业领先的性能需要多长时间和多长时间?
你知道,时间成本+失去的竞争优势是无价的。
让我们计算一下这个账户。
1.构建机器学习系统的时间,大概有几个步骤:
第一步:招募机器学习团队的领导者,为期2个月
第二步:建立一个为期两个月的机器学习团队
第三步:商业前调查,2个月
第四步:技术前期研究,2个月
步骤5:与数据采集相关的开发和数据积累,0.5个月
步骤6:数据分析和处理,1个月
第七步:模型研究,0.5个月
第八步:在线系统开发,0.5个月
第九步:甲乙测试和模型优化,0.5个月
总计:11个月
这是一个相对较快的时间表。如果你在任何阶段踩在坑上,延迟时间都无法计算。
如果你想减少时间,关键是什么?
专业化分工+关注核心环节。
事实上,您真正需要做的是数据收集、模型研究和模型优化,在专业工具的帮助下,这可以缩短到一个月。对于其他10个月的工作,可以更换专业工具,沟通和实施时间可以缩短到0.5个月。
这从11个月变成了1.5个月。
2.对货币机器学习系统的投资一般如下:
数据规模为1000万行/天,机器学习系统的年支出为944万。
如果我们想减少投资,关键是什么?
专业化分工+关注核心环节。
通过使用机器学习平台,上述投资将变成这样。
根据购买时的高峰数据量,配备10台在线机和20台离线机,但机器的实际运行时间往往只有1/8,即每天3小时。剩下的7/8被浪费了。此外,开源机器学习框架在资源利用方面效率低下,这也是一种资源浪费。
因此,最初需要10台在线机和20台离线机,通过机器学习平台只需要2台在线机和4台离线机,节省了240万元。
在人员投入方面,30台机器需要配备一名领导、三名R&D、一名测试人员、一名操作和维护人员、一名机器学习专家和一名业务专家。然而,在专业工具的帮助下,企业只需要0.5个机器学习专家和0.5个业务专家。
通过使用机器学习平台,企业的人工成本可以节省588万。
此外,机器学习平台的想法可以在1.5个月内推出,如果由它自己完成,将需要11个月甚至更长的时间。如果你错过了抓住市场的黄金时期,损失将是巨大的。对于数据规模为1000万行的公司,我们假设9.5个月的延迟损失为5000万。
所以我们得到了两个数字:
如果不考虑时间的机会成本,采用机器学习平台的成本是自建系统成本的12.3%。
考虑到时间的机会成本(5000万),采用机器学习平台的成本是自建系统成本的2%。
3.机器学习系统机器学习系统的性能有三个要素:
最大auc:模型可以达到最好的效果,就像一座山的高度
实际auc:实际在线模型的效果就像你爬多高
时间:模型训练和预测所需的时间,例如爬到这个高度需要多长时间
如果你建立自己的机器学习系统,你遇到的第一个瓶颈就是数据处理能力。
对于大多数机器学习团队来说,他们通常可以处理成千上万的数据,但是如果数据规模超过10亿,即使是一个简单的逻辑返回模型也将成为一个非常困难的问题。
为了适应不足的计算能力,一般的做法是减少特征和样本的数量,以便在业务所需的时间内训练模型。
然而,这将导致非常糟糕的结果。最大auc由于特征和样本数量的减少而降低,实际auc由于缺少最大auc和计算能力而降低,时间由于缺少计算能力而增加。最终,整个系统的能力将会遇到瓶颈。
提高绩效的关键是什么?
专业化分工+关注核心环节。
大规模机器学习的计算框架非常困难,因为它不仅需要处理数亿个数据,而且符合机器学习的规则。在中国,能做大规模机器学习计算框架的人很少,基本上集中在百度、阿里、腾讯和少数初创企业。
因此,对于公司来说,与其啃咬大规模机器学习的计算框架,还不如从第三方购买专业服务(这就像你不能自己开发芯片一样)。当计算能力足够时,公司可以专注于自己的核心环节,提高功能的维度,提高数据的规模,并使数据和业务的结合更加清晰。
这样,公司机器学习系统的性能,例如在业务所需的时间内获得的auc,可以得到改善。
4.总的来说,要做机器学习,企业应该采取专业分工+关注核心环节,如下:
由专业分工完成和协助:初步业务研究、初步技术研究、数据处理、模型研究、模型优化、模型在线、大规模机器学习计算框架、离线机器、在线机器、操作和维护以及大部分项目投资。
该公司关注的链接包括:业务问题定义、数据收集、功能扩展和模型研究。
这样,只需1.5个月,成本约为10%(2%),不仅获得了高性能的机器学习系统,而且提高了实际业务效果,使机器学习能力真正转化为市场竞争力。
(结束)
张量流&神经网络算法高级应用类即将开始!
从初级到高级,理论+实战,一站式深入了解张量流!
本课程面向深度学习型开发人员,教授如何使用张量流解决特定问题,如图像识别和文本分析。为期10周的课程将从张量流的原理和基本实践技能开始,逐步教会学生如何在张量流上构建cnn、自编码、rnn、gan等模型,最终掌握一套基于张量流的深度学习和发展的专业技能。
作为思想工作的高级技术专家,童达和白华川两位教师在构建大数据平台和开发深度学习系统方面有着丰富的经验。
时间:每周二和周四晚上20: 00到21: 00
课程时长:共20小时,10周完成,每周2次,每次1小时
在线教学地址:mooc.ai/
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:想要快速的搭建高性能机器学习系统,企业应该怎么干?
地址:http://www.shwmhw.com/shxw/61381.html