本篇文章2794字,读完约7分钟
不是每一个问题都可以通过机器学习来解决,也不是每一个企业都准备好应用人工智能。
例如,企业应该确定具体的应用场景,是否有足够的数据进行分析,建立预测模型,并拥有人员和工具来定义和培训模型。
为此,本文将阐述企业在使用人工智能、深度学习和机器学习时需要做的10项准备工作。
-1-有足够的数据
足够的相关数据是预测和特征识别的必要条件。那么,企业需要多少数据?无论是普通的统计预测、机器学习还是深度学习,需要考虑的因素越多,需要的数据就越多。一般来说,机器学习比统计预测需要更多的数据,而深度学习需要多个数据。
以销售预测问题为例,由于零售业的强烈季节性,要求企业积累具有多年统计意义的重要月度数据,以修正每月的周期性变化,建立年度趋势,可用于标准时间序列分析模型。
例如,企业可以通过统计模型分析全国连锁商店五年来的衬衫月销售额,并在此基础上预测下个月的衬衫总销售额,以及某个地方衬衫总销售额的百分比、蓝色短袖衬衫销售额占衬衫总销售额的百分比等更具体的数字。当然,在这个过程中,企业还需要特别注意实际结果和模型预测之间的差距。
如果你想考虑外部因素,比如天气和时尚趋势。企业也可以将历史气象数据引入模型进行测试。当然,在时间序列的统计模型中可能很难做到这一点,但是可以通过决策树返回模型来实现。
如上图所示,企业可以尝试另外七种机器学习模型进行退货,然后将每种模型的成本(归一化误差函数)与去年的实际结果进行比较,从而找出最佳模型。
例如,当企业想知道海军蓝服装下个月是否会比去年同期卖得更好或更差?您可以查看海军蓝服装的所有月销售额并预测年度时尚趋势,或者将其引入机器学习模型进行分析。此外,企业还可以根据从时尚媒体上获得的信息手工修正模型。
在这个过程中,通过创建一个深度神经网络,预测效果可以更好。你甚至会发现,对于每个添加的隐藏层,返回误差会增加几个百分点,直到添加下一层后效果不再改善。其中,收益递减的关键可能是因为在模型中没有更多的函数需要识别,或者可能是因为没有足够的数据来支持更多的空.推广
-2-数据科学家
当然,一个企业必须有一个能够构建上述所有模型的人。他需要足够的经验、直觉、编程能力和统计背景。
甚至许多机器学习产品和服务提供商都表示,任何人或任何业务角色都可以使用他们预先培训过的应用程序机器学习模型。但现实是,企业数据可能不适用于现有模型。因此,需要数据分析师和数据科学家来指导和帮助训练模型。
-3-跟踪和收集重要的相关变量数据
此外,企业还需要具有相关变量的数据,并从多个维度收集和使用数据,以避免未知原因的统计方差。
当然,测量和收集一些独立变量(如天气观测)是困难的、不切实际的或昂贵的。例如,在化学领域,当你在铜上电镀铅时,你可以测量氟硼酸电镀液的温度和浓度,并记录正极上的电压。然而,要求溶液中包含的肽适合获得良好的粘附性。否则,你不能知道这种关键催化剂的量,也不能用其他变量来解释电极板质量的变化。
-4-寻找清理和转换数据的方法
通常,数据非常复杂,并且它们的质量通常是不均衡的。例如,在收集过程中,一个或多个值可能丢失,单个值可能超出范围或与其他值不一致,并且回答问题的人可能不理解问题或没有回答问题。
这意味着分析过程中的数据过滤需要最多的能量,甚至可能占总分析时间的80%到90%。如果在etl(提取、转换和加载)期间,所有数据都保存在数据仓库或数据湖中,则不相关或低质量的数据也可能被保留。
当然,即使是经过精确过滤的数据也可能需要进一步转换才能得到很好的分析。类似于统计方法,当每个可能状态的参数相似时,即当所有变量的范围被归一化时,机器学习模型具有最佳效果。因此,企业必须找到更好的方法来清理和转换数据。
-5-重新检查所有变量数据及其相关性
接下来,我们需要后退一步,看看所有的变量及其相关性。
探索性数据分析可以快速显示所有变量的范围和分布,无论相关变量是相互依赖的还是独立的,聚类在哪里,哪里可能有异常值。当企业具有高度相关的变量时,从分析中删除一个或多个变量通常是有用的。企业也可以实施类似逐步多元线性回归的方法来确定最佳变量选择。
然而,这并不意味着最终的模型是线性的,但有必要在引入更复杂的因素之前尝试一个简单的线性模型;如果在企业模型中有太多的技术术语,最终的结果将是一个由许多因素决定的系统模型。
-6-通过反复尝试找到最佳模型
对于给定的数据集,只有一种方法可以找到最佳模型:尝试所有这些模型。
如果企业的目标是探索性但具有挑战性的领域(如图像特征识别和语言识别),它可能只会尝试所谓的最佳模式。然而,这些模型通常是计算量最大的深度学习模型,例如,它们具有用于语音识别的卷积层和长期短期记忆层。如果企业需要训练这些深层神经网络,它们需要比办公室环境更高的计算能力。
-7-拥有训练深度学习模式所需的计算能力
数据集越大,深层学习模型的层数越多,训练神经网络的时间就越长。
解决训练时间问题的一种方法是使用通用图形处理单元(gpu)。带中央处理器的k80图形处理器的训练速度通常可以达到只用中央处理器的5到10倍。如果企业能够将整个网络内核集成到gpu的本地内存中,那么训练速度甚至可以达到只使用cpu的100倍。
除了单一的图形处理器,企业还可以建立协调的中央处理器和图形处理器网络,在更短的时间内解决更大的问题。除非你愿意花一整年的时间来训练这种深度学习模式,并且有巨额的预算,否则你会发现在云上租用gpu是最划算的选择。几个深度学习框架,包括cntk、mxnet和tensorflow,都支持cpu和gpu的并行计算,并且具有合理的缩放因子,可以在支持gpu的超大型虚拟机(vm)实例网络中使用。
-8-学会调整或尝试不同的方法
一个简单的统计模型通过机器学习和深度学习来测试企业模型操作标准的建立。但是,如果您不能使用给定的模型来提高分析水平,您应该调整或尝试不同的方法。例如,您可以在超级参数调整算法的控制下并行设置多个模型训练,并使用最佳结果来指导下一阶段。
-9-部署预测模型
最后,经过训练的模型可以在服务器、云、个人计算机或移动电话上部署和运行,以供企业实时应用。深度学习框架为将模型嵌入网络和移动应用程序提供了各种选项。亚马逊、谷歌和微软也展示了他们在这一领域的实践,甚至有可以通过语音识别操作的消费电子设备和智能手机应用。
-10-定期更新模型
当然,你可能还会发现,即使是一个训练有素的模型,因为数据会随着时间而变化,模型的错误率也会随着时间而增加。例如,企业的销售模式会改变,竞争对手会改变,风格会改变,经济形势也会改变
因此,大多数深度学习框架可以选择重新训练旧数据,并用新模型替换原来的预测服务。如果你能每月定期更新,你基本上就能跟上时代。否则,你的模型最终会变得太过时和不可靠。
来源:搜狐微门户
标题:使用机器学习前,企业需要做的10项准备工作
地址:http://www.shwmhw.com/shxw/47641.html