本篇文章1966字,读完约5分钟

深度学习是一门重视数据的科学。

本文由金沙江创业投资有限公司授权的黑马发行。

机器学习如此热门,以至于许多人甚至认为它是整个人工智能。对于深度学习来说尤其如此。你的创业公司可能刚刚成功融资,你的团队可能刚刚批准了预算。恭喜你!你现在要做深入的研究。

到现在为止,你应该已经在keras、imagenet和其他技术中找到了乐趣,这真是令人兴奋!但是要将技术转化为业务,让你的创业真正开始,你仍然需要考虑一些实际问题。而我,应该是半个过来人。我将结合我在开发无人驾驶汽车方面的经验和乔治·霍兹在《逗号·人工智能》中的经历,给你一些建议

不要因为加载数据而让工程师盯着你看

深度学习是一门重视数据的科学。你的团队或创业公司的目的是给这些数据赋予意义。想想看,只有首先赋予文本意义,我们才能开发出真正有用的人工智能比特币聊天机器人。只有先了解图片、视频等元素,才能在模仿snapchat故事时实现自动多媒体拼贴。

我们不应该轻视数据处理,我们必须在这个领域做好。例如,如果您只需要15分钟来准备和加载数据集,那么每当您发现一个更好的模型决策或者在张量流代码中发现一个漏洞时,您都应该等待一会儿。

原理其实很简单。确定数据库,然后对所有内容预处理一次,然后重复使用它们。像芹菜和路易吉这样的工具将是你的朋友。如果您在一个大型团队中工作,并且所有任务都提交给一个集群,请考虑开发一个数据解决方案,以便向负责批量模型培训的员工提供数据。不要让团队成员不得不等到整个数据集被下载后才发现他们的模型中有漏洞。

听说你也是做AI的 我把我走过的坑告诉你

我踩在坑上:

逗号. ai可能是当今第二或第三大驾驶数据库。在逗号. ai中,为了训练驾驶模型,一台拥有超过700 gb内存的大型机器要装载视频几个小时。每当需要更多的训练数据时,乔治立即增加100gb的内存。我加入了开发这个模型的更好版本的任务,但是我不想等待15分钟来加载数据。因此,我吸收了开源项目的一些内容,开发了一个简单的zmq服务器。这样,我们不必等待数据,我们可以进行更大规模的培训,使用更便宜的机器。只有图形处理器及其研究人员可以抑制模型训练。

听说你也是做AI的 我把我走过的坑告诉你

从你能想象的开始

幸运的是,对于深度学习,我们可以使用张量板、visdom和其他工具来帮助我们可视化结果。我相信数据科学作为一个整体可以很好地服务于可视化驱动的开发过程。在每一个阶段都应该被认为与你的问题一致。你不必学习d3.js,但是你也可以得到有用的可视化,除非你太迷信javascript。

我踩在坑上:

在我的离职谈话中,我向乔治请教如何成为一名更有效率的工程师。相信我,他是我见过的最有效率的人,我会抓住一切机会向他学习。他建议先开发一些东西来想象我在做什么。乔治本人以前就一直在实践这个建议。此外,乔治的所有ipython笔记本都有一些滑动小工具,可以在开发原型时快速可视化各种参数对最终结果的影响。

听说你也是做AI的 我把我走过的坑告诉你

3尽早确定您的样本数据集

如果你对数据准备感到不知所措,你最好先休息一下,然后使用有趣的视觉内容。但如果你不想成为打印机上的猴子,只是盲目地随机给神经网络增加更多的层,你必须决定如何衡量进展。您应该探索哪些指标与更好的交付更相关,以及您应该跟踪哪些数据。这可能不限于简单地随机抽取10%的数据进行验证。验证数据集应该具有与最终产品相同的统计特征。同样的产品也可以用来跟踪例子和失败案例,以便将来制作验证集。因此,您的验证集可能会像训练集一样发展和调整。

听说你也是做AI的 我把我走过的坑告诉你

我踩在坑上:

我发现,对于无人驾驶汽车范例和验证集,你可以考虑那些你必须重新获得控制的时刻。但是最好的验证设置是让有经验的控制工程师在路上详细判断无人驾驶系统的质量。如果你在这个行业,你最好从特斯拉招聘人员。

过早的规模化是早期创业结束的主要原因

你可能会说:别跟我说话,我读的创业专栏比你多!是的,但是新常态是你应该把图形处理器和培训硬件当作和员工一样的因素。一旦你雇佣/购买了超出你需求的东西,你需要花费大量的精力来找到你剩余资源的用途。管理集群将是困难的,大规模深度学习hpc本身就是一个研究课题。我的建议是确保你所有的图形处理器都被使用,然后考虑买一个新的。只有当你的效率和盈利能力相同时,你才能像谷歌一样。

听说你也是做AI的 我把我走过的坑告诉你

如果你的团队和公司已经很大了,在招聘基础设施相关的职位时要认真对待。如果你雇佣了10倍多的研究人员,却让他们无所事事,最好的情况是他们开发出对自己来说足够好的基础设施,最坏的情况是他们直接辞职。但这绝对不是你想要的。

我踩在坑上:

每当我离开办公室,但不要让所有的gpu忙碌,Neil(手机应用副总裁)对我非常失望,所以我甚至变得有点紧张,总是担心有gpu空闲着。这已经成为一个普遍的问题。

人工智能是一个富有挑战性和趣味性的领域。在处理资源和可视化时一定要仔细考虑,这样就不会有大问题。

来源:搜狐微门户

标题:听说你也是做AI的 我把我走过的坑告诉你

地址:http://www.shwmhw.com/shxw/58176.html