本篇文章5668字,读完约14分钟

尽管所谓的深层神经网络已经帮助机器学会了如何使用自然语言来说话、开车、玩电子游戏、赢得围棋冠军,甚至画梦、画画和推广科学发现,但它也给创造者带来了新的挑战,因为研究人员从未想到深层学习技术会有如此出色的操作效果。除了来自人脑结构的模糊灵感之外,到目前为止,我们仍然不知道是什么基本原则指导着这些学习系统的实际设计(没有人能够真正理解它们是如何工作的)。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

像大脑一样,深层神经网络有大量的神经元,而人工神经元是计算机记忆的象征。当一个神经元被激活时,它会向上层与之相连的另一个神经元发送信号。在深度学习的过程中,网络中的联系会根据需要加强和削弱,这样系统就可以更好地从输入数据中发送信号(例如小狗图片中的每个像素),最后通过每一层的神经元将内容链接到正确的高层概念如狗。通过深度神经网络学习数千张狗的图片后,它可以像人类一样准确地找到狗。在学习过程中,这种从特殊环境到一般概念的神奇认知进步是深层神经网络的力量,这意味着它可以像人类一样,用推理、创造力和其他被称为智能的能力真正解决实际问题。专家们现在想知道什么是深度学习,以及大脑是否以同样的方式理解现实。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

上个月,在柏林举行的youtube视频会议可能会给人工智能研究人员带来潜在的答案。在讲座中,耶路撒冷希伯来大学的计算机科学家和神经学家纳夫塔里·提斯比提出了支持新理论的证据,希望解释深度学习的工作原理。Tishby认为深层神经网络是根据一个叫做信息瓶颈的过程来学习的,他和两个合作者早在1999年就用纯理论术语首次描述了这个概念。其思想是,神经网络将从输入数据中排除不相关的细节和干扰信息,这类似于挤压信息以通过瓶颈,并最终仅保留与一般概念最相关的特征。Tishby和他的学生ravid shwart-ziv设计了一个新的计算机实验,希望展示这种挤压过程是如何在深度学习过程中实现的,至少是基于他们的实验环境。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

耶路撒冷希伯来大学的计算机科学家和神经科学家纳夫塔里·提斯比

Tishby的发现很快在人工智能领域引起了轰动。谷歌公司的Alex alemi说:我认为信息瓶颈的概念在未来深层神经网络的研究中可能会起到非常重要的作用。他开发了各种新的近似方法,旨在分析大规模深层神经网络的信息瓶颈。阿莱米解释说,这个瓶颈不仅可以作为理解神经网络实际工作原理的理论工具,还可以作为构建新网络和架构的辅助方案。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

一些研究人员仍然怀疑这个理论能否解释深度学习的成功,但是纽约大学的粒子物理学家凯尔·克兰默用机器学习技术分析了大型绳索对撞机中粒子的碰撞状态,他认为从学习的一般原理来看,这个理论听起来相当合理。

杰弗里·辛顿(Geoffrey hinton)是深度学习技术的先驱,他同时在谷歌公司(Google Inc .)和多伦多大学(University of Toronto)工作,在观看了柏林演讲后,他给蒂什比发了一封电子邮件。他写道这太有趣了,我不得不再听一遍才能真正理解它。现在我们终于听到了真正原创的想法,这可能代表了一个重大问题,并带来了正确的答案。恭喜你!

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

根据tishby的观点,信息瓶颈是机器学习背后的一个基本原则,无论是对于算法、昆虫还是任何其他有意识的存在,甚至对于紧急行为的物理计算,我们期待已久的答案应该是,学习最重要的部分在于遗忘。

瓶颈tishby首先致力于信息瓶颈的研究,其他研究者也刚刚开始深入研究神经网络,但这两个技术概念当时还没有正式命名。当时是20世纪80年代,tishby正在考虑人类语音识别的实际性能,这在当时对人工智能来说仍然是一个巨大的挑战。蒂什比意识到这个问题的核心在于相关语音词汇中最相关的特征是什么?我们如何从相关变量中去除一些特征,如噪音、杂音和语调?一般来说,当面对现实世界中的数据海洋时,我们应该选择保持什么样的信号?

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

提斯比在上个月的《被采访》中说,这个与信息相关的概念在历史上被多次提及,但从未被正确表达过。多年来,人们一直认为信息论不是解释相关性的正确方法,而是香农自己长期以来的一厢情愿。

信息概念的创始人克劳德·香农,在一定意义上是《解放了》中信息研究工作的力量。自20世纪40年代以来,信息论开始将信息视为纯粹的抽象产物,类似于数学意义上的0和1。香农认为信息与语义无关。然而,提斯比有不同的观点。利用信息论,他意识到我们可以准确地定义相关性。

首先,我们假设X是一个复杂的数据集,比如狗图片中的所有像素,Y是一个简单的变量,可以表示这些数据,比如狗这个词。我们可以在不丧失预测Y的能力的情况下尽可能多地压缩X,这样就可以在X中捕捉到所有的相关信息。在1999年发表的一篇论文中,tishby和合著者fernando pereira(现为谷歌公司工作)和william bialek(现为普林斯顿大学工作)将其描述为一个数学优化问题。显然,这只是一种理论思想,不能支持强有力的实际应用。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

提斯比指出,30年来,我一直在不同的背景下思考这个问题。幸运的是,如今,深层神经网络变得如此重要。

尽管深层神经网络的基本概念诞生于几十年前,但随着训练程序的逐步完善和计算机处理器能力的不断增强,其在语音和图像识别领域的性能直到2010年才显现出来。在阅读了物理学家大卫·施瓦布和潘卡伊·梅塔在2014年发表的一篇令人惊讶的论文后,蒂什比终于意识到,信息技术和信息瓶颈原理之间存在着潜在的联系。

两位作者发现,hinton发明的深度学习算法,即所谓的深度信念网络,在某些情况下可以应用于物理系统(特别是重整化),即物理系统可以通过细节的粗粒度变换来放大,从而计算其整体状态。当施瓦布和梅塔将深度信念网络应用于磁体模型的临界点场景时,系统在每个尺度上都具有分形或自相似特性,网络将自动使用类似于重整化的过程来识别模型状态。正如生物物理学家伊利亚·内梅曼当时所说,这是一个惊人的迹象。在统计物理背景下提取相关特征已经成为与在深度学习背景下提取相关特征同样的操作。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

然而,唯一的问题是分形在现实世界中通常是罕见的。克兰默说,自然界的大部分并没有显示出相似的重叠状态,而是更多地显示出场景、人、脸和眼睛的不同排列。因此,我不能断言重正化程序是深度学习技术在自然图像识别中表现良好的原因。然而,当时正在接受胰腺癌化疗的tishby意识到,深度学习和粗粒度的转化程序应该融入更广泛的思想中。他指出,思考科学和思考旧思想的作用是帮助我康复的重要支柱。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

2015年,他和他的学生noga zaslavsky认为深度学习是一个信息瓶颈过程,它将尽可能多地压缩干扰数据,同时保留关于数据的代表性信息。tishby和schwartz-ziv利用深层神经网络建立的新实验表明了瓶颈程序实际上是如何工作的。在一个案例中,研究人员使用一个小的可训练网络通过1或0输入数据(对于狗或没有狗),并给出了282个神经连接的随机初始优势。之后,他们开始跟踪深度学习网络如何使用一组包含3000个样本的输入数据集进行训练。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

Noga zaslavsky(左),schwartz-ziv(右)

在大多数深度学习程序中,根据数据内容调整神经连接的基本算法被称为随机梯度下降:每当训练数据被输入网络时,一系列激活活动向上穿过每个人工神经元层。当信号达到最高水平时,最终激活模式将能够与图像的正确标签相比较,即1或0,有或没有狗。主动模式和正确模式之间的任何差异将以反向传播的形式发送到较低层,这意味着该算法可以增强或减弱每个连接,从而网络层可以更好地产生正确的输出信号。在雨刮片的训练中,训练数据中常见的模式会反映在连接的强度上,网络本身会通过训练提高数据标注的准确性,包括识别小狗对象、单词或1。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

在实验中,tishby和shwartz-ziv跟踪了深层神经网络中每一层的输入数据信息,以及每个输入数据中保留了多少信息。科学家们发现,神经网络会一层一层地收敛到信息瓶颈的理论极限:tishby、pereira和bialek的原始论文设定了一个理论上限,这代表了系统在提取相关信息时能够获得的最佳结果。在这个临界点上,神经网络可以尽可能多地压缩输入数据,而不影响其做出准确预测的能力。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

阶段:一个短的拟合阶段,其中神经网络学习标记其训练数据;其次,它是一个较长的压缩阶段,在压缩阶段它获得了较强的泛化能力,这种能力实际上体现在新测试数据的标注效果上。

当深度神经网络的连接通过随机梯度下降进行调整时,首先,深度神经网络存储的输入数据的比特数将保持近似恒定或略有增加,同时,连接调整将对输入模型进行编码,并且神经网络本身将更好地适应正确的标签。一些专家将这一阶段比作人类记忆过程。

接下来,学习过程切换到压缩阶段。神经网络开始丢弃与输入数据相关的信息,并且跟踪中最强大的特征包括与输出标签具有最高相关性的特征。出现这种情况的原因是,在随机梯度下降的每次迭代中,训练数据都或多或少地存在意想不到的相关性,这就要求神经网络做出不同的判断,从而随机触发上下两层的调用来调整神经连接的强度。这种随机化与压缩系统的输入数据的性能完全一致。例如,一些小狗的照片可能包含背景房子,而其他的没有。当神经网络循环播放这些训练照片时,它可能会忘记一些照片中房屋和狗之间的相关性,因为其他照片中的不相关会抵消这种相关性。根据tishby和shwartz-ziv的观点,正是这种对细节信息的遗忘操作使系统形成了一个总体概念。事实上,他们的实验结果表明,深度神经网络提高了其在压缩阶段的泛化能力,从而提高了其在测试数据标记中的有效性(一组经过训练的用于狗图像识别的深度神经网络将能够用新照片进行测试,并准确地判断狗是否包含在其中)。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

信息瓶颈是否适用于所有深度学习机制,以及除了压缩之外还存在哪些其他一般化方法,还有待观察。一些人工智能专家认为,tishby的理论是与深度学习相关的最重要的指导原则之一。哈佛大学人工智能研究员和理论神经学家安德鲁·萨克斯指出,一些非常大规模的深层神经网络似乎不需要经历这样的压缩阶段。相反,研究人员基于所谓的早期停止方法来编程,这可以有效地减少训练时间并防止网络编码中的过度相关。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

Tishby认为saxe和他的同事所分析的网络模型不同于标准的深度神经网络体系结构,并且无论如何,信息瓶颈提出的理论边界决定了这种网络的泛化效率优于其他方法。tishby和shwartz-ziv的最新实验在一定程度上解释了瓶颈是否适合大规模神经网络。虽然相关的结果没有被包括在原始论文中,但是他们在这些实验中训练了一个具有330,000个连接的更大规模的深层神经网络,以识别来自国家标准和技术研究所的60,000个手写数字图像。该数据集是衡量深度学习算法性能的著名基准材料。科学家发现,神经网络的实际性能与信息瓶颈的理论边界之间存在着趋同性;他们还发现,这种大规模深度学习网络的两个阶段比小规模网络更清晰。Tishby指出,我现在完全相信信息瓶颈是一种普遍现象。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

人和机器

大脑如何过滤来自我们感官的信号?如何将其带入我们的意识层面?这个神秘的话题促进了人工智能先驱对研究深层神经网络的早期兴趣,也就是说,以相反的方式设计大脑的学习规则。在很大程度上,人工智能从业者已经放弃了这条研究道路,开始使用其他方法来略微提高他们的性能。然而,随着智能机器的成就越来越大,有些人甚至开始担心人工智能有一天会构成严重威胁。许多研究者希望这种探索能够揭示关于机器学习和智能实现的一般结论。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

在研究人类和机器学习之间的差异时,纽约大学心理学和总数据利润助理教授布兰登·莱克(brenden lake)表示,tishby的发现代表着打开神经网络黑匣子的重要一步,但他也强调大脑代表着一个更大、更黑暗的黑匣子。我们成年人的大脑中有860亿个神经元,它们之间有数千亿个联系。所有这些都可能需要一些技巧来提高泛化能力,从而实现基础图像和语音识别的学习过程超越婴儿期。在这方面,它很可能与当前的深度学习技术非常相似。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

例如,莱克认为tishby发现的拟合和压缩阶段似乎与儿童手写信件的学习过程并不相似。孩子们不需要观察成千上万的字母,也不需要用很长的时间来压缩他们的表示;相反,他们可以快速识别同一封信的其他实例,并学习如何书写。事实上,人类甚至可以用一个例子来学习。莱克和他的同事们的模型表明,大脑可以把新的字母分解成一系列的笔画,即现有的心理结构,从而建立基于原始认知的字母概念。莱克解释说:我不把字母上的图像想象成像素,而是像标准的机器学习算法一样映射这些特征。我的目标是建立一个更简单的因果模型,也就是说,实现一个更短的泛化路径。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

这种智能化的实现可以给人工智能行业带来指导,促进两个领域的相互交流。Tishby认为,虽然人类学习比人工智能学习更普遍,但他的信息瓶颈理论最终将在这两个学科中发挥作用。来自理论层面的直接意见可以帮助人们更好地理解哪些问题可以为神经网络行业解决,哪些问题需要人工干预。提斯比说:它给出了可学习问题的完整描述。这些都是我可以在不损害分类能力的情况下消除输入数据中的干扰信息的问题。这反映在自然视觉和语音识别中,也是我们的大脑能够解决的一个实际任务。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

同时,无论是真实的还是人工的神经网络都面临着同样的挑战,也就是说,每个问题的细节和微波之间的差异可能会影响到最终的结果?。例如,大多数人不能快速地将两个大数字相加。蒂什比指出,这类问题困扰了我们很长时间。事实上,逻辑问题很容易受到某个变量的影响。分类、离散化甚至密码问题都是如此。我不认为深入学习能帮我破解密码。

深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

一般化意味着穿越信息的瓶颈,这意味着丢弃一些细节。这对于实时代数运算并不友好,但这种运算显然不是大脑的主要任务。大脑的工作是帮助我们从人群中找到熟悉的面孔,理解混乱的秩序,并在嘈杂的世界中找到其他重要的信号。

资料来源:quantamagazine

作者:natalie wolchover

汇编:技术行者

来源:搜狐微门户

标题:深度学习黑匣问题迎来新发现,谷歌大牛Hinton说可能这就是答案

地址:http://www.shwmhw.com/shxw/39105.html