本篇文章1910字,读完约5分钟
莱斯大学的研究人员展示了设计创新的以数据为中心的计算硬件的方法,以及结合机器学习算法设计硬件的方法,这种方法可以将能效提高两个数量级。
机器学习是自动车辆和许多其他高科技应用背后的一种人工智能形式。它的进步开创了一个以数据为中心的计算新时代,迫使工程师们重新思考计算架构的各个方面,这些方面在过去的75年里几乎没有受到挑战。
电气与计算机工程助理教授林表示:问题是,对于目前机器学习最先进的大规模深层神经网络,整个系统所需的90%以上的功率都消耗在内存和处理器之间的数据移动上。。
林和他的合作者们提出了两种互补的方法来优化以数据为中心的处理,这两种方法都在6月3日的国际计算机体系结构研讨会(isca)上得到了介绍。
数据中心架构的驱动力与一个名为冯路·诺依曼瓶颈的问题有关,这是一个低效的问题,它源于计算架构中内存和处理的分离。自从数学家约翰·陆璐·冯·诺伊曼在1945年发明了数据中心架构以来,这个问题一直占据着至高无上的地位。通过将内存从程序和数据中分离出来,冯·诺依曼体系结构使计算机具有难以置信的多功能性;根据从内存中加载的存储程序,计算机可以用来进行视频通话、准备电子表格或模拟火星上的天气。
但是将内存从处理中分离出来也意味着即使是简单的操作(比如2加2)也需要计算机处理器多次访问内存。深层神经网络中的大量运算使这一内存瓶颈变得更糟。深层神经网络是一个通过研究大量先前的例子来学习做出人性化决策的系统。网络越大,实现起来就越困难,显示的网络示例越多,性能就越好。深度神经网络训练可能需要一个特殊的处理器库,该库需要全天候运行一周以上。在基于智能网络的智能手机上执行任务可以在不到一小时内耗尽电池电量。
莱斯高效智能计算实验室(eic)主任林表示:人们普遍认为,在机器学习时代,我们需要创新的以数据为中心的硬件架构来实现以数据为中心的算法,但什么是机器学习的最佳硬件架构?
她说:没有答案是万能的,因为不同应用所需的机器学习算法可能在算法结构和复杂度上有很大差异,并且有不同的任务精度和资源消耗,比如能量消耗、延迟和吞吐量的权衡要求。许多研究人员正在这个领域进行研究,像英特尔、ibm和谷歌这样的大公司都有自己的设计。
在isca 2020上,lin的团队做了一份报告,并提供了及时的结果。这是她和她的学生为内存处理(pim)开发的创新架构,这是一种将处理引入内存阵列的非冯·诺依曼方法。一个有前途的pim平台是电阻随机存取存储器(reram),一种类似闪存的非易失性存储器。尽管已经提出了其他reram-pim加速器架构,但林说,在10多个深度神经网络模型上运行的实验发现,实时reram-pim加速器的能效提高了18倍,其计算密度是最具竞争力和最先进的reram-pim加速器的30多倍。
适时是时域、内存执行和局部性的缩写。它可以通过消除频繁访问主存处理中间输入输出和本地内存与主存之间的接口所导致的低效的主要因素来实现其性能。
在主存储器中,数据以数字方式存储,但当数据被带入本地存储器进行内存处理时,必须将其转换为模拟量。在以前的reram pim加速器中,结果值从模拟转换为数字,然后发送回主存储器。如果它们从主存被调用到本地ram进行后续操作,它们将再次被转换成模拟信号,以此类推。
通过在本地存储器中使用模拟格式缓冲器,及时避免了访问主存储器和接口数据转换的不必要的开销。这样,及时几乎可以将所需的数据保存在本地存储阵列中,从而大大提高了效率。
该小组在isca 2020上提出的第二个建议是smartexchange,它将算法和加速器硬件创新结合起来以节约能源。
访问主存储器(dram)比执行计算需要多200倍的能量。因此,smartexchange的核心思想是在算法中加强结构,这样我们就可以用成本较高的内存替换成本较低的内存。
例如,我们的算法有1000个参数。在传统的方法中,我们将所有的1000个存储在dram中,并根据计算需要进行访问。通过smartexchange,我们找到了这1000个结构中的一些。然后,我们只需要存储10,因为如果我们知道它们之间的关系,10和剩余的990,我们可以计算990中的任何一个,而不用从dram中调用它们。
她说:我们称这10个子集为基本子集,想法是将它们存储在处理器附近的本地位置,以避免或大大降低访问dram的成本。
研究人员使用smartexchange算法及其自定义硬件加速器,对七个基准深度神经网络模型和三个基准数据集进行了实验。他们发现,与最先进的深层神经网络加速器相比,这种组合将等待时间减少了19倍。[techweb]
来源:搜狐微门户
标题:工程师们为人工智能瓶颈提供了聪明、及时的解决方案
地址:http://www.shwmhw.com/shxw/9783.html