本篇文章3048字,读完约8分钟
雷锋。作者铁流和雷锋。(公开号码:雷锋。com)已启动。
上周,英伟达在加州举办了2017年图形处理器技术会议。在会议上,英伟达首席执行官黄仁勋发布了一款新的杰作——英伟达特斯拉v100。根据NVIDIA的官方介绍,特斯拉v100采用了一种新的架构volta,它不仅具有更强的性能,还增加了tensorcore的深度学习。新闻发布会后,英伟达的股价也上涨了。那么,英伟达能否在深度学习领域与特斯拉v100的强大性能相媲美呢?
泰斯拉v100的优缺点根据NVIDIA官方介绍,泰斯拉v100采用TSMC的12纳米鳍场效应晶体管制造工艺,集成了210亿个晶体管,芯片面积为815mm2。NVIDIA针对深度学习进行了优化,优化后的设计比上一代帕斯卡架构节能50%。此外,新的张量核是专门为深度学习而设计的,这使得浮点运算速度提高了12倍——特斯拉V100增加了张量核,张量单元本质上使算术单元更密集,从而以这种方式获得更强的性能。此外,teslav100具有更大的带宽和更低的延迟,半精度浮点乘法混合单精度浮点加法也非常适合深度学习训练。
总之,有更多的算术单元堆栈,矩阵乘法能力更强,性能大大提高。特斯拉v100双精度浮点运算性能高达7.5次浮点运算,相比之下,用于深度学习的英特尔骑士级双精度浮点运算性能为3次浮点运算。
由于人工智能的快速发展,许多企业对高性能深度学习处理器的需求越来越大:
微软的resnet深度学习项目需要每秒700亿次浮点运算的处理能力;
百度在2016年建造的deepspeech2ai需要每秒200亿次浮点运算的处理能力;
谷歌在2017年建造的nmt需要每秒10.5万亿次浮点运算的处理能力;
......
因此,NVIDIA的teslav100作为数据中心gpu具有巨大的潜力,它不仅可以满足培训需求,还可以在后台提供相关服务。
尽管teslav100在性能上无与伦比,在某些领域具有巨大的市场潜力,但它仍有许多缺点。例如,芯片面积太大——高达815平方毫米,巨大的芯片面积和NVIDIA在这款芯片上的巨额R&D投资(黄仁勋说NVIDIA花了30亿美元来制造这款芯片)直接导致了特斯拉v100的极其昂贵的价格,高达149,000美元。如此高的价格会让许多用户望而却步。
就产品定位而言,特斯拉v100的性能更优越,这是一台超级计算机,但在许多情况下,如此高性能和高价格的产品实际上并未使用。对于普通大众和大多数应用场景,最好的选择是性可用、低功耗和廉价的产品,就像普通消费者需要智能手机和个人电脑而不是超级计算机一样。例如,如果未来将深度学习模块集成到智能手机中,英伟达的产品显然不合适。在这种情况下,专为嵌入式平台开发处理器ip更符合市场需求。
英伟达特斯拉v100的市场定位与核弹相似,但真正需要核弹的场景相对较少,客户只能是谷歌、微软和百度等国际巨头。正如核弹只被少数国家掌握,很少在国际冲突和局部战争中使用一样,ak47和rpg是使用最广泛的武器。英伟达的市场定位将使其失去非常广阔的嵌入式设备市场。
最后,还有功耗问题。英伟达的终端对于低功耗来说不够好。必须指出的是,TSMC的12纳米技术实际上是16纳米技术的改进版本,这是对三星玩14纳米命名游戏的反击。因此,TSMC的12纳米工艺对功耗控制的实际效果要到产品上市后才能知道。
深度学习处理器将进入战国时代。自从阿尔法戈与韩国棋手李世石对弈以来,深度学习和人工智能的概念已经成为资本的宠儿,各种深度学习处理器相继出现。各种集成电路设计公司已经推出了自己的中央处理器,图形处理器,现场可编程门阵列,数字信号处理器,专用集成电路和其他方案。
就cpu而言,最典型的是英特尔的至强融核技术。英特尔的多核芯片双精度浮点性能为3千兆位/秒,性能功耗比为12千兆位/秒。尽管英特尔声称“四骑士登陆至强融核芯片的速度是四个图形处理器的2.3倍”,“在使用英特尔优化的caffe深度学习框架时,至强融核芯片的速度是标准caffe的30倍。”但目前,NVIDIA的图形处理器更胜一筹。除了英特尔,中国自主设计的神威26010也是一个潜在的玩家,在人工智能领域有着潜在的应用。百度也为此与神威联系过。
在dsp上,国内外许多公司也选择采用传统的simd/dsp结构来适应神经网络。如中兴威星光智能一号、ceva xm4处理器、cadence tensilica vision P5处理器、synopsys ev处理器等。这些处理器本质上使用传统的数字信号处理dsp处理器架构来处理神经网络,并且主要修改算术单元,例如低位宽和超越函数。这种方法的优点是可以充分利用现有的成熟技术,但缺点是明显的,即在应用领域有一定的局限性。它们大多用于卷积神经网络,但对于语音和自然语言网络如循环神经网络和长短期记忆网络却无能为力。换句话说,这种dsp主要用于机器视觉领域,这可能难以应用于语音识别、文本处理和自然语言理解。虽然使用dsp作为人工智能硬件有一些缺点。然而,将现有的成熟技术应用于人工智能细分市场仍有一定的商业潜力。
在fpga上,altera为人工智能引入的fpga具有1.5个触发器的双精度浮点性能,虽然双精度浮点性能只有至强融核芯片的一半,但性能功耗比高达50 GFLOPS/W,如果人工智能硬件选择fpga,它不仅在至强融核芯片的性能功耗比上有明显优势,而且在NVIDIA gpgpu上占据优势地位。更高的性能/功耗比意味着在运行和维护中节省电力。虽然fpga将在新兴领域取得一定的成就,但它缺乏性价比问题,在新兴领域开发和扩展后,很容易被专用芯片所取代。然而,目前,fpga也是深度学习处理器的一个选择。
在asic方面,中科院计算技术研究所孵化的市场化公司寒武系开发了一系列产品,在芯片面积控制和性能功耗比方面表现优异。在学术成果方面:2014年至2016年,席卷了建筑学界,diannao(计算机)是asplos 14(亚洲第一)的最佳论文;大天脑(大电脑)是微14(第一次在美国以外)最好的纸张;随后的工作,如普天脑(通用计算机)、实天脑(视计算机而定)和指令集cambricon都连接到asplos和isca。然而,asic的开发周期也很长,这对于寒武纪人工智能芯片的短期商业竞争非常不利,尤其是在中国半导体产业已经落后于西方的情况下。最后要说的是谷歌的tpu,它实际上是传统脉动阵列机的结构。麻省理工学院在2016年发表的eyeriss也是类似的结构。必须指出,脉动阵列架构是一项非常古老的技术,也是一项非常经典的技术。早在20世纪80年代初,中国科学院计算技术研究所的夏院士和院士就将脉冲阵列体系结构用于石油勘探。从实际表现来看,tpu在面对降级时可能会遇到卷积困难,但做cnn的整体效果是好的,但其他类型的神经网络运算可能没有那么高效和通用。例如,在通常用于语音识别和自然语言理解的lstm中,tpu只有大约4%的效率。
综上所述,就深度学习处理器而言,它已经进入了战国时代,在这个广阔的市场中,每一款产品都可以找到自己的定位和市场细分。在这种情况下,NVIDIA凭借特斯拉v100主宰这个国家显然是不切实际的。在战国时期,相对于片面追求技术的极致性能,而忽略成本、功耗和价格,如何开拓更多的细分市场和更好的商业化是当今激烈竞争世界的当务之急。
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:老黄呕心之作,英伟达能凭借Tesla V100技压群雄吗?
地址:http://www.shwmhw.com/shxw/61120.html