本篇文章493字,读完约1分钟
[TechWeb]6月23日,昆云科技今天正式发布了世界上第一个数据流人工智能芯片caisa,该芯片定位于高性能人工智能推理领域,并已批量生产。
据报道,昆云通过自主研发的数据流技术,在芯片实际计算能力方面取得了技术突破,与同类产品相比,芯片利用率提高了10倍。第三方测试数据显示,caisa芯片的最高测量性能是NVIDIA同类产品的3.91倍,峰值计算能力仅为1/3。
坤运科技成立于2016年,专注于基于数据流架构的定制人工智能计算引擎。其自行开发的caisa架构积累了近30年的技术。坤运科技已完成天使轮、A轮和a+轮融资,并在深圳、山东和伦敦设有R&D中心。
现在,让我们具体看看这个数据流ai芯片caisa的性能。
超高芯片利用率,定制数据流芯片架构,完成3.0升级
发布的caisa芯片采用昆云开发的定制数据流芯片架构caisa 3.0。与上一代芯片架构相比,caisa3.0极大地提高了架构效率和测量性能,并且在操作者支持方面更加通用,支持大多数神经网络模型快速实现检测、分类和语义分割部署。Caisa3.0在多引擎支持中提供了4倍的并行性,这极大地提高了体系结构的可扩展性。在ai芯片中,每个caisa可以同时处理ai工作负载,进一步提高了caisa架构的性能。峰值计算能力提高了6倍,同时芯片利用率保持在高达95.4%,测量性能线性提高。同时,新的caisa架构对rainbuilder编译器更加友好,软硬件协作进一步优化,为用户提供了更好的系统级端到端性能。
Caisa3.0架构图
Caisa3.0架构继续成为数据流技术的世界领导者。指令集体系结构采用冯·诺依曼计算模式,通过指令执行顺序控制计算顺序,通过分离数据处理和数据计算提供计算通用性。Caisa架构依靠数据流顺序来控制计算顺序,通过重叠计算流程和数据流来消除空空闲计算单元,通过动态配置来保证对人工智能算法的普遍支持,从而突破了指令集技术对芯片计算能力的限制。在此次升级中,caisa架构解决了数据流架构作为人工智能计算平台的三大核心挑战:
高计算能力和性价比:在保持计算正确的前提下,通过不断压缩每个空空闲时钟来提升芯片的测量性能,使其接近芯片的物理极限,从而使芯片中的每个时钟和每个计算单元都能进行有效的计算;高架构通用性:caisa 3.0架构一般支持所有主流的cnn算法,同时确保每个算法在caisa上运行,以实现高芯片利用率;高软件易用性:算法通过为caisa定制的编译工具链自动进行端到端部署。用户可以通过两个简单的步骤迁移和部署算法,而无需底层数据流架构的背景知识,从而降低了使用阈值。
具体而言,昆云彩萨3.0架构的三大技术突破主要通过以下技术方法实现:
高计算能力和性价比:时钟级别的精确计算
Caisa3.0架构通过数据流驱动计算过程,没有指令操作,可以实现时钟级的精确计算,并最大限度地减少硬件计算资源的空空闲时间。Caisa3.0架构通过重叠数据计算和数据流来压缩计算资源的每个空空闲时钟;通过计算能力资源的动态平衡,消除了流水线的性能瓶颈;通过映射数据流的时间空,复用芯片中数据流的带宽被最大化,并且对外部存储带宽的需求被降低。通过以上设计,cnn算法的计算数据可以在caisa3.0中连续运行,芯片利用率可达95.4%。在相同峰值计算能力的情况下,它可以获得比GPU高3倍以上的实际计算能力,从而为用户提供更高的计算能力性价比。
高架构通用性:流水线的动态重组
Caisa3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过在caisa架构层进行数据流引擎、全局数据流网络和全局数据流缓存的分层设计,以及数据流引擎中的人工智能算子模块、本地数据流网络和本地数据流缓存,在数据流配置器的控制下,caisa架构中的数据流连接关系和运行状态可以自动动态配置,从而为不同的ai算法生成高性能的定制流水线。在保证高性能的前提下,支持用户使用基于caisa3.0架构的计算平台实现目标检测、分类和语义分割等多种人工智能算法应用。
高软件可用性:算法的端到端自动部署
Rainbuilder编译工具链
Rainbuilder编译器工具链专门为caisa3.0架构配备,支持从算法到芯片的端到端自动部署。用户和开发人员可以通过两个简单的步骤快速迁移和部署算法,而无需了解架构的底层硬件配置。Rainbuilder编译器可以自动提取主流人工智能开发框架(tensorflow、caffe、pytorch、onnx等)中开发的深度学习算法的网络结构和参数信息。),并针对caisa结构进行优化;工具链中的运行时和驱动程序模块负责硬件管理,并为用户提供标准的api接口。运行时可以基于准确的caisa性能模型自动将算法映射到caisa架构,并提供可由高级语言直接调用的api接口。底层驱动可以为用户实现透明的硬件控制。Rainbuilder工具链易于使用、易于部署且功能多样,使用户能够快速、低成本地将现有算法部署和迁移到caisa硬件平台。
作为第一个大规模生产的数据流人工智能芯片,caisa为人工智能芯片的研发带来了新的方向
定制数据流人工智能芯片
作为世界上第一个采用数据流技术的ai芯片,caisa配备了4个caisa3.0引擎,拥有16,000多个mac单元,最高性能可达10.9。该芯片采用28nm技术,通过pcie3.0 4接口与主处理器通信,并具有双ddr通道,可为每个caisa引擎提供340gbps以上的带宽。
Caisa芯片架构图
作为边缘和云推理的人工智能芯片,caisa可以实现最高的芯片利用率95.4%,为客户提供更高的计算能力和性价比。caisa芯片具有良好的通用性,可以支持所有常见的人工智能操作。通过数据流网络中运营商的不同配置和组合,caisa芯片可以支持大多数cnn算法。对于caisa芯片,Kunyun提供rainbuilder3.0工具链,可以实现推理模型在芯片上的端到端部署,使软件工程师可以方便地完成caisa芯片在ai应用系统中的集成。
昆云科技发布数据流的caisa芯片
Ai计算平台之星空加速器卡系列产品发布,具有高计算能力和性价比
在新闻发布会上,昆云科技创始人兼首席执行官牛鱼雨还发布了基于caisa芯片、x3加速卡和x9加速卡的star 空系列edge和数据中心计算平台,并宣布成立人工智能产业技术联盟(aiia)。主流深度学习网络的测量性能,包括resnet-50、yolo v3等。
明星空x3加速器卡发布
Star 空x3加速器卡是一种配备单个caisa芯片的数据流架构深度学习推理计算平台,是一种半高半长单槽规格的工业pcie卡。由于其轻量级规格,x3加速卡可适用于不同类型的计算机设备,包括个人计算机、工业计算机、网络录像机、工作站、服务器等。,以满足边缘和高性能场景中的人工智能计算需求。与NVIDIA的高端旗舰产品xavier相比,x3的实测性能提高了1.48-4.12倍。
*模型参考:github/pushyami/yolov 3-cafe/blob/master/deploy . prototxt
明星空x9加速器卡发布
Star 空x9加速器卡是一款深度学习推理机,拥有4个caisa芯片,峰值性能为43.6点,主要满足高性能场景下的ai计算需求。与NVIDIA的旗舰产品t4相比,resnet-50、yolov3等机型的x9芯片利用率提高了2.84-11.64倍。就实测性能而言,x9在resnet50中可达到5240fps,接近t4性能。在yolo v3和unetindustrial中,测得的性能是t4性能的1.83-3.91倍。在最佳测量性能下,与t4相比,x9的处理延迟减少了1.83-32倍。测量性能和处理延迟大大提高,这使得数据流结构除了提高峰值性能外,还为人工智能芯片的发展提供了另一条技术路线。
*模型参考:github/pushyami/yolov 3-cafe/blob/master/deploy . prototxt
坤运科技通过caisa数据流架构提高了芯片的利用率。在相同的测量性能下,对芯片峰值计算能力的要求可以大大降低3-10倍,从而降低芯片的制造成本,为客户提供更高的计算能力性价比。目前,空x3星加速器卡已经量产,空x9星加速器卡将于今年8月推出。坤运科技成为中国首家在新闻发布会上披露基准的人工智能芯片公司。
商业登陆第一,缙云加速器卡实现多领域规模登陆
作为一家技术驱动的人工智能芯片公司,坤运科技自成立以来一直专注于商业登陆。目前,在技术培训、市场推广和应用部署方面,坤运科技已与许多行业巨头达成战略合作,成为英特尔的全球旗舰fpga合作伙伴。其他方面的合作;与Inspur和戴尔签署了战略合同,在人工智能计算加速领域开展深入合作;与山东工业技术研究院合作建立山东昆云人工智能研究所,推动人工智能芯片和应用技术的大规模落地。明星产品明星空加速器卡已登陆电力、教育、航空空航天、智能制造和智能城市领域。自2016年成立以来,坤运科技已完成天使轮、预A轮和A轮融资,R&D中心位于深圳、山东和伦敦。2018年成立了人工智能创新与应用研究所,定位于建立人工智能产业化技术平台,支持最新人工智能技术在各垂直领域的快速实用落地,启动昆云大学项目,开展人工智能课程培训和科研合作。除了与英特尔合作培训人工智能课程外,昆云人工智能应用创新研究院还与帝国理工学院、哈尔滨工业大学、北航大学、空航空航天大学、天津大学、香港城市大学等建立了联合实验室。,在定制计算、ai芯片安全、工业智能等领域开展前沿研究合作。
来源:搜狐微门户
标题:鲲云科技发布全球首款数据流AI芯片CAISA 打造更高算力性价比
地址:http://www.shwmhw.com/shxw/10457.html