【前沿】深度学习芯片研究新趋势：存储器驱动型处理器-十分快三

本文摘要：在过去的两年里，为了符合机器学习的必须，尤其是深度神经网络的必须，经常出现了一股对创意体系架构研究的热潮。

在过去的两年里，为了符合机器学习的必须，尤其是深度神经网络的必须，经常出现了一股对创意体系架构研究的热潮。我们早已在《TheNextPlatform》中报导了无论是用作训练外侧还是推理小说外侧的许多架构可选方案，并且正是因为所做到的这些，我们开始注意到一个有意思的趋势。一些面向机器学习市场自定义ASIC的公司或许都在沿着同一个思路展开研发——以存储器作为处置的核心。

十分快三

存储器内处置（PIM）架构只不过不是什么新的东西，但是因为存储器内比较非常简单的逻辑单元很好地顺应了神经网络的训练市场需求（尤其是卷积网络），所以存储器于是以变为未来下一个平台。我们早已讲解过了很多公司的深度自学芯片，比如NervanaSystems（2016年被英特尔并购）和WaveComputing，以及其它未来将会碾压AlexNet等benchmark的新架构，存储器都是其性能与效率的关键驱动因素。今天，我们还要为这种存储器驱动的深度自学体系架构家族再行讲解一个新成员。

那就是Neurostream，它由博洛尼亚大学明确提出，在某些方面与Nervana、Wave、以及其它使用下一代存储器（比如HybridMemoryCube（HMC）和HighBandwidthMemory（HBM））的深度自学架构很相近。而且该架构还获取了一种新思路，可以更进一步了解理解我们刚才提及的那些公司是如何设计深度自学架构的。

在过去的讲解里，我们早已从Nervana、Wave等公布的架构中萃取出有了一些设计细节，而这次架构的设计团队为我们带给了有关为什么存储器驱动型设备将不会沦为未来深度自学自定义硬件主流更加了解的看法。“虽然卷积神经网络是计算出来密集型算法，但它们的可扩展性和能量效率被主存储器很大地保证了了，而这些网络中的参数和地下通道都较为大，所以都必须存储在主存中。鉴于上述原因，意味着改良卷积网络加速器的性能和效率而不考虑到主存储器的瓶颈将不会是一个错误的设计决策。

”Neurostream把它的存储器内处置方法用在拓展卷积神经网络上。该设计使用了一种HybridMemoryCube的变种，他们称作“SmartMemoryCubes”。“SmartMemoryCubes”强化了被称作NeuroCluster的多核PIM平台。

NeuroCluster使用了基于NeuroStream浮点协处理器（面向卷积密集型计算出来）和标准化处理器RISC－V的模块化设计。他们某种程度也提及了一种更容易DRAM阵列简化的机制及其可拓展的编程环境。该架构最更有人的地方在于它用仅有占到晶片面积8％的HMC取得了240GFLOPS的性能，而其总功耗仅有为2．5瓦。

“该平台需要以较小的系统功耗使得卷积神经网络计算出来任务能几乎下放在存储器组中。这意味著主SoC中的计算出来逻辑需要被释放出腊其它事。而且，相对于一个基本HMC系统，其额外的支出完全可以忽略不计。

”该设计团队正在大肆宣传其Neurostream架构的每瓦特性能指数。“在单个三维填充PCB中我们超过了每瓦特22．5GFLOPS（每秒浮点计算出来数22．5G次）的计算出来能量效率，这是当前能购买最差GPU性能的5倍以上。

”他们某种程度提及“少量的系统级功耗增高和可以忽略不计的面积快速增长使得该PIM系统沦为一种既节约成本又高效利用能量的解决方案，通过一个相连4个SMC的网络，其可以精彩扩展到955GFLOPS。”他们用来对比的GPU是NvidiaTeslaK40，该GPU在235瓦功率下可以超过1092GFLOPS的处理速度。“Neuro阵列可以在42．8瓦超过955GFLOPS，且多达了其输掉4．8倍的能量用于效率，”该团队同时评论说道，由于减少了对串行链路的市场需求，该架构还可以拓展至更好节点。

　　Neurostream的创造者们希望通过展开一些面向应用于的调优和减少算术计算精度的方法来使它的能效对比取得更进一步快速增长。就像他们侧重提及的，“减少计算精度未来将会使功耗减少约70％。

”在他们的下一次改良里，他们将侧重在硅片上构建具有四个NeuroClusters的架构，这将使它需要监控其自身是如何偏移传播和训练的。我们早已讲解过了许多协处理器、ASIC、GPU、以及使用针对深度自学框架展开额外软件优化的x86处理器的性能和效率的benchmark比数。

尽管我们对这些都半信半疑，尽我们有可能地去对比，但时间最后不会告诉他我们哪种体系架构不会最后落败。这里想要说道的不在于benchmark比数，而在于体系结构本身。Neuro阵列就像Nervana、Wave、以及其它方法一样，都把HMC和HBM中用了淋漓尽致——利用受限的存储器内处置能力，结果早已差不多能很好地处置卷积神经网络的计算出来了。不仅如此，对该类架构的更加了解仔细观察，还能协助我们更佳地评估我们提及的机器学习芯片初创公司正在做到的事。

我们期望经过初创公司和学术研究的共同努力，2017年将修筑设计许多在深度自学框架领域内的存储器驱动型处理器。

本文关键词：十分快三

本文来源：十分快三-www.shicai126.com

上一篇：波音公司如何通过光固化3D打印技术来制造复合材料产品下一篇：十分快三：为何银杏能活千年且不会出现衰老迹象？