今年早些时候,英特尔展示了其在神经网络处理器(NPU)研发上的最新进展。新设计的芯片,其在机器学习和人工智能性能上远超通用型处理器,且会努力推向市场。英特尔人工智能产品事业部副总裁 Carey Kloss 对 Nervana 架构的改进进行了解释,首先是理解一个神经网络(NNP)必须做些什么。使用神经网络训练一台机器,需要大量的内存和算数运算,才能产生有效的输出。
扩展性、能耗、最大负荷,也是 Nervana 空间架构的主要考虑因素。为了最大限度地节省能源,除非绝对必要,否则数据不应在系统内移动;矢量数据可以在内存模块之间进行分割,让数据总是接近最需要它的地方。
随着高带宽内存(HBM)的部署,片上和外埠内存之间的带宽可以超过 1TB/s 。尽管这是一个令人印象深刻的数字,内存带宽仍然是深度学习工作负载的一个限制因素。
鉴于英特尔无法等到新式内存技术的到来,于是只能在其它方面运用一些创造性的开发方法。比如使用软件控制内存,允许在内存从一次加载来自外存的信息,然后在本地内存模块之间转移数据。
每个模块大约有 2MB 空间,每个 Nervana 芯片合计约 30MB 。减少读取外部内存的操作,有助于防止内存带宽饱和、且允许对下一操作所需数据集进行预取。
Flexpoint 数据类型的一项更新,可在仅 16-bit 的存储上,实现近似于 32-bit 浮点操作的性能。位宽开销减半之后,有效内存带宽可轻松翻倍。当然 Flexpoint 也是模块化的,因此未来的 Nervana 能够进一步减少操作所需的 bit 数。
最后,芯片和外部组件之间的通信,也得到了双向(Tbit 级)的极大改善。在高速通信的保障下,一簇 Nervana 芯片可被当做一个整体,用于单项任务工作。
评论 (0)