Groq发布全球首款每秒1000万亿次运算的AI加速卡

最后更新：2020-03-19 12:25:18 手机定位技术交流文章

来源:本文来源于“cnBeta。COM”。谢谢你在

2016年末，谷歌TPU团队的10个核心开发者中的8个悄悄离职，成立了一家名为Groq的机器学习系统公司，这是第100家进入人工智能加速器卡的公司，第二家商业化的公司，第一家每秒操作数达到1000万亿次的公司。相比之下，它的性能是今天NVIDIA最强大显卡的四倍。

格罗格张量流处理器(TSP)要求每个内核达到300瓦，他们已经成功做到了幸运的是，它已经从TSP的劣势转变为最大优势。

TSP是一个巨大的硅处理器，几乎只有向量和矩阵处理单元和高速缓存，因此没有控制器或后端，编译器有直接控制TSP被分成20个超级频道。超级通道从左到右构建:矩阵单元(320兆)、交换单元、存储单元(5.5兆)、向量单元(16兆)、存储单元(5.5兆)、交换单元、矩阵单元(320兆)

指令流(只有一个)被馈送到超级通道0的每个组件，其中矩阵单元有6个指令，开关单元有14个指令，存储单元有44个指令，向量单元有16个指令每个时钟周期，该单元执行一个操作，并将数据移动到超级通道内的下一个位置每个组件可以从其邻居发送和接收512B

超级通道操作完成后，将所有内容转移到下一个超级通道，并接收上面超级通道(或指令控制器)拥有的所有内容。指令总是在超级通道之间垂直向下传递，而数据仅在超级通道内水平传输。

在ResNet-50中，它可以在任何批处理大小下每秒执行20，400个推理(I/S)，推理延迟为0.05毫秒英伟达的特斯拉V100可以在128的批量中执行7907个输入/秒，或者在1的批量中执行1156个输入/秒

，但是有了Groq的硬件和软件，编译器可以准确地知道芯片是如何工作的，以及执行每个计算需要多长时间。编译器在正确的时间将数据和指令移动到正确的位置，因此没有延迟。到硬件的指令流是完全可编程的，使得处理速度更快且可预测。

的开发人员可以在Groq芯片上运行相同的模型100次，每次的结果都完全相同。对于安全性和精度要求非常高的应用(如自动驾驶汽车)，这种计算的精度至关重要。此外，使用Groq硬件设计的系统不会受到长尾延迟的影响，人工智能系统可以在特定的功率或延迟预算内进行调整

，一种软件优先的设计(即编译器决定硬件架构)，帮助Groq设计一个简单且高性能的架构，可以加速推理过程。该体系结构支持传统的机器学习模型和新的计算学习模型，目前运行在x86和非x86系统的客户端上。