产业观察：Groq大火谨防炒作

作者：陈炳欣 02-22 16:11

来源：爱集微 #Groq# #AI芯片# #推理# #LPU方案# #SRAM#

2.9w

集微网报道（文/陈炳欣）受国外初创公司Groq推出AI芯片影响，日前国内股市存储板块出现一波异动，引起人们对这一事件的广泛关注。

据悉，Groq公司是一家人工智能芯片公司，成立于2016年，总部位于美国加州圣塔克拉拉山景城。今年1月其推出新型人工智能芯片 LPU（Language Processing Unit）芯片。该产品近日在一些公开测评、客户测试中，延时（Latency）、吞吐量（Throughput）等指标大受好评，据称AI推理速度远超英伟达GPU。Groq官网提供了两个开源模型的演示：在Mixtral8x7B-32k的生成速度接近500 token/s，在Llama 2 70B-4k接近300 token/s。

从技术上看，Groq没有走GPU路线，而是采用了LPU方案。在设计架构上，GPU主要用于图形渲染，拥有数百个并行的处理单元。而LPU的架构旨在为 AI 计算提供确定性的性能，一种新型的端到端处理单元系统。不同于GPU使用的SIMD（单指令、多数据）模型，而是采用更精简的方法，消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期，确保一致的延迟和吞吐量。因此，LPU更加擅长LLM处理，可以为具备序列组件的计算密集型应用（比如LLM）提供更快的推理速度。

简单来讲，LPU的核心是克服限制LLM处理两个瓶颈——计算密度和内存带宽。Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。在算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。

Groq芯片的推出给业界带来不小的影响。从算力端来看，一款更高性能、更低成本（单位token费用）的芯片，有望在海量推理需求中提供一个新的选择。对应用端来说，更低成本和更高效率的推理过程也有望加速搜索、创意设计、办公软件等AI生成应用的落地和普及。

不过，针对Groq芯片的质疑也随之而来。许多观点认为，Groq芯片看起来虽然效果惊人，但计算成本TCO，并不具有经济性。同样完成LLaMA 70b模型推理，采用int8量化，运行三年Groq 需要的硬件采购成本是576卡1144 万美元，运营成本是76.2万美元或更高；H100的硬件采购成本是8卡30万美元，运营成本是7.2万美元或略低。但也有大佬称，Groq芯片的确在小batch size上显示出了优势。因此，Groq芯片在小模型、本地或者线上定制化推理服务等场景具有一定应用前景，却不适用在云端大规模集群推理，尤其是GPU或者大厂ASIC被充分优化的场景。

无论这样的讨论结论如何，都集中于技术层面。但有一个现象却需注意。也就是文前所述，有人借此炒作SRAM话题，导致存储板块出现异动。

SRAM即静态随机存取存储器，与DRAM同属易失性内存。SRAM的优点是存取速度更快，但成本高，容量小。这与DRAM形成鲜明对比。由于当前AI芯片的主要瓶颈之一就是存储带宽问题。前段时间火热的HBM高带宽内存，实际上就是DRAM的超级加强版，通过堆叠多颗DRAM的芯片来提供更高的存储带宽和容量。Groq芯片采用SRAM，而非HBM获得更高AI推理速度这一点，被人转移到SRAM之上，借以炒作起了一波股市行情，却又无视了SRAM成本高、容量小等问题。

SRAM作为一项已经十分成熟的技术产品，其优势与劣势都已非常明显。其很难凭借一款Groq芯片就能打开所谓的“上升通道”。SRAM未来替代HBM，更属难能。

经过近两年的“低谷”，全球存储市场都处于反弹状态。此时的存储板块酝酿出一波上涨行情并非不可能。但切忌盲目跟风炒作，反而有可能节外生枝，对整个大势造成不利影响。