产业观察:Groq大火 谨防炒作

来源:爱集微 #Groq# #AI芯片# #推理# #LPU方案# #SRAM#
2.9w

集微网报道 (文/陈炳欣)受国外初创公司Groq推出AI芯片影响,日前国内股市存储板块出现一波异动,引起人们对这一事件的广泛关注。

据悉,Groq公司是一家人工智能芯片公司,成立于2016年,总部位于美国加州圣塔克拉拉山景城。今年1月其推出新型人工智能芯片 LPU(Language Processing Unit)芯片。该产品近日在一些公开测评、客户测试中,延时(Latency)、吞吐量(Throughput)等指标大受好评,据称AI推理速度远超英伟达GPU。Groq官网提供了两个开源模型的演示:在Mixtral8x7B-32k的生成速度接近500 token/s,在Llama 2 70B-4k接近300 token/s。

从技术上看,Groq没有走GPU路线,而是采用了LPU方案。在设计架构上,GPU主要用于图形渲染,拥有数百个并行的处理单元。而LPU的架构旨在为 AI 计算提供确定性的性能,一种新型的端到端处理单元系统。不同于GPU使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。因此,LPU更加擅长LLM处理,可以为具备序列组件的计算密集型应用(比如LLM)提供更快的推理速度。

简单来讲,LPU的核心是克服限制LLM处理两个瓶颈——计算密度和内存带宽。Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。在算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

Groq芯片的推出给业界带来不小的影响。从算力端来看,一款更高性能、更低成本(单位token费用)的芯片,有望在海量推理需求中提供一个新的选择。对应用端来说,更低成本和更高效率的推理过程也有望加速搜索、创意设计、办公软件等AI生成应用的落地和普及。

不过,针对Groq芯片的质疑也随之而来。许多观点认为,Groq芯片看起来虽然效果惊人,但计算成本TCO,并不具有经济性。同样完成LLaMA 70b模型推理,采用int8量化,运行三年Groq 需要的硬件采购成本是576卡1144 万美元,运营成本是76.2万美元或更高;H100的硬件采购成本是8卡30万美元,运营成本是7.2万美元或略低。但也有大佬称,Groq芯片的确在小batch size上显示出了优势。因此,Groq芯片在小模型、本地或者线上定制化推理服务等场景具有一定应用前景,却不适用在云端大规模集群推理,尤其是GPU或者大厂ASIC被充分优化的场景。

无论这样的讨论结论如何,都集中于技术层面。但有一个现象却需注意。也就是文前所述,有人借此炒作SRAM话题,导致存储板块出现异动。

SRAM即静态随机存取存储器,与DRAM同属易失性内存。SRAM的优点是存取速度更快,但成本高,容量小。这与DRAM形成鲜明对比。由于当前AI芯片的主要瓶颈之一就是存储带宽问题。前段时间火热的HBM高带宽内存,实际上就是DRAM的超级加强版,通过堆叠多颗DRAM的芯片来提供更高的存储带宽和容量。Groq芯片采用SRAM,而非HBM获得更高AI推理速度这一点,被人转移到SRAM之上,借以炒作起了一波股市行情,却又无视了SRAM成本高、容量小等问题。

SRAM作为一项已经十分成熟的技术产品,其优势与劣势都已非常明显。其很难凭借一款Groq芯片就能打开所谓的“上升通道”。SRAM未来替代HBM,更属难能。

经过近两年的“低谷”,全球存储市场都处于反弹状态。此时的存储板块酝酿出一波上涨行情并非不可能。但切忌盲目跟风炒作,反而有可能节外生枝,对整个大势造成不利影响。

责编: 张轶群
来源:爱集微 #Groq# #AI芯片# #推理# #LPU方案# #SRAM#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...