(文/陈炳欣)在数字化浪潮的推动下,芯片设计行业正经历着日益复杂的环境挑战。AI大模型的快速发展,不仅显著提升了芯片设计所需的资源规模,也对资源的高效管理和优化利用提出了更高要求。此外,芯片制程技术的不断迭代更是加剧了设计环境的复杂性,也为行业带来了全新的机遇与难题。这种情况对于芯片设计企业,特别是中小微企业来说,大多面临人手短缺,设计能力匮乏等问题,在进行仿真和验证时,往往缺乏大规模的算力集群支持。“设计上云”对芯片企业来说就是一个有效的解决方案。近日,紫光云公司在ICCAD2024推出紫光芯片云3.0整体解决方案。紫光云首席技术官柳义利在接受记者采访时指出,如果“芯片设计上云”的概念不局限于公有云,而把私有云和混合云计算在内,那么越来越多的半导体企业将把芯片设计迁移到云端完成。上云已经成为当前芯片设计的大趋势。未来整个行业将向着混合云算力、全方位一站式服务的方向发展。
芯片设计上云大势所趋
近年来,在数字化浪潮的驱动下,市场对高性能芯片的需求日益旺盛,加速了芯片产品的更新迭代,迫使设计企业不断提高技术含量并缩短交付周期。与此同时,先进制程工艺的采用对IT资源提出了更高需求,逐渐成为芯片设计企业,特别是中小微企业不得不面对的挑战。根据中国半导体行业协会设计分会统计显示,中国芯片设计企业数量已经从2015年的736家增加到2024年的3626家,其中大多数为中小微企业。将芯片的开发设计流程上云,可以减轻公司在人力、算力、软件等方面的投入负担,提高资源利用率、降低研发成本、加快技术成果转化速度,这已经是不可避免的大势所趋。
柳义利指出,芯片设计上云对于企业来说,最直接的好处就是有望解决算力问题。无论是设计还是验证,IC设计公司对算力的需求都非常大,很多小公司承受不起,只能用时间来换金钱。如果云端有更好的解决方案,对于它们来说将有非常大的帮助。
具体而言,对于大部分新创IC企业来说,尽早实现芯片流片是企业实现生存发展的关键一环,而及时将产品交付客户,设计效率至关重要。在整个设计开发的流程中,仿真和验证变得越来越重要。当芯片设计团队进行仿真和验证时,往往需要调用大规模的算力集群。在这样大的算力环境下,整个集群算力的管理和调度、算力集群和存储系统的交互,同样需要一支专业的IT团队进行操作。芯片设计上云恰恰能够有效解决这些难题。
此外,面对芯片设计规模日益扩大而导致的成本不断攀升,以及复杂的芯片设计流程,也需要高度专业化云服务企业解决问题。根据紫光芯片云解决方案总架构师耿加申的介绍,现代的芯片设计,尤其是CPU、GPU、NPU等高端大芯片设计,其中的计算、验证、仿真工作量数倍于以往。对于中小型芯片设计企业来说,在仿真、验证需求高峰来临时会出现资源不足的情况,这时候花费大量成本购置用于物理验证、仿真的服务器并不符合公司发展阶段的要求。因为项目开发中不同阶段对于算力的需求是波动的。通常芯片设计周期一般超过12个月,包括产品定义、前端设计、IP验证、SoC验证、综合、布局布线等多个阶段,不同阶段对算力的需求也不相同。此外,芯片设计环境越来越复杂,企业构建的难度越来越高,中小微企业更是很难有余力搭建专门的IT/CAD团队。这是越来越多企业选择芯片设计上云的重要原因。
一站式云服务提升设计效率
事实上,近年来有关芯片设计上云的讨论也是话题不断。国际上,早在2017年Synopsys、Cadence等几家EDA厂商就开始提出芯片设计上云的概念。AWS、微软等云计算公司也提供了芯片上云的解决方案。例如,Synopsys与台积电共同部署云上设计和芯片制造平台,帮助台积电成为首家实现云设计的代工厂。Synopsys还与台积电在微软Azure平台上成功实现云上时序签核新流程,加快片上系统开发效率。
国内方面,芯片设计上云的开端始于2019年左右,包括阿里云、腾讯云、紫光云、华为云等多家云平台相继开始探索高性能计算场景。近日,紫光云更是正式推出紫光芯片云3.0整体解决方案,通过一站式芯片云服务为芯片设计企业提速赋能。
从这些行业企业的行动中可以看出,“一站式云服务”正在成为未来行业发展的重要趋势之一。传统上,云厂商只提供产品服务,而新的运维方式则涵盖了从前期的方案规划到资源的部署、运维调优,包括核心产品提供的一个完整的服务,可以让设计企业能够更专注地投入芯片设计的主业当中。
此外,耿加申还表示,紫光芯片云3.0解决方案中核心软件做到了全自研,并针对客户的需求持续迭代,通过一个平台把整个环境统一的可视化管理起来,提高运营效率,同时提供混合云服务、针对性的后端设计服务。这些升级服务可以帮助芯片设计企业快速提升设计效率,为芯片企业赋能。
混合云解决算力波动需求
近年来,芯片企业在进行云端业务部署中,服务模式很多,包括了公有云、私有云和混合云。由于混合云融合了公有云和私有云,成为近年来云计算的主要模式和发展方向。
首先在优化资源利用方面,在芯片设计过程中,算力需求呈现波动性。混合云可以通过公有云在需求高峰期提供额外的算力支持,而在需求低谷期则利用私有云资源,从而优化整体资源利用率。
其次是混合云更具灵活性。混合云具备弹性伸缩的能力,可以根据芯片设计任务的算力需求快速调整资源分配。这有助于企业快速响应市场变化,提高设计效率。在多场景适用方面,无论是前端设计、IP验证、SoC验证还是综合、布局布线等阶段,混合云都能提供灵活的算力支持,满足不同阶段的需求。
更重要的是在安全性方面,芯片设计企业首要关注的就是信息安全。混合云允许企业将敏感数据和关键任务工作负载保留在私有云中,由企业自己进行管理和保护,降低了数据泄露的风险。同时在公有云和私有云之间传输数据时,可以采用加密技术确保数据传输的安全性,提高数据传输安全。
打造生态全面优化服务
对云服务来说,优良的产业生态能够整合资源、降低成本、提高效率,对于芯片设计上云具有显著的促进意义。当前云服务厂商都在致力于打造完整的产业生态环境。
对此,柳义利表示,紫光云3.0完成了几乎所有芯片软件环境的适配,包括EDA软件到中间的管理平台、调度器,打通个环节,使得云技术的运算能力与储存容量以及EDA技术等实现融合,可以在很大程度上解决当前IC设计中面临的问题,为开发者提供实时可用的算力、更加灵活高效的开发环境、更加优化的成本,并缩短产品上市时间。紫光云系统部企业业务部部长陶豆强调,云的本质就是生态。紫光云一直都在致力于构建一个完整的生态,从IaaS到PaaS,将完整的整体服务提供给芯片企业。
EDA是产业生态中的重要一环,目前云服务厂商也在加强与EDA等厂商的合作。随着公有云架构逐渐稳固,数据安全体系逐渐成熟。目前,EDA云平台工具和运行环境逐渐整合在一起,产品能够规模化地复制到不同的行业,并提供给客户。
人工智能与云服务融合不断加深
人工智能与云服务技术的融合也在不断加深。未来芯片设计上云将越来越多地与人工智能相融合,提供更好的服务。根据耿加申的介绍,此次紫光云3.0的特点之一就是使用了先进的AI加持的工具,帮助芯片设计企业快速地提升芯片设计效率。通过应用AI技术优化客户体验、提升效能将是云服务发展的一个重要方向。
深度学习等算法能够提高EDA软件的自主程度,提高IC设计效率,缩短芯片研发周期。人工智能在大规模数字芯片优化、数字仿真验证、PCB设计综合等领域都有着巨大的发挥空间。将AI和算法应用于自身的产品中,实现垂直领域的创新解决方案已成为行业发展的又一个重要趋势。越来越多的云厂商在AIGC领域进行完整布局,包括AIGC训练平台、推理平台,算力调度平台等,提供AIGC智算的整体解决方案。