聚焦三大领域的技术盛宴：Khronos·芯原技术研讨会全程回顾

作者：六一 2021-04-24

来源：爱集微 #芯原#

2.2w

集微网消息，4月23日，开放标准行业协会 Khronos Group携手芯原股份（VeriSilicon）在上海联合举办了技术研讨会，聚焦神经网络处理/机器学习/人工智能， GPU / Vulkan 和AR / VR（XR）三大技术领域，Khronos与芯原分别分享了全球标准化工作以及技术实现和具体案例。详情请点击以下链接，收看视频回放。

视频回放

在研讨会开幕致辞中，芯原商业运营高级副总裁汪洋提到了半导体产业历史上出现的三次转移，从军工主导的美国开始，到日韩的家电IDM形式，再到中国台湾的代工王朝，最后到现在的中国大陆，每一次转移都与对应时期的商业背景有关。第三次转移中，IC设计领域面临着更碎片化的需求，一些通用化的设计工作成为了Fabless公司的累赘。所以，如同台积电帮助行业降低固定成本一般，Fabless公司所面临的高额运营成本，需要芯原的帮助。

为了更好地解决客户的运营成本问题，芯原基于独有的芯片设计平台即服务（SiPaaS）的商业模式，立足于自主的半导体IP技术平台，为全球客户提供一站式芯片定制服务和半导体IP授权。汪洋还详细介绍了芯原的5大数字IP，包括GPU IP、NPU IP、VPU IP、DSP IP和ISP IP等；共计 1400多个数模混合IP和射频IP。

与此同时，芯原同样也需要合作伙伴的帮助。据芯原执行副总裁、IP事业部总经理戴伟进指出，目前市场上有数亿颗客户产品，而这些产品大多数都基于Khronos API，足以见得Khronos API对行业的贡献。

Khronos工业协会主席，英伟达生态系统开发副总裁在此次研讨会上表示，Khronos Group专门致力于发展开放标准的应用程序接口 (API) ，以实现在多种平台和终端设备上的富媒体创作、加速和回放。Khronos通过早期介入规范的草案拟定和一致性测试，使得会员能够加速交付自己尖端的平台及应用。

本次研讨会主要分为三大主题，包括“并行处理，视觉加速与推理”、“3D图像”和“增强与虚拟现实”。除了芯原和Khronos，本次研讨会上还有来自英伟达、Intel、华为、腾讯、阿里巴巴、中国移动研究院等公司的演讲者，针对以上三大主题分享了技术发展与具体案例。

并行处理，视觉加速与推理

Neil Trevett介绍了并行处理，视觉加速与推理的Khronos开放标准。他指出，人们对并行处理的兴趣越来越大，以对抗“摩尔定律的终结”。处理器频率缩放被并行编程取代，并行编程成为提供所需性能的有效方式。Vulkan用于图形处理器编程，而Open CL使软件能够使用任何可用的异构处理器的混合。两者都提供并行加速着色器或内核程序编译到Khronos的SPIR-V中间语音。

针对主题，芯原机器学习软件副总裁查凯南对芯原神经网络处理器进行了介绍。查凯南表示，在芯原所有IP技术中，NPU起到了串联的作用，芯原对智能IP市场抱有很大期望。神经网络技术正不断发展和演进，在计算机视觉、超分辨率像素处理以及音频和语音处理方面有着大量而全面的应用。有40多家企业使用芯原NPU IP技术，超60多款产品已量产商用。

具体来看，芯原的神经处理单元IP VIP9000就是一款高度可扩展、可编程的计算机视觉和人工智能处理器。VIP9000采用Vivante最新的VIP V8 NPU架构。VIP V8架构提高了数据分配的灵活性和处理核心的可配置性，可适应现代神经网络（例如1x1、Nx1、1xN、depth wise）中的各种滤波器(filter)形状和大小。VIP9000通过基于设计选择（INT8、INT16、Float16、Bfloat16）的不同数据格式实现神经网络推理。

查凯南强调，除了继续深耕技术研发，未来芯原还将帮助构建开源ML生态系统，提供对MLIR、IREE、TVM的支持，动态图支持、SPIR-V集成与支持以及对低级编程接口的支持也是未来努力的方向。

3D图像

在3D图像方面，芯原IP解决方案副总裁张慧明在大会上介绍了芯原系列GPU IP对Khronos API和Khronos Ecosystem的支持情况。

张慧明指出，芯原自加入Khronos Group后就一直为Khronos API提供建议和产品演进的技术支持。一直以来，芯原都在帮助Khronos在全世界范围内，尤其是中国范围内推广Khronos API以及标准工业接口。

据张慧明介绍，芯原从2008年推出第一款GPU后，一系列GPU产品都支持Khronos标准API。包括VSI GC7000/8000/9000 GPU IPs已经支持Vulkan 1.1/1.2、OpenGL ES 3.2、OpenGL 4.0、OpenGL SC 2.0、OpenCL 3.0、OpenVX 1.3、WebGL 1.0/2.0等。

张慧明强调，芯原正在Khronos API上持续投入研发力量，凭借公司的平台能力、软件能力，携手Khronos ，更好的发挥软件和硬件协同工作的潜力与价值。

针对该主题，多位行业专家展开讲解了具体的技术实现。例如阿里巴巴淘系技术部端智能团队高级技术专家姜霄棠介绍了MNN的异构计算解决方案；ax株式会社数据科学部AI工程师胡筠则介绍了如何用Vulkan快速搭建AI框架。

姜霄棠表示，MNN 是一个深度神经网络推理引擎，在端侧加载深度神经网络模型进行推理预测，分为Converter和Interpreter两部分。目前，MNN 已经在阿里巴巴的手机淘宝、手机天猫、优酷等 20 多个 App 中使用，覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。此外，IoT 等场景下也有若干应用。

对于后续规划，姜霄棠表示在几何计算部分将对Fusion Op分解，成本将更低。MNN部分将对前端和后端硬件提供更多的支持，此外，MNN与编译技术相结合未来会应用模型压缩算法。

ax株式会社目前主要产品是对ailia SDK的开发和销售，这是一个利用GPU进行高速推断的AI框架，通过Vulkan对ONNX格式的AI模型，实现高速推断。另外，ax还提供120多种已训练完的模型，不需要训练即可方便的加载到客户的应用程序中，客户也可以任意选择加载自主训练的模型。

据胡筠介绍，ailia SDK提供了一个您可以轻松地通过示例尝试各种AI模型的环境。通常在尝试引入AI模型时，必须首先调查搜索适合应用场景的AI模型，构建评估环境，匹配框架版本，评估速度和性能等。另外，如果要在边缘计算环境中运行，则需要实现模型转换以及预处理和后处理。ailia SDK则可以通过提供120多种经验证和训练完成的AI模型作为评估示例，在引入AI模型时显着减少研发和评估所需的时间和人力物力。

最后，胡筠还列举了多个关于ailia SDK的应用案例，包括Celsys公司的Clip Studio Paint工具使用Vulkan在Android终端上实现了高速推断，与Blaize公司合作整合了Blaize的AI处理技术到ailia AI框架等。

增强与虚拟现实

近日，苹果吹响AR/VR号角，市场再度火热。在本次研讨会上，英特尔AR/VR首席软件架构师 Brent Insko对英特尔的OpenXR的发展与现状进行了讲解。

OpenXR是一个免版税的开放标准，提供对增强现实和虚拟现实平台和设备的高性能访问。OpenXR处理应用程序和XR（AR，VR，MR等技术）平台或设备之间的通信，XR平台提供应用程序信息，例如关于控制器的头、手部位信息以及输入状态。

据Brent Insko介绍，OpenXR允许应用程序开发人员可以使用单个通用的高性能API，支持许多不同的AR和VR平台，可以与任何3D API一起使用。

值得一提的是，中国本土公司在AR/VR这一新兴领域已于国外处于同一起跑线上。本次研讨会上芯原、华为和弥知科技分别介绍了各自的技术储备和发展情况。

芯原多媒体SoC平台首席工程师妙维透露，芯原提供先进、丰富的IP组合。在VR/AR领域，芯原提供从云、边缘到可穿戴设备的技术支持。在视频转换方面，芯原提供8K120FPS、64*1080p流的支持。在NPU方面，芯原可提供100-200TOPs的算力支持。在GPU方面，芯原可提供2TFLOPs，4TFLOPs算力支持。芯原Vivante IPs使SoC厂商具有强大的计算能力，世界领先的VR/AR厂商也与芯原有合作关系。

华为消费者BG AR/VR产品技术总监邹文进在芯原与Khronos举办的技术研讨会上指出，AR引擎就像拉链一样，连接数字和物理世界。

据邹文进介绍，目前华为领先的AR平台为至少5亿台设备提供技术支持，市面上大多数华为手机都支持AR引擎，预计今年还会增加3亿台非华为设备。

“外界认为华为是一间做设备的公司，以前的新技术是专注于赋能自己的设备，但现在和未来将更加开放，为整个行业的设备赋能，”邹文进强调，“AR技术是未来社会的基础能力，将携手合作伙伴一起坚定的推进这项技术的发展。”

弥知科技创始人兼CEO 张天夫表示，3D数字化技术基于硬件的支持，但对软件与制作平台也提出了更高的要求。弥知科技的算法矩阵基于渲染，物体/人体识别跟踪，云计算三大部分。

张天夫指出，弥知科技旗下拥有国内首家Kivicube WebXR在线制作平台专注于WebAR的互动制作与多平台分发。可发布至微信/小程序/支持WebView框架的如微博/百度/支付宝/等平台。微信小程序AR插件支持微信小程序中的自然图像、人脸特征的实时跟踪与识别，基于微信大量流社交媒体平台增加AR的传播度与易用性。大场景AR定制方案通过Web SLAM技术在线下大空间中叠加更沉浸的AR虚拟世界，在吸引更多消费者体验的同时，为商户精准导流提升销量增长。

关于可穿戴AR/VR设备的难点，妙维表示，主要是功耗和时延。可穿戴设备对功耗和延时有着较高的要求，同时也对视频输出像素的质量的要求也逐步增加。芯原的Glass- To-Glass低功耗像素处理IPs针对可穿戴设备提供了低功耗、超低延迟的像素处理技术。

妙维进一步指出，像素处理在AR/VR应用中较以往不同。首先，计算和渲染过程分布在云、边缘到可穿戴设备中协同达到极低功耗和超低延迟的要求。其次，中央凹渲染和切片处理要求不同于传统基于帧的处理，需要低延时流处理通路。最后，SoC中IP子系统以应用驱动的方式工作。

关于本地渲染和云渲染的差异，中国移动研究院高级技术人员李可指出，主要是对于云渲染所需的解码能力、通信能力接口都没有定义，此外端到端时延的差异也非常大。根据帧率，本地渲染时延可能是11ms，但云渲染实测往往都有60~70ms的时延。所以，云渲染对于用户动作的预测和补偿非常重要。

李可认为云渲染的标准化可以分为三个阶段，第一个阶段是实现云端SDK和终端侧接口的统一，第一步主要解决终端接入的问题；第二个阶段是实现云渲染能力和业务之间的接口统一，第二部是为了解决业务部署问题；第三个阶段是实现云渲染、云感知能力和云的实际处理资源的统一。（校对/jimmy）