近日,南京大学万昌锦团队研发了面向视频动作处理的光电储备池计算技术,并基于此技术及氧化物功能器件开发了名为Alpho-RC的仿生动态视觉处理系统。该研究成果以“A Bioinspired In-Materia Analogue Photoelectronic Reservoir Computing for Human Action Processing”为题发表在国际顶级综合性期刊Nature Communications上。审稿人评价该工作为:“clearly represents a new milestone”,该研究成果一经发表即被该杂志编辑选为器件领域Featured Articles(仅50篇)。
图1. 感受野启发的仿生视觉处理流程
储备池计算网络是一种循环神经网络,在处理时序信号时有计算代价小、效率高的优势。但在面对图像识别任务时,识别率不如经典的卷积神经网络。因而,目前尚未有关于处理真实视频信号的储备池计算网络的报道。为此,南大电子学院万昌锦团队与合作单位受生物感受野启发(如图1),开发了一种面向视频动作处理的光电储备池计算系统(Alpho-RC),实现了对真实视频信号的高能效处理。Alpho-RC系统(如图2)主要由IGZO光电突触晶体管(10 kb)芯片作为储池层,提供高维的非线性映射;同时,以1T1R结构的TaOx基忆阻器(1 kb)芯片作为输出层,进行基于线性回归运算的标签推理,突破了原有储备池计算系统难以实现高效视频处理的限制,实现了对真实视频信号的高能效处理。
图2. 模拟态光电储层计算系统关键模块:IGZO晶体管芯片及TaOx基1T1R忆阻器芯片
该系统的一大亮点是其模仿生物神经元的感受野机制。感受野是一种生物学概念,指的是特定神经元对特定空间区域内的刺激作出反应的能力。在Alpho-RC中,研究人员使用了多个高斯感受野(GRF)神经元组成的群体编码器,将输入信息编码成尖峰序列。只有当对应感受野的输出最大时才会触发脉冲信号,这种方式极大地简化了特征提取过程,减少了计算负担。我们使用微软的Kinect相机采集的3D 骨架数据作为视频输入,实现了无特征提取的动作识别与预测(如图3)。在测试中,Alpho-RC系统针对UTD-MHAD(27类动作)、MSR Action3D(20类)、Florence 3D(9类)和MSR Action Pairs四个标准人类动作数据集,均取得了超过90%的识别准确率。其中,在UTD-MHAD数据集上,识别率高达93.58%,多个动作识别效果良好。我们进一步使用自制的包含正常和跌倒动作的数据集进行验证,系统对跌倒行为识别准确率达96.67% ,接近目前基于算法的最高识别率:98.33%。在动作预测方面,当观察比例超50%时预测准确率超80%,而观察比例超70%时超90%的识别率。对跌倒行为的高准确率识别及高提前量的预测,在老年人退变疾病预防和健康监护方面具有十分重大意义。
图3. 在标准数据集和自制数据集上的验证结果
更重要的是,Alpho-RC系统还具备极高的能效优势。相比其他网络模型,Alpho-RC网络结构十分简单,其规模比经典网络小1-3个数量级。系统处理每个动作仅约45.78 μJ,比CMOS基处理器至少低2个数量级。这意味着Alpho-RC系统十分适合应用于边端设备和移动设备等资源受限的场景。可以预见的是,Alpho-RC系统将在未来在智能医疗领域、虚拟现实(VR)和增强现实(AR)领域,以及人机交互等领域具有广阔的应用前景。
南京大学电子学院万昌锦副教授为该工作通讯作者,一年级博士生崔航源为该工作第一作者,学院施毅老师、甬江实验室万青老师、浙大计算机科学与技术学院林芃等老师提供了指导。研究得到了国家重大研究计划、重点研发计划、南京市生命健康专项等项目的资助,以及光电材料与芯片技术教育部工程中心的支持。
评论
文明上网理性发言,请遵守新闻评论服务协议
登录参与评论
0/1000