高性能端/云CNN加速器硬件IP(N900系列)及其编译器的技术解决方案

技术介绍:

1.  项目概况(研究背景+项目概述)

本技术实现了从上层软件框架到底层硬件IP的全套AI处理器相关技术的开发,包括支持各种AI算法开发的编译器框架、支持ARM总线的可级联扩展的处理器IP及其版图实现、基于上述AI处理器IPRISC-V核的集成处理芯片等。用户可通过集成相关IP设计实现高性能AI处理器芯片及其编译开发环境。相关技术已落地进入国家关键领域产品中(技术转化费用>330万)。

2.  关键技术(技术优势和特点)

l  设计了AI处理器配套的顶层编译器,支持包括PyTorch, 飞浆到硬件IP执行指令的全套编译。

l  IP28nm工艺下实现了700MHz主频,4608计算单元,4M片上SRAM的设计开发;IP支持任意尺寸卷积及Depth卷积,池化,Batch NormalizationReLU,任意激活函数等算子;支持ResNetMobileNetYoloSSD等主流CNN网络结构。

l  实现动态位宽的定点计算,相比与floating运算,在识别精度上无损失。

l  IP实现了权重、中间层结果的在线压缩,优化片上存储及片下带宽需求。针对不同网络实现了30-60%(压缩后数据/原始数据)以上权重、中间层的数据压缩。

3.  应用领域和市场前景

本项目实现了端到端的AI处理器系统,可应用于各类移动及物联网设备。目前相关AI硬件IP及其编译器已被行业领军企业采用,并已量产(28nm工艺,相关开发板如图1);

4.  合作模式:技术转让,授权,许可

5.  联系我们:hejing@nju.edu.cn


  

.1 AI处理器裸片照片、开发板及其编译器工具


.2 AI处理芯片主要技术指标