主要内容

深度学习处理器架构

该软件提供了一个通用的深度学习处理器IP核,是目标独立的,可以部署到您指定的任何定制平台。处理器可以重复使用和共享,以适应具有不同层大小和参数的深度神经网络。使用该处理器从MATLAB中快速原型深度神经网络®,然后将网络部署到fpga上。

该图显示了深度学习处理器架构。

为了说明深度学习处理器体系结构,考虑一个图像分类示例。

DDR外部存储器

您可以将输入图像、权重和输出图像存储在外部DDR存储器中。处理器由4个与外部内存通信的AXI4主接口组成。使用其中一个AXI4主接口,您可以将输入图像加载到Block RAM (布拉姆).块RAM提供了对通用的卷积处理器

通用的卷积处理器

通用的卷积处理器执行一个卷积层的等效操作。使用另一个AXI4主界面,提供卷积操作的权重通用的卷积处理器.的通用的卷积处理器然后对输入图像进行卷积运算,并对输入图像进行激活激活正常化.该处理器是通用的,因为它可以支持各种尺寸的张量和形状。万博1manbetx

激活正常化

基于你提供的神经网络激活正常化模块的作用是添加ReLU非线性、maxpool层或执行Local Response Normalization (LRN)。你可以看到处理器有两个激活正常化单位。一个单元跟随通用的卷积处理器.另一个单元紧随通用的FC处理器

Conv控制器(调度)

取决于您在预磨料网络中的卷积图层数量,Conv控制器(调度)作为乒乓缓冲区。的通用的卷积处理器激活正常化一次只能处理一层。来处理下一层Conv控制器(调度)移动回BRAM,然后对网络中所有卷积层进行卷积和激活归一化操作。

通用的FC处理器

通用的FC处理器执行一个全连接层(FC)的等效操作。使用另一个AXI4 Master接口,全连接层的权重将提供给通用的FC处理器.的通用的FC处理器然后在输入图像上执行完全连接的图层操作,并为此提供激活激活正常化模块。这个处理器也是通用的,因为它可以支持各种尺寸的张量和形状。万博1manbetx

FC控制器(调度)

FC控制器(调度)类似于Conv控制器(调度).的FC控制器(调度)与之坐标先进先出充当ping pong缓冲器,用于执行完全连接的层操作和激活正常化取决于FC层的数量,以及神经网络中的ReLU、maxpool或LRN特征。后通用的FC处理器激活正常化模块处理图像中的所有帧,通过AXI4主接口传输预测或分数并存储在外部DDR内存中。

深度学习处理器应用

自定义深度学习处理器IP核的一个应用是MATLAB控制的深度学习处理器。为了创建这个处理器,使用AXI4从接口将深度学习处理器IP与HDL Verifier™MATLAB集成为axis主IP。通过JTAG或PCI express接口,可以从MATLAB中导入各种预训练的神经网络,在深度学习处理器IP中执行网络指定的操作,并将分类结果返回到MATLAB。

有关更多信息,请参见MATLAB控制的深度学习处理器