该软件提供了一个通用的深度学习处理器IP核,是目标独立的,可以部署到您指定的任何定制平台。处理器可以重复使用和共享,以适应具有不同层大小和参数的深度神经网络。使用该处理器从MATLAB中快速原型深度神经网络®,然后将网络部署到fpga上。
该图显示了深度学习处理器架构。
为了说明深度学习处理器体系结构,考虑一个图像分类示例。
您可以将输入图像、权重和输出图像存储在外部DDR存储器中。处理器由4个与外部内存通信的AXI4主接口组成。使用其中一个AXI4主接口,您可以将输入图像加载到Block RAM (布拉姆
).块RAM提供了对通用的卷积处理器
.
的通用的卷积处理器
执行一个卷积层的等效操作。使用另一个AXI4主界面,提供卷积操作的权重通用的卷积处理器
.的通用的卷积处理器
然后对输入图像进行卷积运算,并对输入图像进行激活激活正常化
.该处理器是通用的,因为它可以支持各种尺寸的张量和形状。万博1manbetx
基于你提供的神经网络激活正常化
模块的作用是添加ReLU非线性、maxpool层或执行Local Response Normalization (LRN)。你可以看到处理器有两个激活正常化
单位。一个单元跟随通用的卷积处理器
.另一个单元紧随通用的FC处理器
.
取决于您在预磨料网络中的卷积图层数量,Conv控制器(调度)
作为乒乓缓冲区。的通用的卷积处理器
和激活正常化
一次只能处理一层。来处理下一层Conv控制器(调度)
移动回BRAM,然后对网络中所有卷积层进行卷积和激活归一化操作。
的通用的FC处理器
执行一个全连接层(FC)的等效操作。使用另一个AXI4 Master接口,全连接层的权重将提供给通用的FC处理器
.的通用的FC处理器
然后在输入图像上执行完全连接的图层操作,并为此提供激活激活正常化
模块。这个处理器也是通用的,因为它可以支持各种尺寸的张量和形状。万博1manbetx
的FC控制器(调度)
类似于Conv控制器(调度)
.的FC控制器(调度)
与之坐标先进先出
充当ping pong缓冲器,用于执行完全连接的层操作和激活正常化
取决于FC层的数量,以及神经网络中的ReLU、maxpool或LRN特征。后通用的FC处理器
和激活正常化
模块处理图像中的所有帧,通过AXI4主接口传输预测或分数并存储在外部DDR内存中。
自定义深度学习处理器IP核的一个应用是MATLAB控制的深度学习处理器。为了创建这个处理器,使用AXI4从接口将深度学习处理器IP与HDL Verifier™MATLAB集成为axis主IP。通过JTAG或PCI express接口,可以从MATLAB中导入各种预训练的神经网络,在深度学习处理器IP中执行网络指定的操作,并将分类结果返回到MATLAB。
有关更多信息,请参见MATLAB控制的深度学习处理器.