GPU编码器

为NVIDIA GPU生成CUDA代码

请求免费审判

请求报价

GPU编码器™ 生成优化的CUDA^®来自MATLAB的代码^®代码与Simuli万博1manbetxnk^®模型。生成的代码包括CUDA内核，用于深度学习、嵌入式视觉和信号处理算法的可并行部分。为了获得高性能，生成的代码调用优化的NVIDIA^®CUDA图书馆，包括TensorRT™, cuDNN、cuFFT、cuSolver和cuBLAS。这些代码可以作为源代码、静态库或动态库集成到项目中，并且可以为嵌入NVIDIA Jetson的台式机、服务器和GPU进行编译™, 英伟达大道™, 和其他平台。您可以在MATLAB中使用生成的CUDA加速深度学习网络和算法的其他计算密集部分。GPU编码器允许您将手写CUDA代码合并到算法和生成的代码中。

与嵌入式编码器一起使用时^®，GPU编码器允许您通过软件在环（SIL）和处理器在环（PIL）测试验证生成代码的数值行为。

开始：

什么是GPU编码器？

生成快速、灵活的CUDA代码

生成优化的CUDA代码。免费部署代码。

部署算法免版税

在流行的NVIDIA GPU上编译并运行生成的代码，从桌面系统到数据中心再到嵌入式硬件。生成的代码是免版税的，可以将其免费部署到商业应用程序中。

为雾校正算法生成CUDA代码(2:22)

GPU代码生成：Mandelbrot集

探索图库（2张图片）

GPU编码器的成功案例

了解不同行业的工程师和科学家如何使用GPU编码器为其应用程序生成CUDA代码。

Drass在NVIDIA GPU上运行的Visual Studio应用程序中使用YOLO v2网络部署海上光学跟踪和障碍感知系统

在NVIDIA Jetson TX2上运行的空中客车原型飞机检查演示器，用于自动检测缺陷

空中客车原型自动检测NVIDIA Jetson TX2上的缺陷。

从支持的工具箱和函数生成代码万博1manbetx

GPU编码器从广泛的MATLAB语言功能生成代码，设计工程师使用这些功能开发算法，作为更大系统的组件。这包括来自MATLAB和配套工具箱的数百个运算符和函数。

万博1manbetx支持的工具箱和函数

MATLAB语言特性支持万博1manbetx

MATLAB语言和工具箱支持代码生成。万博1manbetx

合并遗留代码

使用遗留代码集成功能将可信或高度优化的CUDA代码合并到MATLAB算法中，以便在MATLAB中进行测试。然后从生成的代码中调用相同的CUDA代码。

遗留代码集成

将现有CUDA代码合并到生成的代码中。

从Simulink模型生成CUDA代码万博1manbetx

在Simulink中创建模型并生成万博1manbetx优化的CUDA代码。

为NVIDIA GPU运行模拟并生成优化代码

与Simulink编码器一起使万博1manbetx用时™, GPU编码器在NVIDIA GPU上加速Simulink模型中MATLAB功能块的计算密集部分。然后，您可以从Simulink模型生成优化的CUDA代码，并将其部署到NVIDIA GPU目标。

基于GPU编码器的仿真加速

用GPU编码器从Simulink模型生成代万博1manbetx码

针对NVIDIA嵌入式板

万博1manbetx在GPU上运行的Sobel边缘检测器的Simulink模型。

部署端到端深度学习算法

使用深度学习工具箱中经过培训的各种深度学习网络（包括ResNet-50、SegNet和LSTM）™ 在Simulink模型中，并部署到NVIDIA GPU。生成用于预处理和后处理的代码，以及经过培训的深度学习网络，以部署完整的算法。万博1manbetx

万博1manbetx支持的网络和层

利用MATLAB功能块在Simul万博1manbetxink中进行深度学习

针对NVIDIA GPU的Simu万博1manbetxlink深度学习：使用GPU编码器生成CUDA代码

记录信号、调整参数并以数字方式验证代码行为

当与Simulink编码器一起万博1manbetx使用时，GPU编码器使您能够使用外部模式模拟实时记录信号和调整参数。使用嵌入式编码器和GPU编码器运行软件在环测试和处理器在环测试，以数字方式验证生成的代码与模拟行为匹配。

使用外部模式进行参数调整和信号监测

数值等效性测试

针对NVIDIA GPU的Simu万博1manbetxlink深度学习：ECG信号分类

从深度学习网络生成CUDA代码

使用深度学习工具箱部署经过培训的深度学习网络。

部署端到端深度学习算法

部署各种经过培训的深度学习网络（包括ResNet-50、SegNet和LSTM）从深度学习工具箱到NVIDIA GPU。使用预定义的深度学习层或为特定应用程序定义自定义层。生成预处理和后处理代码以及经过培训的深度学习网络，以部署完整的算法。

万博1manbetx支持的网络和层

基于GPU编码器的YOLO v2实时目标检测(4:24)

基于YOLO v3深度学习的目标检测代码生成

基于U-net的语义切分网络生成

如何为Keras TensorFlow模型生成CUDA代码

生成用于推理的优化代码

与其他深度学习解决方案相比，GPU编码器生成的代码占用空间更小，因为它只生成使用特定算法运行推理所需的代码。生成的代码调用优化的库，包括TensorRT和cuDNN。万博尤文图斯

用GPU编码器优化车道检测

使用cuDNN在Titan V GPU上使用VGG-16进行单图像推断。

使用TensorRT进一步优化

生成与NVIDIA TensorRT（高性能深度学习推理优化器和运行时）集成的代码。与标准FP32数据类型相比，使用INT8或FP16数据类型可获得额外的性能提升。

基于TensorRT的NVIDIA GPU行人检测(1:34)

利用NVIDIA TensorRT进行深度学习预测

使用MATLAB、GPU编码器和TensorRT深入学习Jetson AGX Xavier(24:40)

在NVIDIA GPU上使用MATLAB和TensorRT

使用TensorRT和INT8数据类型提高执行速度。

深度学习量化

量化您的深度学习网络，以减少内存使用并提高推理性能。使用Deep Network Quantizer应用程序分析并可视化提高性能和推理准确性之间的权衡。

带深度网络量化器的INT8量化

深层神经网络的量化

什么是int8量化？为什么它在深度神经网络中流行？

使用深度学习工具箱模型量化库进行深度网络量化和部署

优化生成的代码

GPU编码器自动优化生成的代码。使用设计模式进一步提高性能。

最小化CPU-GPU内存传输并优化内存使用

GPU编码器自动分析、识别和划分MATLAB代码段，以便在CPU或GPU上运行。它还最小化了CPU和GPU之间的数据拷贝数。使用分析工具识别其他潜在的瓶颈。

GPU编程范式

内核创建

GPU内存分配和最小化

生成代码的GPU执行评测

确定潜在瓶颈的概要报告。

调用优化的库

使用GPU编码器生成的代码调用优化的NVIDIA CUDA库，包括TensorRT、cuDNN、cuSolver、Cuft、cuBLAS和推力。从MATLAB工具箱函数生成的代码尽可能映射到优化库。

库调用的内核

NVIDIA TensorRT

NVIDIA cuDNN

NVIDIA cuFFT

在优化的Cuft CUDA库中生成代码调用函数。

使用设计模式进一步加速

模具处理等设计模式使用共享内存来提高内存带宽。当使用某些函数（如卷积）时，它们会自动应用。您还可以使用特定的pragma手动调用它们。

设计模式

基于GPU的模板处理

模具加工设计模式。

硬件上的原型

通过自动将算法转换为CUDA代码，快速进入硬件。

NVIDIA Jetson和驱动平台上的原型

使用针对NVIDIA GPU的GPU编码器支持包，在NVIDIA Jetson和驱动平台上自动交叉编译和部署生成的代码。万博1manbetx

来自GPU编码器的NVID万博1manbetxIA Tegra支持

来自GPU编码器的NVID万博1manbetxIA驱动器支持

使用GPU编码器在NVIDIA Drive上进行原型设计和部署，Jetson(2:54)

NVIDIA硬盘的语义分割

英伟达捷通平台的原型设计。

从MATLAB访问外围设备和传感器并生成代码

远程通信与英伟达目标从MATLAB获取数据从网络摄像头和其他支持的外围设备，用于早期原型。将您的算法与外围接口代码一起部署到板上，以便独立执行。万博1manbetx

在NVIDIA Jetson上使用网络摄像头进行Sobel边缘检测

NVIDIA Jetson TX2平台上网络摄像头图像的部署和分类

从MATLAB访问外设和传感器并生成代码。

从原型到生产

使用GPU编码器和嵌入式编码器，以交互方式跟踪MATLAB代码与生成的CUDA代码。使用软件在环（SIL）和处理器在环（PIL）测试验证生成代码在硬件上运行的数值行为。

MATLAB代码与生成的CUDA代码之间的跟踪

验证生成代码的正确性

使用GPU编码器应用程序在循环中执行处理器

PIL的执行时间分析

使用GPU编码器和嵌入式编码器的交互式跟踪报告。

加速算法

生成CUDA代码并编译以在MATLAB和Simulink中使用。万博1manbetx

基于MATLAB的gpu加速算法

将生成的CUDA代码作为MEX函数从MATLAB代码中调用，以加快执行速度，但性能会因MATLAB代码的性质而异。配置文件生成的MEX函数，以确定瓶颈并集中优化工作。

GPU代码生成：Mandelbrot集

生成代码的GPU执行评测

使用GPU编码器在NVIDIA GPU上加速雷达仿真(3:24)

为雾校正算法生成CUDA代码

使用NVIDIA GP万博1manbetxU加速Simulink模拟

当与Simulink编码器一起万博1manbetx使用时，GPU编码器可加速NVIDIA GPU上Simulink模型中MATLAB功能块的计算密集型部分。

基于GPU编码器的仿真加速

产品资源：

文档功能技术文章产品要求发行说明视频和网络研讨会例子必备产品s manbetx 845 硬件支持万博1manbetx

GPU编码器

GPU编码器

为NVIDIA GPU生成CUDA代码

开始：

生成快速、灵活的CUDA代码

部署算法免版税

GPU编码器的成功案例

从支持的工具箱和函数生成代码万博1manbetx

合并遗留代码

从Simulink模型生成CUDA代码万博1manbetx

为NVIDIA GPU运行模拟并生成优化代码

部署端到端深度学习算法

记录信号、调整参数并以数字方式验证代码行为

从深度学习网络生成CUDA代码

部署端到端深度学习算法

生成用于推理的优化代码

使用TensorRT进一步优化

深度学习量化

优化生成的代码

最小化CPU-GPU内存传输并优化内存使用

调用优化的库

使用设计模式进一步加速

硬件上的原型

NVIDIA Jetson和驱动平台上的原型

从MATLAB访问外围设备和传感器并生成代码

从原型到生产

加速算法

基于MATLAB的gpu加速算法

使用NVIDIA GP万博1manbetxU加速Simulink模拟

产品资源：

对GPU编码器感兴趣？