GPU编码器

产生NVIDIA GPU的CUDA代码

请求免费试用

看视频

GPU Coder™生成优化的CUDA^®从MATLAB代码^®代码和simuli万博1manbetxnk.^®模型。生成的代码包括CUDA内核，用于深度学习、嵌入式视觉和信号处理算法的可并行部分。为了获得高性能，生成的代码调用优化的NVIDIA^®CUDA库，包括TensorRT™，cuDNN, cuFFT, cuSolver和cuBLAS。这些代码可以作为源代码、静态库或动态库集成到项目中，并且可以为NVIDIA Jetson™、NVIDIA DRIVE™和其他平台上的台式机、服务器和gpu编译。您可以使用MATLAB中生成的CUDA来加速深度学习网络和算法的其他计算密集型部分。GPU编码器允许您将手写CUDA代码合并到您的算法和生成的代码。

当与嵌入式编码器使用^®，GPU编码器允许您通过循环（SIL）和循环处理器（PIL）测试验证生成代码的数值行为。

开始:

免费白皮书

从Matlab生成CUDA代码

现在下载

生成快速，灵活的CUDA代码

生成优化的CUDA代码。免版税的部署代码。

部署算法免版税

在流行的NVIDIA GPU上编译并运行生成的代码，从桌面系统到数据中心到嵌入式硬件。生成的代码无需在商业应用程序中为您的客户提供免版税部署。

为雾校正算法生成CUDA代码（2:22）

GPU代码生成：Mandelbrot集

探索图片库(2张图片)

GPU编码器成功案例

了解各种行业的工程师和科学家如何使用GPU编码器为其应用程序生成CUDA代码。

空客飞机的原型演示检验在NVIDIA杰特森TX2运行缺陷的自动化检测

空中客车原型自动检测NVIDIA Jetson TX2上的缺陷。

从支持的工具箱和函数生成代码万博1manbetx

GPU Coder生成的代码从广泛的MATLAB语言功能，设计工程师使用开发算法作为更大的系统的组件。这包括来自MATLAB和配套工具箱的数百个操作符和函数。

万博1manbetx支持的工具箱和功能

MATLAB语言功能支持万博1manbetx

MATLAB语言和工具箱支持代码生成。万博1manbetx

合并遗留代码

使用遗留代码集成功能，将可信或高度优化的CUDA代码合并到MATLAB算法中，以便在MATLAB中进行测试。然后从生成的代码中调用相同的CUDA代码。

遗留代码集成

将现有CUDA代码合并到生成的代码中。

从Simulink模型生成CUDA代码万博1manbetx

在Simulink中创建模型并生成万博1manbetx优化的CUDA代码。

运行模拟和生成优化的NVIDIA图形处理器代码

当与Simulink Code万博1manbetxr™一起使用时，GPU Coder加快了NVIDIA GPU上Simulink模型中MATLAB函数块的计算密集部分。然后，你可以从Simulink模型中生成优化的CUDA代码，并将其部署到你的NVIDIA GPU目标中万博1manbetx。

利用GPU编码器模拟加速度

利用GPU编码器从Simulink模型中生万博1manbetx成代码

瞄准NVIDIA嵌入式板

万博1manbetx在GPU上运行的Sobel边缘检测器的Simulink模型。

部署了终端到端到端深学习算法

在Simulink模型中使用各种培训的深度学习网络（包括Reset-50，SEGNET和LSTM），并在SIMULINK模型中从Deep Learning Toolbox™部署到NVIDIA GPU。万博1manbetx生成用于预处理和后期后处理的代码以及您培训的深度学习网络以部署完整的算法。

万博1manbetx支持的网络和层

使用Matlab功能块的Simul万博1manbetxink深入学习

29

用于NVIDIA GPU的Simu万博1manbetxlink深度学习：使用GPU编码器生成CUDA代码

记录信号，调整参数，并用数字验证代码行为

与Simulink编码器一起使万博1manbetx用时，GPU编码器使您可以使用外部模式仿真实时记录信号和调谐参数。使用带有GPU编码器的嵌入式编码器来运行循环和处理器内的循环测试，这些测试在数字上验证生成的代码与模拟的行为匹配。

使用外部模式参数调谐和信号监控

数值等价测试

在Simulink中使用外部模式来记录信号和调整参数。万博1manbetx

从深度学习网络生成CUDA代码

使用深度学习工具箱部署经过训练的深度学习网络。

部署了终端到端到端深学习算法

从deep learning Toolbox到NVIDIA gpu部署各种经过训练的深度学习网络(包括ResNet-50、SegNet和LSTM)。使用预定义的深度学习层或为您的特定应用程序定义自定义层。生成用于预处理和后期后处理的代码以及您培训的深度学习网络以部署完整的算法。

万博1manbetx支持的网络和层

使用GPU编码器使用YOLO V2的实时对象检测(或无)

使用YOLO V3深度学习的对象检测的代码

使用U-Net生成语义分段网络

27

如何生成一个Keras-TensorFlow模型的CUDA代码

为推理生成优化代码

与其他深度学习解决方案相比，GPU Coder生成的代码占用的空间更小，因为它只生成使用特定算法运行推理所需的代码。万博尤文图斯生成的代码调用优化的库，包括TensorRT和cuDNN。

车道检测与GPU编码器优化

在Titan V GPU上使用cuDNN的VGG-16单图像推理。

进一步优化使用张sorrt

生成与NVIDIA TENRT的代码，高性能深度学习推理优化和运行时。使用INT8或FP16数据类型在标准FP32数据类型上进行额外的性能提升。

基于TensorRT的NVIDIA图形处理器行人检测(34)

利用NVIDIA TensorRT进行深度学习预测

利用MATLAB、GPU编码器和TensorRT在Jetson AGX Xavier上进行深度学习（24:40）

使用matlab和畸形在nvidia gpus上

使用TensorRT和INT8数据类型提高执行速度。

深度学习量化

量化您的深度学习网络，以减少内存使用和提高推理性能。使用深度网络量化器应用程序分析和可视化提高的性能和推理精度之间的权衡。

深度网络量化器的INT8量化

深度神经网络的量化

什么是int8量化，为什么它在深度神经网络中流行?

们

深度网络量化和使用深层学习工具箱模型量化库进行部署

优化生成的代码

GPU编码器自动优化生成的代码。使用设计模式来进一步提高性能。

最小化CPU-GPU内存传输，优化内存使用

GPU编码器自动分析，识别和的MATLAB代码分区段CPU或GPU上运行。它还最小化CPU和GPU之间的数据副本数量。使用分析工具来识别其他潜在的瓶颈。

GPU编程范式

内核创建

GPU内存分配和最小化

生成代码的GPU执行分析

识别潜在瓶颈的简介报告。

调用优化图书馆

使用GPU Coder生成的代码调用优化的NVIDIA CUDA库，包括TensorRT, cuDNN, cuSolver, cuFFT, cuBLAS和Thrust。从MATLAB工具箱函数生成的代码尽可能地映射到优化的库。

来自图书馆呼叫的内核

nvidia tensorrt.

nvidia cudnn.

nvidia袖口

生成的代码调用在优化的袖扣库库中。

使用设计模式进行进一步加速度

设计模式，如模板处理使用共享内存以改善内存带宽。它们使用诸如卷积等某些功能时自动应用。您还可以使用特定的pragmas手动调用它们。

设计模式

图形处理器上的模具处理

模具加工设计图案。

原型硬件

通过将算法自动转换为CUDA代码，快速获得硬件。

NVIDIA Jetson和Drive Platforms的原型

使用GPU编码器支持包为NVIDIA GPU自动化生成代码的交叉编译和部署生成的代码和Drive Platforms。万博1manbetx

来自GPU编码器的NVID万博1manbetxIA TEGRA支持

NVIDIA驱动支持从GP万博1manbetxU编码器

使用GPU编码器原型和部署在NVIDIA驱动器，Jetson(2:54)

在NVIDIA驱动器上的语义分割

在NVIDIA Jetson平台上进行原型设计。

从MATLAB和生成的代码访问外围设备和传感器

从MATLAB与NVIDIA目标远程通信，从网络摄像头和其他支持的外设获取数据，用于早期原型设计。万博1manbetx将算法和外围接口代码一起部署到主板上，以便独立执行。

Sobel边缘检测在NVIDIA Jetson上使用网络摄像头

NVIDIA Jetson TX2平台上的网络摄像头图像的部署和分类

访问外设和传感器从MATLAB和生成的代码。

从原型制作转向生产

使用GPU编码器与嵌入式编码器交互跟踪您的MATLAB代码与生成的CUDA代码并排。使用软件在环(SIL)和处理器在环(PIL)测试，验证所生成代码在硬件上运行的数值行为。

Trace Between MATLAB Code and Generated CUDA Code

验证生成代码的正确性

使用GPU编码器应用程序执行循环中的处理器

针对Pil的执行时间分析

交互式跟踪报告使用GPU编码器与嵌入式编码器。

加速算法

生成CUDA代码并将其编译用于Matlab和Simulink内部。万博1manbetx

使用MATLAB中的GPU加速算法

从您的MATLAB代码中调用生成的CUDA代码作为一个MEX函数来加速执行，尽管性能将根据您的MATLAB代码的性质而有所不同。概要文件生成的MEX函数来识别瓶颈并集中您的优化工作。

GPU代码生成：Mandelbrot集

生成代码的GPU执行分析

使用GPU编码器加速NVIDIA GPU的雷达模拟（3:24）

2:22

为雾校正算法生成CUDA代码

使用NVIDIA gp万博1manbetxu加速Simulink仿真

当与Simulink Code万博1manbetxr一起使用时，GPU Coder加速了NVIDIA GPU上Simulink模型中MATLAB函数块的计算密集部分。

使用GPU编码器仿真加速度

GPU编码器

产生NVIDIA GPU的CUDA代码

开始:

从Matlab生成CUDA代码

生成快速，灵活的CUDA代码

部署算法免版税

GPU编码器成功案例

从支持的工具箱和函数生成代码万博1manbetx

合并遗留代码

从Simulink模型生成CUDA代码万博1manbetx

运行模拟和生成优化的NVIDIA图形处理器代码

部署了终端到端到端深学习算法

记录信号，调整参数，并用数字验证代码行为

从深度学习网络生成CUDA代码

部署了终端到端到端深学习算法

为推理生成优化代码

进一步优化使用张sorrt

深度学习量化

优化生成的代码

最小化CPU-GPU内存传输，优化内存使用

调用优化图书馆

使用设计模式进行进一步加速度

原型硬件

NVIDIA Jetson和Drive Platforms的原型

从MATLAB和生成的代码访问外围设备和传感器

从原型制作转向生产

加速算法

使用MATLAB中的GPU加速算法

使用NVIDIA gp万博1manbetxu加速Simulink仿真

最新的特性

万博1manbetx仿真软件的支持万博1manbetx

深度学习Simulink支持万博1manbetx万博1manbetx

持续的变量

小波工具箱代码生成

深度学习

多输入网络

长短时记忆(LSTM)网络

用于NVIDIA硬件的IO块库

额外的GPU编码器资源

对GPU编码器感兴趣?