GPU编码器

GPU编码器

产生NVIDIA GPU的CUDA代码

看视频

申请免费试用

GPU编码器™生成优化的CUDA^®从MATLAB代码^®深学习，嵌入式视觉和自治系统的代码。所生成的代码调用优化NVIDIA^®CUDA库，包括cuDNN，cuSolver和CUBLAS。它可以集成到您的项目源代码，静态库或动态库，并且可用于原型在GPU上，如NVIDIA的Tesla^®和NVIDIA Tegra^®。您可以使用MATLAB中生成的CUDA加速您的MATLAB代码计算密集型部分。GPU编码器可让您将旧的CUDA代码到您的MATLAB算法和生成的代码。

当与嵌入式编码器一起使用时^®，GPU编码器可让您通过软件在环（SIL）测试验证生成的代码的数值行为。

入门：

产生快速，灵活CUDA代码
生成深学习网络CUDA代码
优化生成的代码
原型硬件上
加速算法
访问GPU编码器从NVIDIA GPU云

最新功能
文档和资源
试用或购买

免费白皮书:
从MATLAB生成CUDA代码

现在下载

产生快速，灵活CUDA代码

生成优化的CUDA代码。部署代码免版税。

部署算法免版税

编译和运行上流行的NVIDIA GPU生成的代码，从桌面系统到数据中心，嵌入式硬件。生成的代码是不收费的商业应用给你的客户就免版税的部署。

生成CUDA代码雾矫正算法（2:22）

GPU代码生成：Mandelbrot集

探索画廊（2个图像）

GPU编码器成功案例

了解工程师和科学家在多种行业如何利用GPU编码器来生成自己的应用程序代码CUDA。

空中客车公司在原型NVIDIA杰特森TX2运行的缺陷自动化检测飞机检查演示

空中客车原型自动对NVIDIA杰特森TX2缺陷检测。

从支持的工具箱和函数生成代码万博1manbetx

GPU编码器从广泛的MATLAB语言生成代码的特征在于设计工程师用来开发算法作为较大系统的构件。这包括超过390运算符和函数从MATLAB和配套工具箱。

万博1manbetx支持工具箱和功能

MATLAB语言功能支持万博1manbetx

MATLAB语言和代码生成工具箱支持。万博1manbetx

将原有的代码

使用旧代码集成能力纳入可信或高度优化的CUDA代码到您的MATLAB算法在MATLAB测试，然后调用从生成的代码相同的CUDA代码。

遗留代码集成

并入现有CUDA代码插入到生成的代码。

生成深学习网络CUDA代码

部署训练有素的深度学习与深度学习工具箱网络。

部署了终端到终端的深度学习算法

部署多种从深度学习工具箱™来的NVIDIA GPU训练的深度学习网络，如RESNET-50和SegNet的。产生预处理和你训练的深度学习网络以及后处理部署完整的算法代码。

万博1manbetx支持的网络和图层

实时目标检测与YOLO v2的使用GPU编码器（4:24）

交通标志的检测和识别

生成CUDA代码语义分割算法(19)

如何生成CUDA代码为Keras-TensorFlow模型的视频

生成优化的推理代码

GPU编码器生成与其他深度学习解决方案相比，尺寸更小的代码，因为它只能产生与特定的算法运行推理所需要的代码。万博尤文图斯生成的代码调用优化库，包括TensorRT™和cuDNN。

用GPU编码器优化的车道检测

使用cuDNN在Titan V GPU上使用VGG-16进行单图像推理。

进一步优化使用TensorRT

生成的代码与NVIDIA TensorRT集成，高性能的深度学习推理的优化和运行。使用INT8或FP16数据类型额外的性能提升超过标准FP32数据类型。

用TensorRT实现NVIDIA gpu上的行人检测（1:34）

使用NVIDIA TensorRT进行深度学习预测

使用MATLAB、GPU编码器、TensorRT对Jetson AGX Xavier进行深度学习（24:40）

在NVIDIA GPU使用MATLAB和TensorRT

改善与TensorRT和INT8数据类型的执行速度。

深度学习量化

量化你的深度学习网络，利用模型量化库支持包，分析在量化所选层的权重和偏差的准确性上的权衡。万博1manbetx

INT8量化深层网络量化

深层神经网络的量化

什么是int8量化，为什么它在深度神经网络中很流行?

量化深学习网络在MATLAB视频

优化生成的代码

采用被自动应用到由GPU编码器产生的代码优化的优势。使用设计模式，以进一步提高性能。

最小化CPU-GPU内存传输和优化内存使用

GPU编码器自动分析，识别和的MATLAB代码分区段CPU或GPU上运行。它也最大限度地减少了CPU和GPU之间的数据副本的数量。使用分析工具，以确定其他潜在的瓶颈。

GPU编程范式

内核创建

GPU内存分配和最小化

GPU执行性能分析生成的代码

简介报告识别潜在的瓶颈。

调用优化库

使用GPU编码器生成的代码调用优化的NVIDIA CUDA库，包括TensorRT、cuDNN、cuSolver、cuFFT、cuBLAS和推力。从MATLAB工具箱函数生成的代码尽可能地映射到优化的库。

从库调用内核

NVIDIA TensorRT

NVIDIA cuDNN

NVIDIA CUFFT

生成的代码调用优化CUFFT CUDA库函数。

使用设计模式的进一步提速

设计图案如模版处理中使用共享存储器以改善存储器带宽。他们正在使用某些功能，例如卷积时自动应用。您也可以手动使用特定的编译指示调用它们。

设计模式

模具加工对GPU

钢网加工设计图案。

原型硬件上

获取硬件快速您的算法对CUDA代码的自动转换。

样机在NVIDIA特森和DRIVE平台

自动化交叉编译和生成的代码部署到使用GPU编码器支持包NVIDIA GPU的NVIDIA杰特森™和DRIVE™平台。万博1manbetx

从GPU编码器的NVIDI万博1manbetxA Tegra支持

从GPU编码器NVIDIA万博1manbetx驱动器支持

使用GPU编码器，以原型和部署NVIDIA驱动器，特森(2:54)

NVIDIA DRIVE上的语义分割

在NVIDIA Jetson平台上进行原型设计。

访问外设和MATLAB传感器和生成的代码

从MATLAB与NVIDIA目标进行远程通信，从网络摄像头和其他受支持的外围设备获取数据，以进行早期原型设计。万博1manbetx构建并部署您的算法以及外围接口代码到板上，以便独立执行。

Sobel边缘检测上NVIDIA特森使用网络摄像头

部署和摄像头图像的分类上NVIDIA特森TX2平台

访问外设和传感器从MATLAB和生成的代码。

移动从构造原型到生产

使用GPU编码器与嵌入式编码交互式跟踪您的MATLAB代码并排侧与生成CUDA。验证使用软件合环（SIL）和处理器在环（PIL）测试的硬件上运行的所生成的代码的数值行为。

跟踪MATLAB代码和生成的CUDA代码之间

验证生成代码的正确性

处理器在半实物执行与GPU编码器应用程序

执行时间分析信息PIL

使用GPU编码器与嵌入式编码互动可追溯性报告。

加速算法

生成CUDA代码和编译它里面MATLAB使用。

加快算法使用的GPU

从您的MATLAB代码中调用生成的CUDA代码作为一个MEX函数来加速执行，尽管性能会根据您的MATLAB代码的性质而变化。配置文件生成了MEX函数，以识别瓶颈并集中优化工作。

GPU代码生成：Mandelbrot集

GPU执行性能分析生成的代码

加快在NVIDIA GPU使用GPU编码器雷达模拟（3:24）

生成CUDA代码的一个雾校正算法视频

访问GPU编码器从NVIDIA GPU云

生成Docker容器CUDA代码。

生成CUDA代码在NVIDIA GPU云

使用NVIDIA的GPU云MATLAB的深度学习的容器亚马逊Web服务或NVIDIA DGX培养深度学习网络。然后，使用GPU编码器在同一个码头工人集装箱生成CUDA代码。

NVIDIA GPU云上用于Amazon Web Services的MATLAB深度学习容器

MATLAB深度学习容器上NVIDIA GPU云的NVIDIA DGX

部署生成的代码在AWS上的GPU深学习（4:50）

使用NVIDIA GPU云上的GPU编码器生成CUDA代码。

最新功能

CUBLAS支万博1manbetx持

生成CUDA代码，并跨入批量矩阵乘法

行主阵列布局

通过在行-主布局中存储数组，简化与目标库交互生成的深度学习代码

信号处理工具箱代码生成

生成用于基于FFT的FIR滤波和短时傅立叶变换码使用fftfilt，短时傅里叶变换，并ISTFT

NVIDIA硬件支持万博1manbetx

访问板载摄像头模块，并为VideoReader功能生成CUDA代码

单次目标检测（SSD）网络

通过使用单杆Multibox的检测器对象上NVIDIA GPU检测

长短时记忆(LSTM)网络

产生双向的，有状态LSTM代码

多输出网络

产生用于具有多个输出网络代码

深学习网络

产生暗网-19，暗网-53，盗梦空间，RESNET-V2，NASNet-大，NASNet-Mobile的代码

看到发布说明对任何这些特征和对应的功能的详细说明。

额外的GPU编码器资源

在GPU编码器有兴趣吗？

申请试用