使用GPU编码器为NVIDIA GPU实现深度学习应用程序

周一岳

GPU编码器™ 生成可读和可移植的CUDA^®利用CUDA库（如MATLAB中的cuBLAS和cuDNN）的代码^®算法，然后交叉编译并部署到NVIDIA^®来自特斯拉的GPU^®到嵌入式Jetson™ 站台

本演讲的第一部分描述了如何使用MATLAB设计和原型端到端系统，包括一个用计算机视觉算法增强的深度学习网络。您将学习MATLAB中访问和管理大型数据集的功能，以及快速开始深入学习设计的预训练模型。然后，您将看到如何在网络的培训、调试和验证过程中使用与MATLAB集成的分布式和GPU计算功能。最后，大多数端到端系统需要的不仅仅是分类：数据需要在分类前后进行预处理和后处理。结果通常是下游控制系统的输入。这些传统的计算机视觉和控制算法是用MATLAB编写的，用于与深度学习网络接口，以建立端到端系统。

本演讲的第二部分重点介绍嵌入式部署阶段。使用从自动驾驶的典型例子来说明整个工作流，看看GPU编码器如何自动分析你的MATLAB算法(a)划分MATLAB算法之间的CPU/GPU执行;(b)推断记忆依赖关系;(c)分配到GPU内存层次(包括全局、本地、共享和常量内存);(d)尽量减少CPU和GPU之间的数据传输和设备同步;(e)最终生成CUDA代码，利用优化的CUDA库，如cuBLAS和cuDNN提供高性能。

最后，您将看到生成的代码通过基准测试进行了高度优化，这些基准测试表明，自动生成的CUDA代码的深度学习推理性能在mxNet中快了约2.5倍，在Caffe2中快了约5倍，在TensorFlow中快了约7倍^®.

观看本演讲，了解如何：

1.访问和管理大型图像集

2.可视化网络并深入了解培训过程

3.导入参考网络，如AlexNet和GoogLeNet

4.利用MATLAB算法自动生成可移植的优化CUDA代码

您可以找到网络研讨会中使用的代码示例作为航运的例子用于GPU编码器。