周一岳
GPU编码器™ 生成可读和可移植的CUDA®利用CUDA库(如MATLAB中的cuBLAS和cuDNN)的代码®算法,然后交叉编译并部署到NVIDIA®来自特斯拉的GPU®到嵌入式Jetson™ 站台
本演讲的第一部分描述了如何使用MATLAB设计和原型端到端系统,包括一个用计算机视觉算法增强的深度学习网络。您将学习MATLAB中访问和管理大型数据集的功能,以及快速开始深入学习设计的预训练模型。然后,您将看到如何在网络的培训、调试和验证过程中使用与MATLAB集成的分布式和GPU计算功能。最后,大多数端到端系统需要的不仅仅是分类:数据需要在分类前后进行预处理和后处理。结果通常是下游控制系统的输入。这些传统的计算机视觉和控制算法是用MATLAB编写的,用于与深度学习网络接口,以建立端到端系统。
本演讲的第二部分重点介绍嵌入式部署阶段。使用从自动驾驶的典型例子来说明整个工作流,看看GPU编码器如何自动分析你的MATLAB算法(a)划分MATLAB算法之间的CPU/GPU执行;(b)推断记忆依赖关系;(c)分配到GPU内存层次(包括全局、本地、共享和常量内存);(d)尽量减少CPU和GPU之间的数据传输和设备同步;(e)最终生成CUDA代码,利用优化的CUDA库,如cuBLAS和cuDNN提供高性能。
最后,您将看到生成的代码通过基准测试进行了高度优化,这些基准测试表明,自动生成的CUDA代码的深度学习推理性能在mxNet中快了约2.5倍,在Caffe2中快了约5倍,在TensorFlow中快了约7倍®.
观看本演讲,了解如何:
1.访问和管理大型图像集
2.可视化网络并深入了解培训过程
3.导入参考网络,如AlexNet和GoogLeNet
4.利用MATLAB算法自动生成可移植的优化CUDA代码
您可以找到网络研讨会中使用的代码示例作为航运的例子用于GPU编码器。
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。