表现
故障排除代码生成问题,改善代码执行时间并减少生成代码的内存使用情况
GPU CODER™生成的代码未按预期执行的一些最常见的原因是:
库达®内核不是创建。
主机到设备和设备可容纳内存传输(
cudamcpy
)是节流性能。没有足够的并行性或设备问题。
这些主题详细介绍了这些症状的共同原因,并描述了如何利用内置筛选器检测这些问题。您可以找到有关如何解决这些问题并生成更有效的CUDA代码的信息。
应用
功能
对象
话题
- 工作流程
GPU编码器故障排除工作流程。
- 代码生成报告
创建和查看代码生成期间生成的报告。
- 生成的CUDA代码和MATLAB源代码之间的跟踪
突出显示在GPU上运行的MATLAB代码的部分。
- 生成从MATLAB代码生成的代码的GPU代码指标报告
创建和探索GPU静态代码指标报告。
- debug cuda mex功能
调试CUDA MEX功能的建议。
- 内核分析
提出有效的CUDA内核的建议。
- 内存瓶颈分析
使用GPU编码器时,减少内存瓶颈问题。
- 分析生成代码的执行配置文件
MATLAB算法及其通过SIL生成的CUDA代码的细粒分析。
- NVIDIA PROFILER分析
通过使用从NVIDIA PROFILER(NVVP)获得的信息来提高性能。
- GPU编码器限制
请参阅GPU编码器的当前局限性。
- 注册计数NVLINK错误
由于寄存器计数而导致的编译故障故障
nvlink
错误。