使用时缓慢fftn在gpu的性能在一个循环

2视图(30天)

显示旧的评论

Arabarra 2019年10月9日

0
链接

这个问题直接联系

//www.tianjin-qmedu.com/matlabcentral/answers/484382-slow-performance-of-fftn-in-the-gpu-when-used-inside-a-loop

评论道: Arabarra 2020年4月29日

答:接受 Edric埃利斯

我刚刚意识到fftn操作在一个循环的执行时间不是循环的长度成正比,当工作在GPU。

作为一个例子,如果我在GPU中定义一个多维数据集

= gpuArray(的(256256256,“单一”));

我看到用户时间不规模的数量在一个循环中。温和的循环我读:

                         > > N = 100;抽搐;为i = 1: N; g = fftn(一个);结束toc;
                        
                         运行时间是0.008618秒。

…但对于一个循环,是10倍

                         > > N = 1000;抽搐;为i = 1: N; g = fftn(一个);结束toc;
                        
                         运行时间是7.299844秒。

的总时间不规模10但到1000年! ! ! !我知道tic和toc并不是最好的方法来测量性能,但它仍然是程序的用户所看到的时间……有一些基本的原则处理gpuArrays内部循环,我错过什么?

2的评论
显示1年长的评论藏1年长的评论

Arabarra 2019年10月15日

完整的代码都是上面三行……不确定你是什么意思

登录置评。

在回答这个问题。

接受的答案

Edric埃利斯 2019年10月10日

0
链接

直接链接到这个答案

//www.tianjin-qmedu.com/matlabcentral/answers/484382-slow-performance-of-fftn-in-the-gpu-when-used-inside-a-loop answer_395647

各种方法在GPU异步操作在某种程度上。但有限制,这取决于可用的内存数量等。GPU操作时间的最佳方式是使用 gputimeit 像这样:

                             = gpuArray(的(256256256,“单一”));
                            
                             %基本情况,没有循环
                            
                             fftn t1 = gputimeit (@ () ());
                            
                             %循环情况下
                            
                             t100 = gputimeit (@ () iLoop (, 100));
                            
                             t1000 = gputimeit (@ () iLoop (, 1000));
                            
                             %比较结果
                            
                             disp ([t1, t100/100 t1000/1000])
                            
                             函数iLoop (N)
                            
                             为i = 1: N
                            
                             fftn(一个);
                            
                             结束
                            
                             结束

在我的机器上,我看到结果——即是一致的。 gputimeit 很好地得到一个精确的时间甚至一个电话 fftn 。运行上面的脚本,我得到的结果是:

                             > >再生产
                            
                             0.0081 0.0081 0.0081

3评论
显示2年长的评论隐藏2年长的评论

神骑士 2019年10月15日

关键是它只是计时代码是错误的,因为FFT不是完成时调用 toc 。足够的迭代后,这一切发生的是,你不能再队列内核,你开始看到真正的计算时间。你需要请参考文档如何时间代码:

在GPU度量性能

测量在GPU性能的最佳方法是使用 gputimeit 。这个函数作为输入一个函数处理没有输入参数,并返回函数的执行时间来衡量。它负责等基准考虑重复定时操作获得更好的解决方案,执行功能,以免在测量初始化开销,并减去时间函数的开销。同时, gputimeit 确保所有操作在GPU完成之前最后的时机。

例如,考虑测量的时间计算陆随机矩阵的分解一个的大小 N ——- - - - - - N 。您可以通过定义一个函数的陆分解和传递函数句柄 gputimeit :

兰德(N = “gpuArray” );

跳频= @陆()(A);

gputimeit (fh, 2); % 2参数表示的输出

你也可以测量性能抽搐和 toc 。然而,在GPU获得准确的时间,你必须在调用之前等待操作完成 toc 。有两种方法可以做到这一点。你可以叫收集在调用之前最后的GPU输出 toc 前:这就迫使所有的计算来完成测量。或者,您可以使用等待函数与一个 gpuDevice 对象作为输入。例如,如果你想测量时间计算陆矩阵的分解一个使用抽搐 , toc , 等待你能做到如下:

gd = gpuDevice ();

抽搐();

陆[l u] =(一个);

等待(gd);

tLU = toc ();

您还可以使用MATLAB分析器显示如何分布在GPU代码计算时间。注意,完成定时测量,分析器独立运行的每一行代码,所以它不能占重叠(异步)执行等可能发生在正常操作。整整时间算法,您应该使用抽搐和 toc ,或 gputimeit (如上所述)。同时,用户定义的配置文件可能不会产生正确的结果墨西哥人如果他们运行异步功能。

Arabarra 2020年4月29日

谢谢你的回答!设备上等待命令给了我发现我的算法的关键是创建一个隐藏的瓶颈。

登录置评。

类别

并行计算并行计算工具箱 GPU计算

找到更多的在GPU计算在帮助中心和文件交换

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

使用时缓慢fftn在gpu的性能在一个循环

2的评论
显示1年长的评论藏1年长的评论

接受的答案

3评论
显示2年长的评论隐藏2年长的评论

更多的答案(0)

另请参阅

类别

标签

社区寻宝

使用时缓慢fftn在gpu的性能在一个循环

2的评论 显示1年长的评论藏1年长的评论

接受的答案

3评论 显示2年长的评论隐藏2年长的评论

更多的答案(0)

另请参阅

类别

标签

社区寻宝

2的评论
显示1年长的评论藏1年长的评论

3评论
显示2年长的评论隐藏2年长的评论