决定何时使用parfor

决定何时使用`parfor`

在MATLAB parfor-Loops

一个parfor在MATLAB循环^®并行执行循环体中的一系列语句。MATLAB客户端发出parfor命令并与MATLAB的工作人员协调，在a的工作人员上并行地执行循环迭代平行池．客户端发送必要的数据parfor操作到工人，在那里大部分的计算被执行。结果被发送回客户端并进行组装。

一个parfor-loop可以提供比其类似功能更好的性能为-loop，因为几个MATLAB工作人员可以在同一个循环上同时计算。

函数体的每次执行parfor循环是一个迭代．MATLAB工作人员评估迭代没有特定的顺序和相互独立。因为每个迭代都是独立的，所以不能保证迭代以任何方式同步，也没有任何必要这样做。如果worker的数量等于循环迭代的次数，则每个worker执行循环的一次迭代。如果迭代比工作者多，那么一些工作者执行不止一个循环迭代;在这种情况下，工作人员可能会一次接收多个迭代，以减少通信时间。

一个parfor如果你有一个缓慢的为循环。考虑parfor如果你有:

一些循环迭代需要很长时间来执行。在这种情况下，工作人员可以同时执行长迭代。确保迭代的数量超过工作人员的数量。否则，您将不会使用所有可用的worker。
简单计算的许多循环迭代，如蒙特卡罗模拟或参数扫描。parfor将循环迭代划分为组，以便每个工作人员执行总迭代数的一部分。

一个parfor-loop可能不会有用，如果你有:

向外向量化的代码为循环。通常，如果您想让代码运行得更快，首先尝试向量化它。有关如何做到这一点的详细信息，请参见向量化．向量化代码使您能够从许多底层MATLAB库的多线程特性所提供的内置并行性中获益。但是，如果您有向量化的代码，并且您只能访问当地的工人,然后parfor-loops可能运行得比为循环。不去除代码允许parfor；一般来说，这个解决方案不能很好地工作。
执行时间较短的循环迭代。在这种情况下，并行开销将主导您的计算。

你不能用parfor当你的循环中的一个迭代依赖于其他迭代的结果时。每次迭代都必须独立于所有其他迭代。有关处理独立循环的帮助，请参阅确保parfor-Loop迭代是独立的．该规则的例外是在循环中使用减少变量．

在决定何时使用时parfor，考虑并行开销。并行开销包括通信、协调和数据传输所需的时间——从客户端到工作人员再返回数据的发送和接收。如果迭代计算非常快，那么这种开销将占总时间的很大一部分。考虑两种不同类型的循环迭代:

为使用计算要求很高的任务进行循环。这些循环通常是转换为parfor-loop，因为计算所需的时间占了数据传输所需的时间。
为循环一个简单的计算任务。这些循环通常不会从转换为parfor-loop，因为与计算所需的时间相比，数据传输所需的时间非常大。

的例子`parfor`低并行开销

在这个例子中，您从一个计算要求很高的任务开始为循环。的为-循环是缓慢的，你加快计算使用parfor循环。parfor分割执行为对并行池中的工作人员进行循环迭代。

这个例子计算一个矩阵的光谱半径，并转换为循环到一个parfor循环。了解如何度量由此产生的加速，以及有多少数据被传输到并行池中的工作人员或从工作人员那里。

在MATLAB编辑器中，输入以下内容为循环。添加抽搐和toc来测量计算时间。
```
Tic n = 200;一个= 500;一个= 0 (n);为i = 1:n a(i) = max(abs(eig(rand(a))));结束toc
```
运行脚本，并记录运行时间。
```
运行时间为31.935373秒。
```
在脚本中，替换为循环用parfor循环。添加ticBytes和tocBytes测量有多少数据被传输到并行池中的工作人员或从工作人员那里。
```
抽搐ticBytes (gcp);n = 200;一个= 500;一个= 0 (n);parfori = 1:n a(i) = max(abs(eig(rand(a))));结束tocBytes toc (gcp)
```
在四个worker上运行新脚本，并再次运行它。注意，第一次运行比第二次运行慢，因为并行池需要一些时间来启动并使代码对工作人员可用。请注意第二次运行的数据传输和运行时间。
默认情况下，MATLAB会自动打开本地机器上的并行工作池。
```
使用“local”配置文件启动并行池(parpool)…连接到4个工人. ...bytesenttoworkers BytesReceivedFromWorkers __________________ ________________________ 1 15340 7024 2 13328 5712 3 13328 5704 4 13328 5728 Total 55324 24168 Elapsed time is 10.760068 seconds。
```
的parfor运行四个工人大约比相应的三倍快为循环计算。这个速度比理想的四倍的速度要小。这是由于并行开销造成的，包括将数据从客户机传输到工作人员和返回所需的时间。使用ticBytes和tocBytes结果来检查传输的数据量。假设数据传输所需的时间与数据的大小成正比。这种近似允许您得到数据传输所需时间的指示，并将您的并行开销与其他并行开销进行比较parfor循环迭代。在本例中，与下一个示例相比，数据传输和并行开销较小。

当前示例具有较低的并行开销，并从转换为parfor循环。将本示例与下一个示例中的简单循环迭代进行比较，请参阅具有高并行开销的parfor示例．

另一个例子parfor-loop与计算要求的任务，参见嵌套parfor和for循环以及其他parfor需求

的例子`parfor`具有高并行开销

在这个例子中，您编写一个循环来创建一个简单的正弦波。取代了为循环用parfor循环并不加快计算速度。这个循环没有很多迭代，执行时间也不长，您也不会注意到执行速度的提高。这个示例具有很高的并行开销，并且不能从转换为parfor循环。

写一个循环来产生正弦波。使用抽搐和toc来测量经过的时间。

Tic n = 1024;一个= 0 (n);为i = 1:n A(i，:) = (1:n) .* sin(i*2*pi/1024);结束toc

运行时间为0.012501秒。

取代为循环用parfor循环。添加ticBytes和tocBytes测量有多少数据被传输到并行池中的工作人员或从工作人员那里。
```
抽搐ticBytes (gcp);n = 1024;一个= 0 (n);parfor(i = 1:n) A(i，:) = (1:n) .* sin(i*2*pi/1024);结束tocBytes toc (gcp)
```
在四个工人上运行脚本，然后再次运行代码。注意，第一次运行比第二次运行慢，因为并行池需要一些时间来启动并使代码对工作人员可用。请注意第二次运行的数据传输和运行时间。
```
bytesenttoworkers BytesReceivedFromWorkers __________________ ________________________ 1 13176 2.0615e+06 2 15188 2.0874e+06 3 13176 2.4056e+06 4 13176 1.8567e+06 Total 54716 8.4112e+06 Elapsed time is 0.743855 seconds。
```
注意，串行的运行时间要小得多为-loop比forparfor-循环四个工人。在这种情况下，你不会受益于你的为循环到一个parfor循环。原因是数据的传输比前面的例子要大得多，请看具有低并行开销的parfor示例．在当前的示例中，并行开销支配了计算时间。因此，正弦波迭代并不能从转换成a中获益parfor循环。