Matlab并行计算集群文件未找到(task8 - 32. - in.mat)

25日视图(30天)
你好,
我试图用Matlab与多个节点集群上。
现在,我试着用2 16核心的节点。
我生成了一个新的通用网格集群配置文件使用插件脚本太阳引擎(白银)。
独立工作验证工作正常,虽然spmd,池和parpool测试失败(只有我使用超过1个节点)。
查看工作日志,我发现相关的问题是mw_mpiexec崩溃(MPI)。
我试着使用不同的mpi - > mpich-4.1.1现在mpi不再崩溃,然而matlab实例在不同的节点上无法找到的文件自动生成的验证情况。
我报告的日志文件验证。
你能帮我解决这个问题吗?
谢谢你!
安东尼奥

答案(1)

雷蒙德·诺里斯
雷蒙德·诺里斯 2023年5月16日19
@Antonio Cioffi 。我不知道为什么mpiexec崩溃,但我可以告诉你为什么你要验证问题。当您切换MPI库,您需要MATLAB指向正确的libmpi.so。当你说你已经试过不同的MPI,你怎么去呢?你需要创建自己的mpiLibConf。指向libmpi m文件。所以(参见文档了解更多信息)。
我可以告诉你MATLAB的原因是不加载正确的图书馆是因为以下
[28]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task1”
[31]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task1”
[30]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task1”
[29]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task1”
(数量)是MPI等级。这是告诉你,每个工人在文件夹中创建一个文件和文件名Task1 Job25。他们都“任务1”,因为他们没有正确的开始——他们没有意识到还有其他的MPI行列。它应该显示的是
[28]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task28”
[31]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task31”
[30]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task30”
[29]2023-05-08 21:42:58 |有关找工作和任务使用地点“Job25”和“Job25 / Task29”
这是一个迹象表明,每个工人都有正确启动。因此,MATLAB不能找到正确的libmpi.so。
我建议你联系 万博1manbetxsupport@mathworks.com 上海黄金交易所,他们可以帮助你找出为什么不能运行多节点(无密码ssh计算节点之间的,对吧?)。
2的评论
雷蒙德·诺里斯
雷蒙德·诺里斯 2023年5月18日在3:58
@Antonio Cioffi ,你能 给我发邮件 你得到的错误信息?
不过,我想澄清一下发生了什么。请注意以下
设备。/ mpiexec信息| grep
将显示
——与设备= ch3:复仇女神
因此,共享内存intranode通信节间和TCP(默认为对手 https://www.mpich.org/static/downloads/3.2.1/mpich-3.2.1-README.txt)。 如果是用
——与设备= ch3:复仇女神:mxm (Mellanox InfiniBand)
——与设备= ch3:复仇女神:ofi
——与设备= ch4: ucx
交通会是本地/ IB。相反,我相信你得到的是IPoIB。

登录置评。

类别

找到更多的在集群配置帮助中心文件交换

s manbetx 845


释放

R2021b

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!