为什么parpool以及任何交流工作未能运行在一个粘调度器很多吗?

11视图(30天)
为什么我收到以下错误消息当运行parpool或提交沟通工作粘调度器很多吗?
[00:56447]……错误:连接()失败,sock_set - > id = 0, sock_id = 0, errno = 111(连接拒绝)
在文件smpd_sock_wait断言失败。我在第337行:pollinfo - >状态= = SMPDU_SOCKI_STATE_DISCONNECTED & & pollfd - > fd = = 1
内部中止进程0
srun:错误:c086:任务0:退出退出代码1

接受的答案

MathWorks支万博1manbetx持团队
编辑:MathWorks支万博1manbetx持团队 2018年4月18日
你可能会看到这个错误消息如果使用粘14.11.4版本很多,14.11.8,x.x 14.11.11,甚至16.。这个错误是因为mw_smpd过程启动之前不能熬夜和崩溃。你可以看到srun命令的一个示例,从communicatingJobWrapper。sh,调用mw_smpd如下:
srun ntasks-per-node = 1——ntasks = 1 /应用程序/ matlab / R2016a / bin / mw_smpd短语matlab - port 22480
由于mw_smpd崩溃,mw_mpiexec无法达到mw_smpd港口和过程,从而导致“连接拒绝”错误消息。
一个修复提供了“并行计算为MATLAB工具箱集成分布式计算服务器与粘”很多支持R2018a包。万博1manbetx
对于其他版本,解决方法是修改communicatingJobWrapper.sh的内容。原始摘录包装器脚本:
167 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
168 #使用srun推出SMPD守护进程在每个处理器
169年launchSmpds () {
170年
171 #使用srun所有主机上启动SMPD进程
172年回声”开始SMPD $ {SMPD_HOSTS}……”
173年
174回声”srun ntasks-per-node = 1——ntasks = $ {SLURM_JOB_NUM_NODES} $ {FULL_SMPD}短语MATLAB - port $ {SMPD_PORT} "
175 srun ntasks-per-node = 1——ntasks = $ {SLURM_JOB_NUM_NODES} $ {FULL_SMPD}短语MATLAB - port $ {SMPD_PORT}
176年
177年回声“所有SMPDs推出了”
178}
179年
180 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
修改174年和175年,并添加行176行:
167 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
168 #使用srun推出SMPD守护进程在每个处理器
169年launchSmpds () {
170年
171 #使用srun所有主机上启动SMPD进程
172年回声”开始SMPD $ {SMPD_HOSTS}……”
173年
174回声”srun ntasks-per-node = 1——ntasks = $ {SLURM_JOB_NUM_NODES} $ {FULL_SMPD}短语MATLAB - port $ {SMPD_PORT}调试0 &”
175 srun ntasks-per-node = 1——ntasks = $ {SLURM_JOB_NUM_NODES} $ {FULL_SMPD}短语MATLAB - port $ {SMPD_PORT}调试0 &
176睡眠30
177年
178年回声“所有SMPDs推出了”
179}
180年
181 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
这个解决方案在后台启动mw_smpd 0级调试。这解决了连接错误,防止mw_smpd过程下来。您可能必须调整睡眠定时器(第176行),取决于工作的大小。使用的更多的工人,可能需要推出mw_smpd越长。因为我们现在推出的背景下,我们想要确保所有的mw_smpd过程是启动和运行,在继续下一步之前。
4评论

登录置评。

更多的答案(0)

类别

找到更多的在集群配置帮助中心文件交换

标签

没有标签了。

s manbetx 845


释放

R2016a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!