嗨,我是帮助一个组织处理很多文件(几tb)。我设置它在脚本运行的parfor循环为每个文件要处理。每个工人运行一个函数,它将处理文件数量。因此,应该有很少或没有通过每个工人之间的沟通,因为只有文件数量。
我的问题是,代码通过使用运行似乎只有一半的核心(物理核)。我们有一个NUMA服务器组成的两个10-core(20逻辑)英特尔处理器。
MATLAB R2017b
目前我使用不同的运行手册parpool数字(14到20)是否让任何差异处理单个文件的速度。当它运行时,从parpool (14), Windows资源监控器显示NUMA节点1几乎透支(物理和逻辑的核心),但NUMA节点0最小(平均不到20%)使用。我需要建立一个分布式,尽管本地集群NUMA节点都运行?
我不希望只是使每个处理器运行到100%,但我想在更短的时间内处理这些文件。