主要内容

自动调整集群

您的集群可以根据提交给集群的工作量自动调整大小。您必须使用专用的头部节点来使用自动调整大小。

要启用自动调整大小,请选择该选项允许群集自动调整大小在“创建集群”页面。属性指定集群中需要的最大工作人员数量上限旁边的菜单工人在集群.为了确保所有机器以相同数量的工人启动上限菜单选项是每台机器的工人价值。

根据你的上限选择和每台机器的工人值时,机器集群字段显示集群的最大机器数,包括头节点机器。属性中显示的计算机数量不会自动调整为高于机器集群工场或工人的数量由工人在集群.您可以使用它来设置愿意为集群支付的成本上限。

请注意

设置工人在集群字段提供您准备支付的最大集群大小。

在“Cloud Center”的“Cluster Summary”页面,可以查看最大worker数量和当前请求的worker数量。你也可以在MATLAB中从集群对象中查看这些属性®,使用属性MaxNumWorkersNumWorkersRequested.有关更多信息,请参见平行的。集群(并行计算工具箱)

提示

为了避免在所有工作人员都空闲且队列中没有作业时集群关闭,请将集群的终止策略设置为在一个固定的时间段之后从来没有.在提交更多作业或集群超时之前,您的集群将只与专用头节点机器保持联机状态。

集群的增长和收缩

您的集群从专用的头节点机器和零工人开始。当您向集群提交作业时,集群将通过增加机器增长以容纳下一个排队的作业,直到创建集群时设置的最大数量。集群将继续增长,直到它耗尽了排队的作业,或者工人数量的上限阻止了它增长以容纳下一个排队的作业。工人被增加每台机器的工人

当worker变得可用时,可以将它们分配给队列中的下一个作业。一旦有足够的可用工作程序运行作业,就会调度排队作业。

不再使用的机器将从集群中删除。如果一台机器上有一个工作人员正在忙,那么直到该机器上的所有工作人员都空闲时,该机器才会被删除。Cloud Center移除空闲至少5分钟的机器,每5分钟检查空闲的工人。当机器上的所有工作人员都空闲时,移除机器可能需要15分钟。当没有作业在运行时,可以将集群减少为零工作人员。在这种情况下,只有头节点保留在集群中。

跨机器分配作业

新机器上的工人或完成作业的工人不一定同时对集群可用。一旦满足了作业的最低要求,集群就将作业调度到空闲的工人。因此,当正在运行的作业完成并在集群上启动排队的作业时,作业可以分布到多台机器上。在这种情况下,您会发现,即使集群中的活动工作人员的数量与集群当前使用的机器数量相对应,但集群并不会收缩,因为每台机器上都有活动工作人员。

下面的示例展示了集群可以将这些作业分配给工人的几种方法之一。实际的分布取决于工人在新机器上可用的顺序以及作业完成运行后的顺序。假设您创建了一个最多有16个worker的集群,每台机器有4个worker。集群开始时没有工作人员。你提交四份工作:一份六人的工作,两份四人的工作,一份五人的工作。作业按照提交的顺序完成。

首先,集群增长到两台机器上的6个工人,以运行第一个6个工人的作业。要运行第二个作业,集群需要两个额外的工人。需要第三台机器来提供额外的工人。工作分配给现有机器上的两个自由工人和新机器上的两个工人。类似地,运行第三个作业需要两个额外的工人,因此集群请求第四台机器。现在,四台机器上的16名工人中有14人在使用。没有足够的工人来运行最后的五人工作。在前三个作业运行时,此作业仍在队列中。

当第一个工作完成时,那六个工作人员就开始无所事事了。他们并不一定在同一时间变得无所事事。一旦有三个额外的工人可用,集群就会分配工人来完成最后的五人工作。

当第二个作业完成时,所有四台机器上仍然有活动的worker。即使有7名空闲工人,集群也不会缩小。

当第三个工作完成时,一台机器上的所有工人都空闲了。当他们已经闲置超过五分钟,那台机器可以被移除。集群缩小到三台机器。

当第四个也是最后一个工作完成时,剩下的三台机器上的所有工人都变得空闲。如果没有进一步提交作业,集群将减少到零worker。只有专用的头节点机器仍留在集群中。

AWS资源限制

如果在集群的生命周期内达到AWS配额限制错误或其他资源约束,Cloud Center会将最大worker数量减少到遇到错误之前Cloud Center成功分配的worker数量。将取消并从队列中删除不受最大集群大小减少支持的排队万博1manbetx作业。如果停止并重新启动集群,该限制将被删除,集群将尝试增长到您指定的最大值。

有关AWS服务限制如何影响可以启动的最大实例数的更多信息,请参见AWS资源限制

相关的话题