parallel.cluster.Hadoop

Hadoop集群为mapreducer,MapReduce和高大阵列

描述

甲parallel.cluster.Hadoop对象提供对群集配置mapreducer,映射精简和妥尔阵列。

属性

甲parallel.cluster.Hadoop对象具有以下性质。

属性 描述
AdditionalPaths 路径要添加到MATLAB命令搜索路径工人
附加的文件 文件中转移到工人MapReduce的呼叫
AutoAttachFiles 指定是否自动附加文件
ClusterMatlabRoot 指定路径MATLAB让工人使用
HadoopConfigurationFile 应用程序配置文件必须考虑到Hadoop的
HadoopInstallFolder 在本地机器上的Hadoop的安装位置
HadoopProperties 名值属性对地图要给予Hadoop的
许可证号码 许可证号与在线许可使用
RequiresOnlineLicensing 指定集群是否使用在线许可
SparkInstallFolder 在本地机器上星火安装位置
SparkProperties 名值属性对地图要给予星火

HadoopProperties允许您覆盖配置属性的Hadoop。看到Hadoop的属性列表®文档。

SparkInstallFolder默认情况下设置的SPARK_HOME环境变量。这是必需的在Hadoop高大阵列评价(但不包括映射缩减)。对于一个正确配置的集群中,你只需要设置安装文件夹。

SparkProperties允许您覆盖配置属性的火花。看到火花的属性列表®文档。

救命

对于进一步的帮助,请键入:

帮助parallel.cluster.Hadoop

指定内存性能

星火启用了多少内存可用的Hadoop集群的地方​​限制。您必须调整这些限制,以支持您的工作流程。万博1manbetx

尺寸数据收集

聚集到客户端的数据量是由火花特性的限制:

  • spark.driver.memory

  • spark.executor.memory

数据量从星星之火任务收集必须符合这些属性。单个火花任务从HDFS,这是128MB的数据的默认处理数据的一个块。如果你收集含有最原始数据的一个高大的阵列,必须确保这些属性都设置为适合。

如果这些属性都设置太小了,你看到类似下面的错误。

使用高错误/聚集(线50)停止的存储器;无法从星火收集尺寸300米的分区。调整spark.driver.memory和spark.executor.memory以适应此分区的火花属性的值。
该错误消息还指定你需要的属性设置。

直接在MATLAB集群或默认设置或者调整的性质。要调整在MATLAB的属性,添加名称 - 值对的SparkProperties集群的属性。例如:

簇= parallel.cluster.Hadoop;cluster.SparkProperties('spark.driver.memory')=“2048米”;cluster.SparkProperties('spark.executor.memory')=“2048米”;mapreducer(簇);

指定的工作内存的MATLAB工人

对于MATLAB工人工作记忆的量由星火属性的限制:

  • spark.yarn.executor.memoryOverhead

默认情况下,它被设置为2.5 GB。您通常需要,如果你用它来增加此arrayfuncellfun或自定义数据存储,生成一气呵成大量数据。明智的做法是增加这一点,如果你遇到遗失或毁损星火执行人过程。

您可以直接在MATLAB集群或默认设置或者调整这些属性。要调整在MATLAB的属性,添加名称 - 值对集群的SparkProperties财产。例如:

簇= parallel.cluster.Hadoop;cluster.SparkProperties('spark.yarn.executor.memoryOverhead')=“4096米”;mapreducer(簇);

也可以看看

parallel.Clusterparallel.Pool

介绍了在R2014b