Hadoop集群为mapreducer,MapReduce和高大阵列
甲parallel.cluster.Hadoop对象提供对群集配置mapreducer,映射精简和妥尔阵列。
甲parallel.cluster.Hadoop对象具有以下性质。
属性 | 描述 |
---|---|
AdditionalPaths |
路径要添加到MATLAB命令搜索路径工人 |
附加的文件 |
文件中转移到工人MapReduce的 呼叫 |
AutoAttachFiles |
指定是否自动附加文件 |
ClusterMatlabRoot |
指定路径MATLAB让工人使用 |
HadoopConfigurationFile |
应用程序配置文件必须考虑到Hadoop的 |
HadoopInstallFolder |
在本地机器上的Hadoop的安装位置 |
HadoopProperties |
名值属性对地图要给予Hadoop的 |
许可证号码 |
许可证号与在线许可使用 |
RequiresOnlineLicensing |
指定集群是否使用在线许可 |
SparkInstallFolder |
在本地机器上星火安装位置 |
SparkProperties |
名值属性对地图要给予星火 |
HadoopProperties
允许您覆盖配置属性的Hadoop。看到Hadoop的属性列表®文档。
该SparkInstallFolder
默认情况下设置的SPARK_HOME
环境变量。这是必需的在Hadoop高大阵列评价(但不包括映射缩减)。对于一个正确配置的集群中,你只需要设置安装文件夹。
SparkProperties
允许您覆盖配置属性的火花。看到火花的属性列表®文档。
对于进一步的帮助,请键入:
帮助parallel.cluster.Hadoop
星火启用了多少内存可用的Hadoop集群的地方限制。您必须调整这些限制,以支持您的工作流程。万博1manbetx
聚集到客户端的数据量是由火花特性的限制:
spark.driver.memory
spark.executor.memory
数据量从星星之火任务收集必须符合这些属性。单个火花任务从HDFS,这是128MB的数据的默认处理数据的一个块。如果你收集含有最原始数据的一个高大的阵列,必须确保这些属性都设置为适合。
如果这些属性都设置太小了,你看到类似下面的错误。
使用高错误/聚集(线50)停止的存储器;无法从星火收集尺寸300米的分区。调整spark.driver.memory和spark.executor.memory以适应此分区的火花属性的值。
直接在MATLAB集群或默认设置或者调整的性质。要调整在MATLAB的属性,添加名称 - 值对的SparkProperties
集群的属性。例如:
簇= parallel.cluster.Hadoop;cluster.SparkProperties('spark.driver.memory')=“2048米”;cluster.SparkProperties('spark.executor.memory')=“2048米”;mapreducer(簇);
对于MATLAB工人工作记忆的量由星火属性的限制:
spark.yarn.executor.memoryOverhead
默认情况下,它被设置为2.5 GB。您通常需要,如果你用它来增加此arrayfun
,cellfun
或自定义数据存储,生成一气呵成大量数据。明智的做法是增加这一点,如果你遇到遗失或毁损星火执行人过程。
您可以直接在MATLAB集群或默认设置或者调整这些属性。要调整在MATLAB的属性,添加名称 - 值对集群的SparkProperties财产。例如:
簇= parallel.cluster.Hadoop;cluster.SparkProperties('spark.yarn.executor.memoryOverhead')=“4096米”;mapreducer(簇);