Hadoop集群的mapreducer，MapReduce和高大的阵列 - MATLAB parallel.cluster.Hadoop

构造函数

parallel.cluster.Hadoop

描述

甲parallel.cluster.Hadoop对象提供对群集配置mapreducer，映射精简和妥尔阵列。

属性

甲parallel.cluster.Hadoop对象具有以下性质。

属性	描述
`AdditionalPaths`	路径要添加到MATLAB命令搜索路径工人
`附加的文件`	文件中转移到工人`MapReduce的`呼叫
`AutoAttachFiles`	指定是否自动附加文件
`ClusterMatlabRoot`	指定路径MATLAB让工人使用
`HadoopConfigurationFile`	应用程序配置文件必须考虑到Hadoop的
`HadoopInstallFolder`	在本地机器上的Hadoop的安装位置
`HadoopProperties`	名值属性对地图要给予Hadoop的
`许可证号码`	许可证号与在线许可使用
`RequiresOnlineLicensing`	指定集群是否使用在线许可
`SparkInstallFolder`	在本地机器上星火安装位置
`SparkProperties`	名值属性对地图要给予星火

HadoopProperties允许您覆盖配置属性的Hadoop。看到Hadoop的属性列表^®文档。

该SparkInstallFolder默认情况下设置的SPARK_HOME环境变量。这是必需的在Hadoop高大阵列评价（但不包括映射缩减）。对于一个正确配置的集群中，你只需要设置安装文件夹。

SparkProperties允许您覆盖配置属性的火花。看到火花的属性列表^®文档。

救命

对于进一步的帮助，请键入：

帮助parallel.cluster.Hadoop

指定内存性能

星火启用了多少内存可用的Hadoop集群的地方限制。您必须调整这些限制，以支持您的工作流程。万博1manbetx

尺寸数据收集

聚集到客户端的数据量是由火花特性的限制：

spark.driver.memory
spark.executor.memory

数据量从星星之火任务收集必须符合这些属性。单个火花任务从HDFS，这是128MB的数据的默认处理数据的一个块。如果你收集含有最原始数据的一个高大的阵列，必须确保这些属性都设置为适合。

如果这些属性都设置太小了，你看到类似下面的错误。

使用高错误/聚集（线50）停止的存储器;无法从星火收集尺寸300米的分区。调整spark.driver.memory和spark.executor.memory以适应此分区的火花属性的值。

该错误消息还指定你需要的属性设置。

直接在MATLAB集群或默认设置或者调整的性质。要调整在MATLAB的属性，添加名称 - 值对的SparkProperties集群的属性。例如：

簇= parallel.cluster.Hadoop;cluster.SparkProperties（'spark.driver.memory'）=“2048米”;cluster.SparkProperties（'spark.executor.memory'）=“2048米”;mapreducer（簇）;

指定的工作内存的MATLAB工人

对于MATLAB工人工作记忆的量由星火属性的限制：

spark.yarn.executor.memoryOverhead

默认情况下，它被设置为2.5 GB。您通常需要，如果你用它来增加此arrayfun，cellfun或自定义数据存储，生成一气呵成大量数据。明智的做法是增加这一点，如果你遇到遗失或毁损星火执行人过程。

您可以直接在MATLAB集群或默认设置或者调整这些属性。要调整在MATLAB的属性，添加名称 - 值对集群的SparkProperties财产。例如：

簇= parallel.cluster.Hadoop;cluster.SparkProperties（'spark.yarn.executor.memoryOverhead'）=“4096米”;mapreducer（簇）;

也可以看看

parallel.Cluster，parallel.Pool

parallel.cluster.Hadoop

构造函数

描述

属性

救命

指定内存性能

尺寸数据收集

指定的工作内存的MATLAB工人

也可以看看

也可以看看

主题

介绍了在R2014b

并行计算工具箱文档

万博1manbetx

尝试MATLAB，Sim万博1manbetxulink和其他产品s manbetx 845