matlab.compiler.mlspark.RDD类

包:matlab.compiler.mlspark
超:

接口类来表示一个火花弹性分布式数据集(RDD)

描述

一个弹性分布式数据集要么RDD是Spark一个编程抽象™。它表示跨可并行操作的许多节点分布的元件的集合。在星火所有的工作都表达为创造新的RDDS,改造现有RDDS,或呼吁RDDS操作来计算的结果。您可以通过两种方式创建RDDS:

  • 通过加载外部数据集

  • 通过在并行对象的集合司机程序

一旦创建,可以使用RDDS执行两种类型的操作:转换行动

施工

一个RDD对象只能使用的方法来创建SparkContext类。集合SparkContext用于创建RDDS方法在下面列出了方便。请参阅的文件SparkContext类以获取更多信息。

SparkContext方法名称 目的
并行化

创建本地MATLAB的RDD®

datastoreToRDD

MATLAB转换数据存储到火花RDD

文本文件

从创建一个文本文件的RDD

一旦RDD已经使用从一个方法来创建SparkContext类,你可以使用任何的方法RDD一流的操控自己的RDD。

属性

这个类的属性是隐藏的。

方法

转换

aggregateByKey 聚集每个键的值,使用给定的结合的功能和中性“零值”
笛卡尔 创建RDD这是二RDDS的笛卡尔乘积
合并 减少的RDD分区的数量
协同组 从RDDS共享相同的键组数据
combineByKey 结合元件使用的聚合函数一组自定义的每个键
不同 返回包含现有RDD的不同元素的新RDD
过滤 返回包含只有满足谓词功能元素的新RDD
flatMap 通过首先将一个功能到现有的RDD的所有元素,然后平坦化的结果返回一个新的RDD
flatMapValues 通过传入键值对RDD每个值flatMap方法在不改变键
foldByKey 合并的值使用关联函数和中性“零值”的每个键
fullOuterJoin 执行完整外侧的两个键值对RDDS之间的连接
格莱姆教授 聚结的RDD的每个分区中的所有元素
通过...分组 返回分组的项目中的RDD
groupByKey 组的值在RDD每个键成单个序列
路口 返回一个RDD的交集与另一
加入 返回包含所有对的元素的匹配密钥的RDD
keyBy 通过应用函数来创建在RDD元素的元组
按键 返回一个RDD每个元组的键
leftOuterJoin 执行左外连接
地图 通过将函数应用于输入的每个元素返回一个新的RDD RDD
mapValues 传递通过地图功能的键 - 值对RDD每个值,而无需修改密钥
reduceByKey 使用关联减少功能合并这些值用于每个键
再分配 返回恰好有一个新的RDDnumPartitions分区
rightOuterJoin 执行右外连接
排序方式 由给定函数排序的RDD
sortByKey 排序RDD由键值对通过关键
减去 返回从两个RDDS之间的差集所得的值
subtractByKey 从键两个RDDS之间的差集所得return键 - 值对
联盟 返回一个RDD的并集与另一
返回一个与RDD每个元组的值
压缩 拉链一个RDD与另一
zipWithIndex 拉链的RDD其元素索引
zipWithUniqueId 拉链与生成的唯一长ID的RDD

操作

骨料 聚集每个分区和用于所有分区的元件随后将结果转换成一个单一的值
收集 返回MATLAB单元阵列,其中包含在RDD所有元素的
collectAsMap 返回键 - 值对在RDD作为MATLABcontainers.Map目的
计数 计数在RDD元素的数目
每个分区的骨料元素和所有分区随后的结果
减少 减少使用指定的交换和关联功能的RDD的元件
reduceByKeyLocally 使用关联功能,降低合并价值为每个键,而是立即返回结果给司机
saveAsKeyValueDatastore 保存键值RDD作为一个二进制文件,可以使用回读数据存储功能
saveAsTallDatastore 保存RDD作为MATLAB高大阵列为二进制文件,可以使用该被读回数据存储功能
saveAsTextFile RDD保存为文本文件

操作

高速缓存 在内存中存储RDD
检查站 标记为检查点的RDD
getCheckpointFile 获取到的RDD被设置检查点的文件的名称
getDefaultReducePartitions 获取默认的数量减少的RDD分区
getNumPartitions 返回在RDD分区的数量
是空的 确定是否RDD包含任何元素
keyLimit 独特的按键返回阈值,可以溢出到磁盘之前进行存储
坚持 设置一个RDD的存储级别的值各运营坚持它的计算后,
toDebugString 获得RDD的描述和调试递归依赖性
unpersist 一个标记为RDD非持久性,从内存和磁盘中删除所有块吧

更多关于

展开全部

参考

更多信息请参见最新星火文档。

介绍了在R2016b