包:matlab.compiler.mlspark
超:
接口类来表示一个火花弹性分布式数据集(RDD)
一个弹性分布式数据集要么RDD是Spark一个编程抽象™。它表示跨可并行操作的许多节点分布的元件的集合。在星火所有的工作都表达为创造新的RDDS,改造现有RDDS,或呼吁RDDS操作来计算的结果。您可以通过两种方式创建RDDS:
通过加载外部数据集
通过在并行对象的集合司机程序
一个RDD
对象只能使用的方法来创建SparkContext
类。集合SparkContext
用于创建RDDS方法在下面列出了方便。请参阅的文件SparkContext
类以获取更多信息。
SparkContext方法名称 | 目的 |
---|---|
并行化 |
创建本地MATLAB的RDD®值 |
datastoreToRDD |
MATLAB转换 |
文本文件 |
从创建一个文本文件的RDD |
一旦RDD已经使用从一个方法来创建SparkContext
类,你可以使用任何的方法RDD
一流的操控自己的RDD。
这个类的属性是隐藏的。
aggregateByKey | 聚集每个键的值,使用给定的结合的功能和中性“零值” |
笛卡尔 | 创建RDD这是二RDDS的笛卡尔乘积 |
合并 | 减少的RDD分区的数量 |
协同组 | 从RDDS共享相同的键组数据 |
combineByKey | 结合元件使用的聚合函数一组自定义的每个键 |
不同 | 返回包含现有RDD的不同元素的新RDD |
过滤 | 返回包含只有满足谓词功能元素的新RDD |
flatMap | 通过首先将一个功能到现有的RDD的所有元素,然后平坦化的结果返回一个新的RDD |
flatMapValues | 通过传入键值对RDD每个值flatMap 方法在不改变键 |
foldByKey | 合并的值使用关联函数和中性“零值”的每个键 |
fullOuterJoin | 执行完整外侧的两个键值对RDDS之间的连接 |
格莱姆教授 | 聚结的RDD的每个分区中的所有元素 |
通过...分组 | 返回分组的项目中的RDD |
groupByKey | 组的值在RDD每个键成单个序列 |
路口 | 返回一个RDD的交集与另一 |
加入 | 返回包含所有对的元素的匹配密钥的RDD |
keyBy | 通过应用函数来创建在RDD元素的元组 |
按键 | 返回一个RDD每个元组的键 |
leftOuterJoin | 执行左外连接 |
地图 | 通过将函数应用于输入的每个元素返回一个新的RDD RDD |
mapValues | 传递通过地图功能的键 - 值对RDD每个值,而无需修改密钥 |
reduceByKey | 使用关联减少功能合并这些值用于每个键 |
再分配 | 返回恰好有一个新的RDDnumPartitions 分区 |
rightOuterJoin | 执行右外连接 |
排序方式 | 由给定函数排序的RDD |
sortByKey | 排序RDD由键值对通过关键 |
减去 | 返回从两个RDDS之间的差集所得的值 |
subtractByKey | 从键两个RDDS之间的差集所得return键 - 值对 |
联盟 | 返回一个RDD的并集与另一 |
值 | 返回一个与RDD每个元组的值 |
压缩 | 拉链一个RDD与另一 |
zipWithIndex | 拉链的RDD其元素索引 |
zipWithUniqueId | 拉链与生成的唯一长ID的RDD |
骨料 | 聚集每个分区和用于所有分区的元件随后将结果转换成一个单一的值 |
收集 | 返回MATLAB单元阵列,其中包含在RDD所有元素的 |
collectAsMap | 返回键 - 值对在RDD作为MATLABcontainers.Map 目的 |
计数 | 计数在RDD元素的数目 |
折 | 每个分区的骨料元素和所有分区随后的结果 |
减少 | 减少使用指定的交换和关联功能的RDD的元件 |
reduceByKeyLocally | 使用关联功能,降低合并价值为每个键,而是立即返回结果给司机 |
saveAsKeyValueDatastore | 保存键值RDD作为一个二进制文件,可以使用回读数据存储 功能 |
saveAsTallDatastore | 保存RDD作为MATLAB高大阵列为二进制文件,可以使用该被读回数据存储 功能 |
saveAsTextFile | RDD保存为文本文件 |
高速缓存 | 在内存中存储RDD |
检查站 | 标记为检查点的RDD |
getCheckpointFile | 获取到的RDD被设置检查点的文件的名称 |
getDefaultReducePartitions | 获取默认的数量减少的RDD分区 |
getNumPartitions | 返回在RDD分区的数量 |
是空的 | 确定是否RDD包含任何元素 |
keyLimit | 独特的按键返回阈值,可以溢出到磁盘之前进行存储 |
坚持 | 设置一个RDD的存储级别的值各运营坚持它的计算后, |
toDebugString | 获得RDD的描述和调试递归依赖性 |
unpersist | 一个标记为RDD非持久性,从内存和磁盘中删除所有块吧 |
更多信息请参见最新星火文档。