大数据工作流使用高阵列和数据存储
用高数组的例子显示了一个典型的工作流分析大数据集。在这个工作流,您分析之前的一个小子集数据扩大分析整个数据集。并行计算可以帮助你扩大从6到7的步骤。即在检查您的代码工作的小数据集,对整个数据集运行它。你可以用MATLAB®增强此工作流。
问题 | 解决方案 | 所需的产品s manbetx 845 | 更多的信息 |
---|---|---|---|
是你的数据太大? | 使用内存不足数据与任意数量的行,使用高数组。 这个工作流是适合数据分析和机器学习。 |
MATLAB |
|
使用高并行阵列在本地机器上。 |
MATLAB 并行计算工具箱™ |
||
使用高集群并行阵列。 |
MATLAB 并行计算工具箱 MATLAB并行服务器™ |
使用Hadoop集群高阵列,明白了火花集群上使用高数组 对于所有其他类型的集群中,使用非本地集群配置文件设置一个平行的池。例如,看到的使用高阵列并行池 |
|
如果您的数据在多个维度大,使用 |
MATLAB 并行计算工具箱 MATLAB并行服务器 |
运行高并行阵列
并行计算工具箱可以立即加快你的高大的数组的计算通过使用多核计算机的处理能力来执行应用程序与一个平行的工人。如果你已经安装了并行计算工具箱,那么你可能不需要做任何特别的利用这些功能。更多信息与并行计算工具箱,使用高数组使用高阵列并行池。
使用mapreduce
控制你的代码运行
当您执行高数组默认执行环境使用本地MATLAB会话,或当地的平行池并行计算工具箱。默认池使用当地工人,通常为每个核心一名工人在你的机器。使用mapreduce
函数来改变高阵列的执行环境使用不同的集群。
的好处之一开发高阵列算法是您只需要编写代码。你可以在本地开发代码,然后使用mapreduce
扩大规模,利用并行计算工具箱,提供的功能MATLAB并行服务器。