为处理在不同的机器上或设置数据存储集群
您可以创建并保存一个数据存储平台,负载和工作无缝被设置在不同的平台上“AlternateFileSystemRoots”
数据存储的属性。使用这个属性:
你在本地机器上创建一个数据存储,需要另一台机器上访问和处理数据(可能运行不同的操作系统)。
你处理你的数据存储和并行计算和分布式计算涉及不同的平台、云或集群机器。
这个例子演示了使用“AlternateFileSystemRoots”
财产TabularTextDatastore
。不过,您可以使用相同的语法这些数据存储:SpreadsheetDatastore
,ImageDatastore
,ParquetDatastore
,FileDatastore
,KeyValueDatastore
,TallDatastore
。使用“AlternateFileSystemRoots”
自定义数据存储功能,明白了matlab.io.datastore.DsFileSet
和开发自定义数据存储。
保存数据存储和加载不同的文件系统上的平台
创建一个数据存储在一个文件系统加载和无缝地工作在不同的机器上(可能是不同的操作系统)。例如,创建一个数据存储在一个窗口®机,保存它,然后加载Linux®机器。
首先,创建并保存数据存储之前,确定你的根路径不同平台上的数据。将根据机器不同的根路径或文件系统。例如,如果你有在本地机器上的数据和数据的一个副本一个集群,然后得到访问数据的根路径:
“Z: \数据集”
为您的本地Windows机器。“nfs-bldg001 /数据集”
你的Linux集群。
然后,把这些根路径通过使用“AlternateFileSystemRoots”
数据存储的参数。
altRoots = [“Z: \数据集”,“nfs-bldg001 /数据集”];ds = tabularTextDatastore (Z: \数据集的,“AlternateFileSystemRoots”,altRoots);
检查文件
数据存储的属性。在这种情况下,文件
属性包含的位置数据访问你的Windows机器。
ds.Files
ans = 5×1单元阵列{' Z: \数据集\ datafile01。csv”}{数据集的Z: \ \ datafile02。csv”}{数据集的Z: \ \ datafile03。csv”}{数据集的Z: \ \ datafile04。csv”} {' Z: \数据集\ datafile05.csv '}
保存ds_saved_on_Windows.matds
文件
财产。因为根路径Z: \数据集的
不可以在Linux集群,在加载时,自动更新数据存储功能的根路径基于中指定的值“AlternateFileSystemRoots”
参数。的文件
属性数据存储现在包含更新的根路径的数据在Linux集群。负载ds_saved_on_Windows.matds.Files
ans = 5×1单元阵列{' / / datafile01 nfs-bldg001 /数据集。csv”} {' / / datafile02 nfs-bldg001 /数据集。csv”} {' / / datafile03 nfs-bldg001 /数据集。csv”} {' / / datafile04 nfs-bldg001 /数据集。csv”} {' / nfs-bldg001 /数据集/ datafile05.csv '}
数据存储过程使用并行和分布式计算
处理你的数据存储和并行和分布式计算涉及到不同的平台,云或集群机器,必须预先确定“AlternateFileSystemRoots”
参数。这个案例展示了如何创建一个数据存储在本地机器上,分析数据的一小部分,然后使用并行计算工具箱™MATLAB®并行服务器™分析范围扩大到整个数据集。
创建一个数据存储和分配一个值“AlternateFileSystemRoots”
财产。设置的值“AlternateFileSystemRoots”
为您的数据属性,确定根路径在不同的平台上。根路径不同基于机器或文件系统。例如,确定根路径的数据访问你的机器和集群:
“Z: \数据集”
从您的本地Windows机器。“nfs-bldg001 /数据集”
从MATLAB并行服务器Linux集群。
然后,将使用这些根路径AlternateFileSystemRoots
财产。
altRoots = [“Z: \数据集”,“nfs-bldg001 /数据集”];ds = tabularTextDatastore (Z: \数据集的,“AlternateFileSystemRoots”,altRoots);
分析的一小部分数据在本地机器上。例如,数据的分区的子集,干净的数据通过移除任何缺失的条目,并检查变量的一个阴谋。
tt =高(分区(ds 100 1));总结(tt);%分析你的数据tt = rmmissing (tt);情节(tt.MyVar1 tt.MyVar2)
扩大你的分析对整个数据集使用MATLAB并行服务器集群(Linux集群)。例如,开始一个工人池使用集群的配置文件,然后对整个数据集进行分析通过使用并行和分布式计算能力。
parpool (“MyMjsProfile”)tt =高(ds);总结(tt);%分析你的数据tt = rmmissing (tt);情节(tt.MyVar1 tt.MyVar2)
另请参阅
数据存储
|TabularTextDatastore
|SpreadsheetDatastore
|ImageDatastore
|FileDatastore
|KeyValueDatastore
|TallDatastore