主要内容

设置数据存储,用于处理不同的机器或群集

您可以通过设置通过设置到不同平台上的平台上创建和保存数据存储'alternedfilesystemroots'数据存储的属性。使用此属性:

  • 在本地机器上创建数据存储,需要访问和处理另一台机器上的数据(可能运行不同的操作系统)。

  • 您可以使用涉及不同平台,云或群集计算机的并行和分布式计算来处理数据存储。

这个例子演示了'alternedfilesystemroots'财产TabularTextDatastore.但是,你可以对这些数据存储使用相同的语法:SpreadsheetDatastore.imageageAtastore.帕奎特adatastore.filedatastore.KeyValueDatastore,塔塔塔斯特雷.用来'alternedfilesystemroots'自定义数据存储功能,请参阅matlab.io.datastore.dsfileset.开发自定义数据存储

在不同的文件系统平台上保存数据存储和加载

在一个文件系统上创建一个数据存储,该文件在不同的计算机上无缝地加载和工作(可能是不同的操作系统)。例如,在Windows上创建数据存储®机器,保存,然后在Linux上加载它®机器。

首先,在创建和保存数据存储之前,确定不同平台上数据的根路径。根路径将根据计算机或文件系统的不同而不同。例如,如果你在本地机器上有数据,在集群上有数据的副本,那么获取访问数据的根路径:

  • “Z: \数据集”用于本地Windows计算机。

  • “/ nfs-bldg001 / dataset”对于您的Linux群集。

然后,通过使用使用这些根路径'alternedfilesystemroots'数据存储的参数。

altroots = [“Z: \数据集”“/ nfs-bldg001 / dataset”];ds = tabulartextdataStore(Z: \数据集的'alternedfilesystemroots', altRoots);

检查文件数据存储的属性。在这种情况下,文件属性包含Windows计算机访问的数据的位置。

ds。文件
ans = 5×1单元阵列{'z:\ dataset \ datafile01.csv'} {'z:\ dataset \ datafile02.csv'} {'z:\ dataset \ datafile03.csv'} {'z:\ dataset \datafile04.csv'} {'z:\ dataset \ datafile05.csv'}
保存数据存储。
节省ds_saved_on_windows.matDS.
在Linux平台上加载数据存储并检查文件财产。自根路径Z: \数据集的在Linux集群上无法访问,在加载时间,数据存储函数根据指定的值自动更新根路径'alternedfilesystemroots'参数。的文件数据存储的属性现在包含Linux群集上数据的更新的根路径。
加载ds_saved_on_windows.matds。文件
ans = 5×1单元阵列{'/nfs-bldg001/dataset/datafile01.csv'} {'/nfs-bldg001/dataset/datafile02.csv'} {'/nfs-bldg001/dataset/datafile03.csv'} {'/nfs-bldg001/dataset/datafile04.csv'} {'/nfs-bldg001/dataset/datafile05.csv'}
您现在可以在Linux机器上流程和分析此数据存储。

使用并行和分布式计算处理数据存储

要使用并行和分布式计算处理数据存储,涉及不同平台,云或群集计算机,必须预定决定'alternedfilesystemroots'参数。此示例演示如何在本地计算机上创建数据存储,分析数据的一小部分,然后使用并行计算工具箱™和马铃薯®并行服务器™向整个数据集扩展分析。

创建数据存储并为其分配一个值'alternedfilesystemroots'财产。设置值的值'alternedfilesystemroots'属性,标识在不同平台上的数据的根路径。根路径基于机器或文件系统而不同。例如,从计算机和群集识别用于数据访问的根路径:

  • “Z: \数据集”来自当地的Windows机器。

  • “/ nfs-bldg001 / dataset”来自MATLAB并行服务器Linux集群。

然后,将这些根路径关联使用AlternateFileSystemRoots财产。

altroots = [“Z: \数据集”“/ nfs-bldg001 / dataset”];ds = tabulartextdataStore(Z: \数据集的'alternedfilesystemroots', altRoots);

分析本地机器上的一小部分数据。例如,获取数据的一个分区子集,通过删除任何遗漏的条目来清理数据,并检查变量的图。

tt = tall(分区(ds,100,1));摘要(TT);%分析您的数据tt = rmmissing (tt);情节(tt.MyVar1 tt.MyVar2)

通过使用扩展分析到整个数据集MATLAB并行服务器群集(Linux群集)。例如,使用群集配置文件启动工作池,然后使用并行和分布式计算功能对整个数据集进行分析。

Parpool('mymjsprofile')TT =高(DS);摘要(TT);%分析您的数据tt = rmmissing (tt);情节(tt.MyVar1 tt.MyVar2)

也可以看看

||||||

相关的话题