主要内容

数据存储

创建数据存储大型数据集合

描述

例子

ds=数据存储(位置)创建一个数据存储从指定的数据集合位置。数据存储是数据集的存储库装入内存太大。在创建ds,你可以阅读和处理数据。

例子

ds=数据存储(位置,名称,值)指定额外的参数ds使用一个或多个名称-值对参数。例如,您可以创建一个数据存储图像文件的指定“类型”,“图像”

例子

全部折叠

创建一个数据存储与样品相关文件airlinesmall.csv。这个文件包含航空数据从1987年到2008年。

管理的缺失数据导入数字列,使用“TreatAsMissing”“MissingValue”名称-值参数。取代的每个实例“NA”0的进口数据通过指定的值“TreatAsMissing”作为“NA”和的值“MissingValue”为0。

ds =数据存储(“airlinesmall.csv”,“TreatAsMissing”,“NA”,“MissingValue”,0)
ds = TabularTextDatastore属性:matlab文件:{' B: \ \ matlab工具箱\ \ demo \ airlinesmall。csv”}文件夹:{" B: matlab \ matlab工具箱\ \ demo \ '} FileEncoding:“utf - 8”AlternateFileSystemRoots: {} VariableNamingRule:“修改”ReadVariableNames:真VariableNames:{“年”、“月”、“DayofMonth”……和26}DatetimeLocale: en_US文本格式属性:NumHeaderLines: 0分隔符:”、“RowDelimiter:“\ r \ n”TreatAsMissing:“NA”MissingValue: 0高级文本格式属性:TextscanFormats: {% f ', ' % f ', ' % f '……和26}TextType:“字符”ExponentCharacters: eEdD CommentStyle:”空白:“\ b \ t”MultipleDelimitersAsOne:假控制表的属性返回的预览,阅读,readall: SelectedVariableNames:{“年”、“月”、“DayofMonth”……和26}SelectedFormats: {% f ', ' % f ', ' % f '……和26}ReadSize: 20000行OutputType:“表”RowTimes:[]编写特殊属性:SupportedOutputFormats:[“三种”“csv”“xlsx”“xl万博1manbetxs”“铺”“parq”] DefaultOutputFormat:“三”

数据存储创建一个TabularTextDatastore

创建一个包含所有数据存储.tif在MATLAB®文件路径和它的子文件夹。

ds =数据存储(fullfile (matlabroot,“工具箱”,“matlab”),“IncludeSubfolders”,真的,“FileExtensions”,“.tif”,“类型”,“图像”)
ds =ImageDatastore属性:文件:{H: \ matlab \ matlab工具箱\ \ demo \ example.tif”;H: \ matlab \ matlab工具箱\ \ imagesci \玉米。tif’}文件夹:{“H: \ matlab工具箱\ \ matlab”} AlternateFileSystemRoots: {} ReadSize: 1标签:{}SupportedOutputF万博1manbetxormats: [“png”“jpg”“jpeg”“tif”“tiff”] DefaultOutputFormat:“png”ReadFcn: @readDatastoreImage

输入参数

全部折叠

文件或文件夹包括在数据存储中,指定为一个文件集对象,如文件路径,或者作为一个DsFileSet对象。

  • 文件集对象,您可以指定位置作为一个文件集对象。作为一个指定位置文件集数据存储对象会导致更快的建设时间相比,或指定一个路径DsFileSet对象。有关更多信息,请参见matlab.io.datastore.FileSet

  • 文件路径,您可以指定一个文件路径作为特征向量或字符串标量。您可以指定多个文件路径作为一个单元阵列特征向量或一个字符串数组。

  • DsFileSet对象,您可以指定一个DsFileSet对象。有关更多信息,请参见matlab.io.datastore.DsFileSet

文件或文件夹可能是本地或远程:

  • 本地文件或文件夹-指定本地文件或文件夹路径。如果文件不在当前文件夹,然后指定完整或相对路径。指定文件夹的子文件夹内文件不会自动包含在数据存储中。您可以使用通配符(*)时指定的本地路径。这个角色指定数据存储包括所有匹配的文件或匹配所有文件文件夹。

  • 远程文件或文件夹-指定完整路径远程文件或文件夹作为一个统一资源定位符(URL)的形式hdfs: / / /path_to_file。有关更多信息,请参见使用远程数据

指定一个文件夹时,数据存储只包含文件支持的文件格式和忽略任何其他格式的文件。万博1manbetx指定一个自定义列表的文件扩展名,包括数据存储,看到FileExtensions财产。

KeyValueDatastore文件必须mat文件或文件生成的序列mapreduce函数。mat文件必须在一个本地文件系统或网络文件系统。序列文件可以在本地网络或HDFS™文件系统。为DatabaseDatastore位置参数不需要文件。有关更多信息,请参见DatabaseDatastore(数据库工具箱)

例子:“file1.csv”

例子:“. . / dir /数据/ file1.jpg”

例子:{“C: \ dir \ data \ file1.xls”,“C: \ dir \ data \ file2.xlsx”}

例子:“C: \ dir \ data \ * .mat’

例子:“hdfs: / / /数据/中”

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:FileExtensions, {“jpg”、“.tif”}包括所有扩展jpg.tif扩展为一个ImageDatastore对象。

类型的数据存储,指定为逗号分隔组成的“类型”和下列之一:

的价值“类型” 描述
“tabulartext” 文本文件包含表格数据。数据的编码必须ASCII或utf - 8。
“图像” 图像文件的格式,比如JPEG或PNG。可接受的文件包括imformats格式。
“表格” 电子表格文件包含一个或多个表。
“keyvalue” mat文件中包含的键-值对数据或序列生成的文件数据mapreduce
“文件” 自定义格式文件,需要指定阅读函数来读取数据。有关更多信息,请参见FileDatastore
“高” mat文件或文件产生的序列的函数数据类型。看到的更多信息,TallDatastore
“铺” 镶木地板文件包含用于数据。看到的更多信息,ParquetDatastore
“数据库” 数据存储在数据库中。需要数据库工具箱™。当使用的规范需要额外的输入参数类型参数。有关更多信息,请参见DatabaseDatastore(数据库工具箱)
  • 如果有多个类型,支持的格式文件,然后使用万博1manbetx“类型”参数指定一个数据存储类型。

  • 如果你不指定一个值“类型”,然后数据存储自动确定合适的类型的数据存储创建基于文件的扩展。

数据类型:字符|字符串

包括子文件夹在一个文件夹中,指定为逗号分隔组成的“IncludeSubfolders”真正的(1)或(0)指定真正的包括每个文件夹内的所有文件和子文件夹只包括每个文件夹内的文件。

当你没有指定“IncludeSubfolders”,那么默认值是

“IncludeSubfolders”名称-值对只在创建这些对象有效:

  • TabularTextDatastore

  • ImageDatastore

  • SpreadsheetDatastore

  • FileDatastore

  • KeyValueDatastore

  • ParquetDatastore

例子:“IncludeSubfolders”,真的

数据类型:逻辑|

扩展的文件,指定为逗号分隔组成的“FileExtensions”一个特征向量,单元阵列特征向量,标量字符串或字符串数组。当指定“FileExtensions”还,指定“类型”。您可以使用空引用代表文件没有扩展。

如果“FileExtensions”没有指定,那么数据存储自动包括所有支持文件扩展名根据数据存储类型。万博1manbetx如果你想有不支持的扩展,然后单独指定每个扩展要包括万博1manbetx。

  • TabularTextDatastore对象,包括支持扩展万博1manbetx. txt,. csv,.dat,.dlm,.asc,。text,没有扩展。

  • ImageDatastore对象,包括所有支持万博1manbetx扩展imformats扩展。

  • SpreadsheetDatastore对象,包括支持扩展万博1manbetxxls,.xlsx,.xlsm,.xltx,.xltm

  • TallDatastore对象,包括支持扩展万博1manbetx.mat.seq

  • ParquetDatastore对象,包括支持扩展万博1manbetx.parquet.parq

“FileExtensions”名称-值对只在创建这些对象有效:

  • TabularTextDatastore

  • ImageDatastore

  • SpreadsheetDatastore

  • FileDatastore

  • KeyValueDatastore

  • ParquetDatastore

例子:“FileExtensions”、“jpg”

例子:FileExtensions, {' . txt ', '。text '}

数据类型:字符|细胞|字符串

替代的文件系统根路径,指定为名称参数组成的“AlternateFileSystemRoots”和一个字符串向量或一个单元阵列。使用“AlternateFileSystemRoots”当您创建一个数据存储在本地机器上,但需要在另一台机器上访问和处理数据(可能是不同的操作系统)。另外,当处理数据使用并行计算工具箱™和MATLAB®并行服务器™,数据存储在您的本地机器复制的数据在不同的平台上云或集群机器,您必须使用“AlternateFileSystemRoots”把根路径。

  • 把一组相当于一根路径,指定“AlternateFileSystemRoots”作为字符串向量。例如,

    [" Z: \数据集”、“/ mynetwork /数据集”)

  • 把多个根集数据存储路径是等价的,指定“AlternateFileSystemRoots”作为一个单元阵列包含多个行,每一行表示一组等价的根路径。指定单元阵列中的每一行作为一个字符串向量或单元阵列的特征向量。例如:

    • 指定“AlternateFileSystemRoots”作为一个字符串向量的单元阵列。

      {[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}

    • 另外,指定“AlternateFileSystemRoots”作为一个单元阵列单元阵列的特征向量。

      {{“Z: \数据集”、“mynetwork /数据集”},…{“Y: \数据集”,“mynetwork2 /数据集”,年代:\数据集的}}

的价值“AlternateFileSystemRoots”必须满足以下条件:

  • 包含一个或多个行,每一行指定一组等价的根路径。

  • 每一行指定多个根路径和每个根路径必须包含至少两个字符。

  • 根路径都是独一无二的,没有子文件夹。

  • 包含至少一个根路径条目指向文件的位置。

有关更多信息,请参见为处理在不同的机器上或设置数据存储集群

例子:[" Z: \数据集”、“/ mynetwork /数据集”)

数据类型:字符串|细胞

输出文本变量的数据类型,指定为逗号分隔组成的“TextType”,要么“字符”“字符串”。如果输出表的,readall,或预览函数包含文本变量“TextType”指定这些变量的数据类型TabularTextDatastoreSpreadsheetDatastore只有对象。如果“TextType”“字符”,然后输出单元阵列的特征向量。如果“TextType”“字符串”,然后输出类型字符串

数据类型:字符|字符串

对进口日期和时间数据类型,指定为逗号分隔组成的“DatetimeType”这些值之一:“datetime”“文本”。的“DatetimeType”参数只适用于创建一个TabularTextDatastore对象。

价值 进口日期和时间数据类型
“datetime”

MATLABdatetime数据类型

有关更多信息,请参见datetime

“文本”

如果“DatetimeType”被指定为“文本”,然后对进口日期和时间数据类型取决于中指定的值“TextType”参数:

  • 如果“TextType”“字符”,那么数据存储返回日期的单元阵列特征向量。

  • 如果“TextType”“字符串”,那么数据存储返回日期作为一个字符串数组。

例子:“DatetimeType”、“日期时间的

数据类型:字符|字符串

从文本文件输出数据类型的时间数据,指定为逗号分隔组成的“DurationType”,要么“持续时间”“文本”

价值 对进口持续时间数据的类型
“持续时间”

MATLAB持续时间数据类型

有关更多信息,请参见持续时间

“文本”

如果“DurationType”被指定为“文本”,然后对进口持续时间数据类型取决于中指定的值“TextType”参数:

  • 如果“TextType”“字符”,那么导入函数返回时间数据的单元阵列特征向量。

  • 如果“TextType”“字符串”,那么导入函数返回时间数据作为一个字符串数组。

数据类型:字符|字符串|datetime

国旗保存变量名称,指定为“修改”“保存”

  • “修改”——转换无效变量名(如决定的isvarnameMATLAB函数)来有效的标识符。

  • “保存”——保存变量名是无效的MATLAB标识符,如变量名,包括空间和非ascii字符。

从R2019b,变量名和行名称可以包含任何字符,包括空格和非ascii字符。同时,他们不仅可以从任何字符,字母。变量和行名称不需要有效的MATLAB标识符(如决定的isvarname功能)。保存这些变量名和行名称,设置的值VariableNamingRule“保存”。变量名不刷新时的价值VariableNamingRule改变从“修改”“保存”

数据类型:字符|字符串

除了这些名称-值对,您还可以指定下列对象属性的名称-值对,除了文件属性:

输出参数

全部折叠

数据存储的数据的集合,作为其中一个返回对象:TabularTextDatastore,ImageDatastore,SpreadsheetDatastore,KeyValueDatastore,FileDatastore,TallDatastore,ParquetDatastore,或DatabaseDatastore。数据存储的类型取决于类型的文件或位置论点。有关更多信息,请单击下面的表中的数据存储名称:

类型 输出
文本文件 TabularTextDatastore
图像文件 ImageDatastore
电子表格文件 SpreadsheetDatastore
mat文件或文件所产生的序列mapreduce KeyValueDatastore
自定义格式文件 FileDatastore
mat文件或文件产生的序列的函数数据类型。 TallDatastore
镶花的文件 ParquetDatastore
数据库 DatabaseDatastore(数据库工具箱)

对于每一个数据存储类型,文件属性是一个单元阵列的特征向量。每个字符向量是一个绝对路径的文件解决位置论点。

版本历史

介绍了R2014b