为大型数据集合创建数据存储
创建与示例文件关联的数据存储airlinesmall.csv
.这个文件包含从1987年到2008年的航空公司数据。
要管理数字列中缺失数据的导入,请使用“TreatAsMissing”
而且“MissingValue”
名称-值对参数。替换的每个实例“NA”
在导入的数据中指定0的值“TreatAsMissing”
作为“NA”
和价值“MissingValue”
为0。
Ds =数据存储“airlinesmall.csv”,“TreatAsMissing”,“NA”,...“MissingValue”, 0)
Files:{'…/devel/bat/Bdoc21a/build/matlab/toolbox/matlab/demos/airlinesmall.csv'} Folders: {' /mathworks/devel/bat/Bdoc21a/build/matlab/toolbox/matlab/demos'} FileEncoding: 'UTF-8' AlternateFileSystemRoots: {} VariableNamingRule: 'modify' ReadVariableNames: true VariableNames:{'年','月','日ofmonth '…DatetimeLocale: en_US文本格式属性:NumHeaderLines: 0 Delimiter: ',' RowDelimiter: '\r\n' TreatAsMissing: 'NA' MissingValue: 0高级文本格式属性:TextscanFormats: {'%f', '%f', '%f'…TextType: 'char' ExponentCharacters: 'eEdD' CommentStyle: "空格:' \b\t' MultipleDelimitersAsOne: false控制由preview、read、readall返回的表的属性:SelectedVariableNames: {'Year', 'Month', 'DayofMonth'…和26}SelectedFormats: {% f ', ' % f ', ' % f '……ReadSize: 20000行OutputType: 'table' RowTimes: [] Write-specific Properties: SupportedOutputFor万博1manbetxmats: ["txt" "csv" "xlsx" "xls" "parq" "parq"] DefaultOutputFormat: "txt"
数据存储
创建一个TabularTextDatastore
.
创建一个包含所有的数据存储.tif
MATLAB®路径下的文件及其子文件夹。
Ds = datastore(fullfile(matlabroot),“工具箱”,matlab的),...“IncludeSubfolders”,真的,“FileExtensions”,“.tif”,“类型”,“图像”)
ds = ImageDatastore属性:Files:{'…\matlab\toolbox\matlab\demos\example.tif';'…\matlab\toolbox\matlab\imagesci\corn.tif'} ReadSize: 1 Labels: {} ReadFcn: @readDatastoreImage
位置
- - - - - -要包含在数据存储中的文件或文件夹DsFileSet
对象数据存储中包含的文件或文件夹,指定为路径或DsFileSet
对象。
path—将路径指定为字符向量、字符向量的单元格数组、字符串标量或字符串数组,其中包含本地或远程文件或文件夹的位置。
本地文件或文件夹-指定位置
作为文件或文件夹的本地路径。如果文件不在当前文件夹中,则本地路径必须指定完全路径或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储中。指定本地路径时,可以使用通配符“*”。此字符指定数据存储包含所有匹配文件或匹配文件夹中的所有文件。
远程文件或文件夹-指定位置
将文件或文件夹的完整路径作为表单的统一资源定位符(URL)hdfs: / / / path_to_file
.有关更多信息,请参见使用远程数据.
DsFileSet
object -你也可以指定位置
作为一个DsFileSet
对象。有关更多信息,请参见matlab.io.datastore.DsFileSet
.
当位置
表示文件夹,数据存储只包含支持的文件格式,而忽略任何其他格式。万博1manbetx若要指定要包含在数据存储中的文件扩展名的自定义列表,请参阅FileExtensions
财产。
为KeyValueDatastore
命令生成的mat文件或Sequence文件mapreduce
函数。mat文件必须位于本地文件系统或网络文件系统中。序列文件可以在本地、网络或HDFS™文件系统中。为DatabaseDatastore
, location参数不必为files。有关更多信息,请参见DatabaseDatastore
(数据库工具箱).
例子:“file1.csv”
例子:“. . / dir /数据/ file1.jpg”
例子:{“C: \ dir \ data \ file1.xls”,“C: \ dir \ data \ file2.xlsx”}
例子:“C: \ dir \ data \ * .mat’
例子:“hdfs: / / /数据/中”
指定逗号分隔的可选对名称,值
参数。的名字
参数名称和价值
对应的值。的名字
必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家
.
FileExtensions,{“jpg”、“.tif”}
包含所有扩展jpg
或.tif
的扩展ImageDatastore
对象。
“类型”
- - - - - -数据存储类型“tabulartext”
|“图像”
|“表格”
|“keyvalue”
|“文件”
|“高”
|……数据存储的类型,指定为逗号分隔的对,由“类型”
和以下其中之一:
的价值“类型” |
描述 |
---|---|
“tabulartext” |
包含表格数据的文本文件。数据编码必须为ASCII或UTF-8。 |
“图像” |
JPEG或PNG格式的图像文件。可接受的文件包括imformats 格式。 |
“表格” |
包含一个或多个表的电子表格文件。 |
“keyvalue” |
生成的数据包含在mat文件或Sequence文件中的键值对数据mapreduce . |
“文件” |
自定义格式文件,需要指定的读取函数来读取数据。有关更多信息,请参见FileDatastore . |
“高” |
生成的mat文件或Sequence文件写 的功能高 数据类型。更多信息请参见,TallDatastore . |
“铺” |
包含面向列数据的Parquet文件。更多信息请参见,ParquetDatastore . |
“数据库” |
数据存储在数据库中。需要数据库工具箱™。类时需要指定额外的输入参数类型 参数。有关更多信息,请参见DatabaseDatastore (数据库工具箱). |
如果有多种类型支持文件的格式,则使用万博1manbetx“类型”
参数指定数据存储类型。
如果不指定的值“类型”
,然后数据存储
根据文件的扩展名自动确定要创建的适当数据存储类型。
数据类型:字符
|字符串
“IncludeSubfolders”
- - - - - -在文件夹中包含子文件夹真正的
或假
|0或1在文件夹中包含子文件夹,指定为逗号分隔的对,由“IncludeSubfolders”
而且真正的
(1)或假
(0)指定真正的
将所有文件和子文件夹包含在每个文件夹或假
只包括每个文件夹中的文件。
当您不指定时“IncludeSubfolders”
,则默认值为假
.
的“IncludeSubfolders”
Name-value pair仅在创建以下对象时有效:
TabularTextDatastore
ImageDatastore
SpreadsheetDatastore
FileDatastore
KeyValueDatastore
ParquetDatastore
例子:“IncludeSubfolders”,真的
数据类型:逻辑
|双
“FileExtensions”
- - - - - -文件扩展名文件的扩展名,指定为逗号分隔的对,由“FileExtensions”
以及字符向量、字符向量的单元格数组、字符串标量或字符串数组。当指定“FileExtensions”
,也指定“类型”
.您可以使用空引号”
表示没有扩展名的文件。
如果“FileExtensions”
没有指定,那么数据存储
根据数据存储类型,自动包含所有支持的文件扩展名。万博1manbetx如果要包含不支持的扩展,请分别指定要包含的每个扩展万博1manbetx。
为TabularTextDatastore
对象,支持的扩展名万博1manbetx包括. txt
,. csv
,.dat
,.dlm
,.asc
,。text
,并且没有扩展。
为ImageDatastore
对象,支持的扩展包万博1manbetx括所有imformats
扩展。
为SpreadsheetDatastore
对象,支持的扩展名万博1manbetx包括xls
,.xlsx
,.xlsm
,.xltx
,.xltm
.
为TallDatastore
对象,支持的扩展名万博1manbetx包括.mat
而且.seq
.
为ParquetDatastore
对象,支持的扩展名万博1manbetx包括.parquet
而且.parq
.
的“FileExtensions”
Name-value pair仅在创建以下对象时有效:
TabularTextDatastore
ImageDatastore
SpreadsheetDatastore
FileDatastore
KeyValueDatastore
ParquetDatastore
例子:“FileExtensions”、“jpg”
例子:FileExtensions, {' . txt ', '。text '}
数据类型:字符
|细胞
|字符串
“AlternateFileSystemRoots”
- - - - - -可选文件系统根路径可选文件系统根路径,指定为逗号分隔的对,由“AlternateFileSystemRoots”
字符串向量或者单元格数组。使用“AlternateFileSystemRoots”
在本地机器上创建数据存储,但需要访问和处理另一台机器(可能是不同的操作系统)上的数据时。此外,在使用并行计算工具箱™和MATLAB®并行服务器™,并且数据存储在本地计算机上,同时在不同平台云或集群计算机上有可用的数据副本,则必须使用“AlternateFileSystemRoots”
关联根路径。
要关联一组彼此等价的根路径,请指定“AlternateFileSystemRoots”
作为一个字符串向量。例如,
[" Z: \数据集”、“/ mynetwork /数据集”)
若要关联多个与数据存储等效的根路径集,请指定“AlternateFileSystemRoots”
作为包含多行的单元格数组,其中每一行表示一组等价的根路径。将单元格数组中的每一行指定为字符串向量或字符向量的单元格数组。例如:
指定“AlternateFileSystemRoots”
作为字符串向量的单元格数组。
{[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}
另外,指定“AlternateFileSystemRoots”
作为单元格数组的字符向量单元格数组。
{{“Z: \数据集”、“mynetwork /数据集”},…{“Y: \数据集”,“mynetwork2 /数据集”,年代:\数据集的}}
的价值“AlternateFileSystemRoots”
必须满足以下条件:
包含一个或多个行,其中每一行指定一组等价的根路径。
每行指定多个根路径,每个根路径必须包含至少2个字符。
根路径是唯一的,并且不是彼此的子文件夹。
包含指向文件位置的至少一个根路径项。
有关更多信息,请参见为不同机器或集群上的处理设置数据存储.
例子:[" Z: \数据集”、“/ mynetwork /数据集”)
数据类型:字符串
|细胞
“TextType”
- - - - - -文本变量的输出数据类型“字符”
(默认)|“字符串”
输出数据类型的文本变量,指定为逗号分隔的对,由“TextType”
,要么“字符”
或“字符串”
.如果输出表来自读
,readall
,或预览
函数包含文本变量“TextType”
的这些变量的数据类型TabularTextDatastore
而且SpreadsheetDatastore
只有对象。如果“TextType”
是“字符”
,则输出为字符向量的单元格数组。如果“TextType”
是“字符串”
,则输出具有类型字符串
.
数据类型:字符
|字符串
“DatetimeType”
- - - - - -导入的日期和时间数据的类型“datetime”
(默认)|“文本”
导入的日期和时间数据的类型,指定为逗号分隔的对,由“DatetimeType”
其中一个价值观是:“datetime”
或“文本”
.的“DatetimeType”
参数仅在创建TabularTextDatastore
对象。
价值 | 导入日期和时间数据的类型 |
---|---|
“datetime” |
MATLAB 有关更多信息,请参见 |
“文本” |
如果
|
例子:“DatetimeType”、“日期时间的
数据类型:字符
|字符串
“DurationType”
- - - - - -持续时间数据的输出数据类型“持续时间”
(默认)|“文本”
文本文件的持续时间数据的输出数据类型,指定为逗号分隔的对,由“DurationType”
,要么“持续时间”
或“文本”
.
价值 | 导入的持续时间数据类型 |
---|---|
“持续时间” |
MATLAB 有关更多信息,请参见 |
“文本” |
如果
|
数据类型:字符
|字符串
|datetime
“VariableNamingRule”
- - - - - -标记以保留变量名“修改”
(默认)|“保存”
除了这些名称-值对之外,还可以将下列对象的任何属性指定为名称-值对,但文件
属性:
ds
—用于收集数据的数据存储TabularTextDatastore
|ImageDatastore
|SpreadsheetDatastore
|KeyValueDatastore
|FileDatastore
|TallDatastore
|……数据集合的数据存储,作为以下对象之一返回:TabularTextDatastore
,ImageDatastore
,SpreadsheetDatastore
,KeyValueDatastore
,FileDatastore
,TallDatastore
,ParquetDatastore
,或DatabaseDatastore
.数据存储的类型取决于文件的类型或位置
论点。有关详细信息,请单击下表中的数据存储名称:
类型 | 输出 |
---|---|
文本文件 | TabularTextDatastore |
图像文件 | ImageDatastore |
电子表格文件 | SpreadsheetDatastore |
生成的mat文件或序列文件mapreduce |
KeyValueDatastore |
自定义格式文件 | FileDatastore |
生成的mat文件或Sequence文件写 的功能高 数据类型。 |
TallDatastore |
镶花的文件 | ParquetDatastore |
数据库 | DatabaseDatastore (数据库工具箱) |
对于每一种数据存储类型,文件
属性是字符向量的单元格数组。控件解析的文件的绝对路径位置
论点。
CombinedDatastore
|fileDatastore
|imageDatastore
|imformats
|javaaddpath
|mapreduce
|parquetDatastore
|spreadsheetDatastore
|tabularTextDatastore
|高
|TransformedDatastore
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。万博1manbetx
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。