主要内容

划分

分区数据存储

描述

例子

sub=分区(DS.N指数分区数据存储DS.进入指定的部件数量N并返回对应于索引的分区指数

例子

sub=分区(DS.,'文件',指数按文件分区数据存储,并返回与索引文件对应的分区指数文件财产。

sub=分区(DS.,'文件',文档名称按文件对数据存储进行分区,并返回与指定的文件对应的分区文档名称

例子

全部折叠

为大量文件创建数据存储。对于本例,使用样例文件的10个副本airlinesmall.csv。要在表格数据中处理缺少字段,请指定名称值对TreatAsMissingMissingValue

files = repmat({“airlinesmall.csv”},1,10);ds = tabulartextdataStore(文件,......'尾声'“NA”“MissingValue”, 0);

将数据存储划分为三个部分,并返回第一个分区。这划分函数返回到数据存储区中的数据的第一个三分之一DS.

subds = partition(ds,3,1)
subds =带有属性的tabulartextdataStore:文件:{'... \ matlab \ toolbox \ matlab \ demos \ airlinesmall.csv';'... \ matlab \ toolbox \ matlab \ demos \ airlinesmall.csv';'... \ matlab \ toolbox \ matlab \ demos \ airlinesmall.csv'...和1更多} fileencoding:'utf-8'rederatefilesystemroots:{} readvariablenames:true variablenames:{'年','月','DayofMonth'Aff More}文本格式属性:numheaderlines:0 delimiter:','rowdelimiter:'\ r \ n'instamissing:'na'遗漏:0高级文本格式属性:textscanformats:{'%f','%f','%f'...和26更多} texttype:'char'exponentcharacters:'eedd'commentstyle:''fhiteSpace:'\ b \ t'multipledelimitersasone:false属性,用于控制预览返回的表返回的表,阅读,readall:selectedvariablenames:{'年','月','dayofmonth'...和26更多} selectedformats:{'%f','%f','%f'...和26更多}:20000行

文件属性包含该数据存储中包含的文件列表。检查文件的数量文件数据存储的属性DS.和分区数据存储sub。数据存储DS.包含十个文件和分区sub包含前四个文件。

长度(ds.files)
ans = 10
长度(Subds.Files)
ans = 4.

从示例文件创建一个数据存储,mapredout.mat.,这是输出文件mapreduce功能。

ds =数据存储(“mapredout.mat”);

获取默认分区数DS.

n = numpartitions (ds);

将数据存储区分区为默认分区数,并返回与第一个分区对应的数据存储。

再分=分区(n, ds 1);

阅读数据sub

Hasdata(Subds)数据=读取(Subds);结尾

创建包含三个图像文件的数据存储。

ds = imagedataStore({“street1.jpg”“peppers.png”'玉米。'})
DS = ImageageAtastore具有属性:文件:{'... \ matlab \ toolbox \ matlab \ demos \ street1.jpg';'... \ matlab \ toolbox \ matlab \ imagesci \ peppers.png';'... \ matlab \ toolbox \ matlab \ imagesci \ corn.tif'} readsize:1标签:{} readfcn:@readdataStoreimage

按文件对数据存储进行分区,并返回与第二个文件对应的部分。

Subds = Partition(DS,'文件', 2)
subds = ImageageAtastore具有属性:文件:{'... \ matlab \ toolbox \ matlab \ imagesci \ peppers.png'} ReadSize:1标签:{} Readfcn:@readdataStoreImage

sub包含一个文件。

从示例文件创建一个数据存储,mapredout.mat.,这是输出文件mapreduce功能。

ds =数据存储(“mapredout.mat”);

将数据存储分为三个零件,并在并行池中的三个工人。

numworkers = 3;p = parpool('当地的',numworkers);n = NumPartitions(DS,P);议案Ii =1:n subds = partition(ds,n, Ii);Hasdata(Subds)数据=读取(Subds);结尾结尾

输入参数

全部折叠

输入数据存储。你可以使用数据存储从数据中创建数据存储对象的函数。

分区数,指定为正整数。

如果指定了许多不是数据存储中文件数的数字因子的分区,划分将从第一个分区开始放置在现有分区中的每个剩余观察结果。

包含附加观察值的现有分区的数量等于数据存储中的文件数量除以分区数量时获得的余数。例如,如果您的数据存储对象包含23个文件,您希望将其划分为3部分,那么前两个分区划分创建将包含8个文件,最后一个分区包含7个文件。

例子:3.

数据类型:

索引,指定为正整数。

例子:1

数据类型:

文件名,指定为字符向量或字符串标量。

的价值文档名称必须与?中的文件名完全匹配文件数据存储的属性。要确保文件名完全匹配,请指定文档名称使用ds.files {n}在哪里N.文件的索引是否在文件财产。例如,ds。文件{3}指定数据存储中的第三个文件DS.

例子:ds。文件{3}

例子:'file1.csv'

例子:'../dir/data/file1.csv'

例子:hdfs: / / myserver: 7867 /数据/中

数据类型:字符

输出参数

全部折叠

输出数据存储。输出数据存储与输入数据存储的类型相同DS.

也可以看看

|

话题

介绍了R2015a