如何导入大数据文件
18视图(30天)
显示旧的评论
接受的答案
每•艾萨克森
2017年10月29日
编辑:每•艾萨克森
2017年10月29日
“几个小时运行”
这听起来不正确的。
- 有多少列?
- 你有多少内存?
- 如果是纯数字数据试试负载ascii否则textscan他们是更快。
14日的评论
沃尔特·罗伯森
2017年10月29日
1000万行5列的双精度应该只有400字节,这应该很容易在你的记忆。
如果你启动活动监视器,看看使用CPU和内存使用是什么,什么样的行为你看到吗?
你的数据涉及任何字符串,还是数字?有任何遗漏的观察吗
你能确认你的数据是一个文本文件?逗号分隔吗?
利奥
2017年10月30日
编辑:每•艾萨克森
2017年10月30日
示例中,ID,日期,X, Y, Z
0,“00036020”,30 jun2002, 1.869, 12147.04333624268, .0167
0,“00036020”01 jul2002, 1.869, 1156.482648479462, .0169
0,“00036020”02 jul2002, 1.869, 1145.771792739868, .0169
0,“00036020”03 jul2002, 1.869, 1294.462498138428, .0169
0,“00036020”04 jul2002, 1.869, 1294.462498138428, .0169
0,“00036020”,05 jul2002 1.869,141.5848011779785 .0169
0,“00036020”,1.869,141.5848011779785 06 jul2002 .0169
0,“00036020”、07 jul2002 1.869,141.5848011779785 .0169
0,“00036020”,08年jul2002, 1.869, 1307.917965469361, .017
这是一个从我的数据。ID包含字符串变量和变量。我有个约会除此之外,其余的变量数值数据。
我尝试以下代码导入这个文件
fid = fopen (“File.csv”);
Data = textscan (fid检测器,' % % C % d % f % f % f ',“分隔符”,' \ t ');
文件关闭(fid);
我试过几次matlab的进口增加。
每•艾萨克森
2017年10月30日
编辑:每•艾萨克森
2017年10月30日
首先,我创建了一个240万行文件,
leo.csv
通过添加许多份样本行。
> >悲伤= dir (“m h: \ \ cssm \ leo.csv”);
> > sad.bytes e9 / 1
ans =
0.1274 (GB)
然后我用这个脚本读取文件。(我用
“ReturnOnError”,假的
让textscan一起返回一个错误消息,如果失败。
抽搐
fid = fopen (“c: \ tmp \ leo.csv”,“r”);
cac = textscan (fid,' % f % s % s % % f % f ',“分隔符”,”、“…
,“ReturnOnError”假的,“CollectOutput”,真正的);
文件关闭(fid);
toc
了5秒老香草桌面一个旋转的硬盘。(时间可能有点作弊,因为部分甚至整个文本文件已经在系统缓存)。
运行时间是5.013201秒。
> >谁cac
的名字大小字节类属性
cac1 x3693633360细胞
仍然是解析字符串
> > cac {2} {1,}
ans =
“00036020”
ans =
30 jun2002
医生说,一个可能使用
%问
阅读在双引号字符串,但这个主题我R2016a /给了一个意想不到的结果。
四乘以五秒是二十。这是合理的。
四次0.69 gb是近3 gb,计算机应该能够处理你的8 gb。它的字符串存储在细胞数组,吃内存。
“现在运行几个小时”
我仍然是一个谜。
每•艾萨克森
2017年10月30日
抽搐
fid = fopen (“c: \ tmp \ leo.csv”,“r”);
cac = textscan (fid,' % % s % D {ddMMMyyyy} % f % f % f ',“分隔符”,”、“…
,“ReturnOnError”假的,“CollectOutput”,真正的);
文件关闭(fid);
toc
让
textscan
解析日期增加时间,但可以节省内存
运行时间是35.009933秒。
> >谁cac
的名字大小字节类属性
cac1 x4424673851细胞
更多的答案(0)
一个错误发生
无法完成的行动,因为页面所做的更改。重新加载页面更新状态。
你也可以从下面的列表中选择一个网站
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。