Neha Goel,Mathworks
在此视频中,我们展示了如何处理和清理存储在Excel纸张中的时间序列数据,以多种格式以及Matlab中的多种采样率®。我们首先使用导入工具从Excel纸张导入数据。接下来,我们专注于如何准备数据以转换为Timetable DataType。
然后,我们探索预处理功能,该时间表包括将数据集与共同时间参考,评估数据质量以及处理重复和缺少数据的时间表。最后,我们向堆叠的变量与行时间显示堆叠曲线。
在数据科学中,始终说80%的时间在准备数据时花费了20%的时间,抱怨需要准备数据。因此,让我们尝试通过在更短的时间内准备和预处理时间序列数据并在Matlab中使用几行代码来解决这个问题。
对于此示例,我们将使用来自Phasor测量单元(PMU)的数据
所以是的,我们有需要对齐和清理的数据进行进一步分析。
我们的数据是三个Excel电子表格,一个用于三个时区中的每一个,我们将使用导入工具导入数据。如果我们在MATLAB中打开电子表格,默认情况下,请在导入工具中打开。单击“导入数据”。然后将数据存储在工作区中作为表。
用于处理时间序列数据并在特定于时间的函数上,MATLAB有一个数据类型时间表
这使得处理更容易。要将表转换为时间表,我们应该进入时间约会时间
格式。
所以现在我们将从每个表中提取时间列并将其转换为使用的日期时间约会时间
功能。在同一行代码中,我们正在解决我们数据集的第一个挑战;数据是三个不同的时区,具有不同的偏移。因此,在同一步骤中,我们通过向时区作为选项来对齐时区:澳大利亚/悉尼为东部日光时间,澳大利亚/阿德莱德中央日光时间和澳大利亚/布里斯班的东部标准时间。
让我们用每个PMU的时间绘制我们的频率测量,以在视觉上确认时间对齐。当我们看到频率重叠时。因此,我们的时间对齐正确。
一旦我们的时间表处于DateTime格式并对齐,我们将使用该功能将所有三个表转换为时间表table2timesable.
。我们现在拥有三个表格的时间表。
接下来,我们继续清洁数据。正如我们在此链接的MATLAB文档中看到,我们可以使用各种工作流程处理和清洁时间表,如查找和删除缺少的数据,排序和删除重复等。
在这里,我们展示了使用重复时间的一种方式。首先,使用唯一的功能,我们创建了向量uniquetime.
返回时间变量的唯一和排序行。此矢量不包含重复的行时间。只需验证,我们在这里检查我们有七个重复的行rimes。处理我们使用的ret
函数来计算具有重复行时间的所有其他变量的均值。因此,现在我们有一个新的表uniquedataAcdt,没有重复的行时间。我们为其他两个表做了类似的过程。我们现在将使用三个新表。
缺少数据可以以不同的方式处理。对于单个时间表,我们可以使用rmissing.
函数并删除包含缺失数据的所有行。正如我们在这里为uniquedataAcdt表一样。
另一个方法在加入表时使用插值。
我们将所有三个表加入其中一个时间表使用同步
功能。同步从所有输入时间表收集变量,并输出单个时间表,其中所有变量水平连接。
在这里我们指定联盟
在包含来自所有三个时间表的时间的时间向量上同步。和线性
填写具有线性插值的缺失的时间表元素。
因此,现在我们的总表格包括所有三个清洁时间表。
一旦我们全部清理了我们的数据,我们就可以通过绘制数据来完成一些可视化分析。
在这里,我们展示了一个例子stackedplot.
功能。stackedplot.
绘制时间表的时间表对行时间。我们将电压幅度VM6,VM1和VM11绘制了总组合表的行时间。
请查看描述以查看数据预处理的更多资源,并下载代码以使用数据集尝试。
谢谢你。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。