高阵可视化

可视化大型数据集需要对数据进行汇总、绑定或以某种方式采样,以减少绘制在屏幕上的点的数量。在某些情况下,函数如柱状图bin数据减少了大小,而其他功能如情节散射使用更复杂的方法,避免在屏幕上绘制重复的像素。对于像素重叠与分析相关的问题,则binscatter函数还提供了一种可视化密度模式的有效方法。

可视化高数组就可以做到需要使用收集。MATLAB®立即计算和显示高数组的可视化。目前,您可以使用这个表中的函数和方法来可视化高数组。

函数 需要工具箱 笔记
情节 - - - - - -

这些函数在迭代中绘图,当读取更多数据时逐步添加到绘图中。在更新期间,进度指示器显示已绘制的数据的比例。在更新过程中,在绘图完成之前,支持缩放和平移。万博1manbetx要停止更新过程,请按进度指示器中的pause按钮。

散射 - - - - - -
binscatter - - - - - -
柱状图 - - - - - -
histogram2 - - - - - -
- - - - - -

仅用于类别数据的可视化。

binScatterPlot 统计和机器学习工具箱™

图中包含一个控制图像亮度和颜色细节的滑块。滑块调整属性的值γ图像校正参数。

ksdensity 统计和机器学习工具箱

生成数据的概率密度估计值,单变量数据的估计值为100点,双变量数据的估计值为900点。

datasample 统计和机器学习工具箱

datasample使您能够提取一个子样本的高数组在统计上健全的方式相比,简单的索引。如果数据子集足够小,可以装入内存,那么可以在不直接支持高数组的子集上使用绘图和拟合函数。万博1manbetx

高阵列绘图示例

这个例子展示了几种不同的可视化高数组的方法。

为。创建数据存储airlinesmall.csv数据集,其中包含航空公司航班数据的行。选择要处理的表变量的一个子集,并删除包含丢失值的行。

ds = tabularTextDatastore (“airlinesmall.csv”,“TreatAsMissing”,“NA”);ds。SelectedVariableNames = {“年”,“月”,“ArrDelay”,“DepDelay”,“起源”,“桌子”};T =高(ds);T = rmmissing (T)
T = Mx6高表年月ArrDelay DepDelay起源Dest ___ _____说____ ____ 1987 10 8 12{“宽松”}{‘SJC} 1987年10 8 1 {‘SJC}{“钻”}1987年10 21 20{‘圣’}{SMF的}1987年10 13 12{“钻”}{‘SJC} 1987年10 4 1 {SMF的}{“宽松”}59 1987 63{“宽松”}{‘SJC} 1987年10 3 2{‘圣’}{“旧金山”}1987年10 11 1{‘海’}{“宽松”}::::::::::::

每月航班的饼状图

把数字变量转换为反映月份名称的分类变量。然后绘制一个饼图,显示一年中每个月的数据中有多少航班。

T。月=分类(T.Month 1:12, {“1月”,2月的,“3”,4月的,“可能”,“君”,“7”,“8月”,“9”,“10月”,11月的,12月的})
T = Mx6高表年月ArrDelay DepDelay起源Dest ___ _____说____ ____ 1987 10月8 12{“宽松”}{‘SJC} 1987年10月8日1 {‘SJC}{“钻”}1987年10月21日20{‘圣’}{SMF的}1987年10月13日12{“钻”}{‘SJC} 1987 10月4 1 {SMF的}{“宽松”}1987 10月59 63{“宽松”}{‘SJC} 1987 10月3 2{‘圣’}{“旧金山”}1987年10月11日1{‘海’}{“宽松”}::::::::::::
派(T.Month)
使用局部MATLAB会话对tall表达式进行求值:- 1 / 2:在1.2秒内完成- 2 / 2:在0.89秒内完成求值,在2.7秒内完成

延迟的柱状图

在数据中绘制每个航班到达延迟的直方图。由于数据有长尾,因此使用BinLimits名称-值对。

直方图(T.ArrDelay“BinLimits”150年[-50])
使用局部MATLAB会话计算tall表达式:- 1 / 2完成于2.1秒- 2 / 2完成于0.96秒计算完成于3.8秒

延迟散点图

一个到达和离开延迟的散点图。这些变量之间有很强的相关性,因为晚起飞的航班也可能会晚到。

操作高数组时,则情节,散射,binscatter函数在迭代中绘制数据,并在读取更多数据时逐步将数据添加到图中。在更新期间,图的顶部有一个进度指示器,显示已经绘制了多少数据。在情节完成之前的更新过程中支持缩放和平移。万博1manbetx

散射(T.ArrDelay T.DepDelay)包含(“延误”)ylabel (离职的延迟) xlim([-140 1000]) ylim([-140 1000])

进度条还包括一个暂停/恢复按钮。在显示足够的数据后,使用该按钮尽早停止情节更新。

健康趋势线

使用polyfitpolyval函数在到达和离开延迟图上叠加一条线性趋势线。

持有p = polyfit (T.ArrDelay T.DepDelay 1);x = (T.ArrDelay, 1);yp = polyval (p (x);情节(x, yp,的r -)举行

可视化密度

点的散点图在一定程度上是有帮助的,但如果点之间有大量重叠,则很难从图中破译信息。在这种情况下,它有助于可视化图中点的密度以发现趋势。

使用binscatter函数的作用是在到达和离开延迟图中可视化点的密度。

binscatter (T.ArrDelay T.DepDelay,“XLimits”(-100 1000),“YLimits”,[-100 1000]) xlabel([-100 1000]) xlabel([-100 1000])“延误”)ylabel (离职的延迟)

调整这一属性,使所有大于150的bin值都具有相同的颜色。这阻止了一些具有非常大的值的箱子控制整个小区。

甘氨胆酸ax =;斧子。CLim = [0 150];

另请参阅

||

相关的话题