高数组的可视化
可视化大型数据集需要以某种方式对数据进行汇总、分组或采样,以减少在屏幕上绘制的点的数量。在某些情况下,函数如柱状图
而且派
Bin的数据大小减小,而其他功能如情节
而且散射
使用更复杂的方法避免在屏幕上绘制重复像素。对于与分析相关的像素重叠问题,使用binscatter
函数还提供了一种可视化密度模式的有效方法。
可视化高数组可以不要求使用收集
.MATLAB®立即计算并显示高数组的可视化。目前,您可以使用该表中的函数和方法来可视化高数组。
函数 | 需要工具箱 | 笔记 |
---|---|---|
情节 |
- - - - - - | 这些函数在迭代中绘制图形,随着读取的数据的增加,逐步添加到图形中。在更新期间,进度指示器显示已绘制的数据的比例。在更新过程中,在情节完成之前,支持缩放和平移。万博1manbetx要停止更新过程,请按进度指示灯中的暂停按钮。 |
散射 |
- - - - - - | |
binscatter |
- - - - - - | |
柱状图 |
- - - - - - | |
histogram2 |
- - - - - - | |
派 |
- - - - - - | 仅用于可视化分类数据。 |
binScatterPlot (统计和机器学习工具箱) |
统计和机器学习工具箱™ | 图中包含一个滑块,用于控制图像中的亮度和颜色细节。的值 |
ksdensity (统计和机器学习工具箱) |
统计和机器学习工具箱 | 生成数据的概率密度估计,对单变量数据按100点进行评估,对双变量数据按900点进行评估。 |
datasample (统计和机器学习工具箱) |
统计和机器学习工具箱 |
|
高阵列绘图示例
这个例子展示了可视化高数组的几种不同方法。
对象的数据存储airlinesmall.csv
数据集,其中包含行航空公司航班数据。选择要使用的表变量的一个子集,并删除包含缺失值的行。
ds = tabularTextDatastore(“airlinesmall.csv”,“TreatAsMissing”,“NA”);ds。SelectedVariableNames = {“年”,“月”,“ArrDelay”,“DepDelay”,“起源”,“桌子”};T =高(ds);T = rmmissing(T)
T = Mx6高表年月ArrDelay DepDelay起源服务台 ____ _____ ________ ________ _______ _______ 1987年10 8 12{“宽松”}{‘SJC} 1987年10 8 1{‘SJC}{“钻”}1987年10 21 20{‘圣’}{SMF的}1987年10 13 12{“钻”}{‘SJC} 1987年10 4 1 {SMF的}{“宽松”}59 1987 63{“宽松”}{‘SJC} 1987年10 3 2{‘圣’}{“旧金山”}1987年10 11 1{‘海’}{松懈 '} : : : : : : : : : : : :
航班按月饼图
转换数字月
变量转换为反映月份名称的类别变量。然后绘制一个饼图,显示每年每个月的数据中有多少航班。
月=绝对的。月,1:12,{“1月”,2月的,“3”,4月的,“可能”,“君”,“7”,“8月”,“9”,“10月”,11月的,12月的})
T = Mx6高表年月ArrDelay DepDelay起源服务台 ____ _____ ________ ________ _______ _______ 1987 10月8 12{“宽松”}{‘SJC} 1987 10月8 1{‘SJC}{“钻”}1987年10月21日20{‘圣’}{SMF的}1987年10月13日12{“钻”}{‘SJC} 1987 10月4 1 {SMF的}{“宽松”}1987 10月59 63{“宽松”}{‘SJC} 1987 10月3 2{‘圣’}{“旧金山”}1987年10月11日1{‘海’}{松懈 '} : : : : : : : : : : : :
派(T.Month)
使用本地MATLAB会话计算高表达式:-通过1 / 2:在1.4秒内完成-通过2:在0.85秒内完成计算在2.8秒内完成
延误直方图
绘制数据中每个航班到达延误的直方图。方法限制绘图区域,因为数据具有长尾BinLimits
名称-值对。
直方图(T。ArrDelay,“BinLimits”150年[-50])
使用本地MATLAB会话计算高表达式:-通过2:在2.7秒内完成-通过2:在0.88秒内完成计算在4.3秒内完成
延误散点图
绘制一个到达和起飞延误的散点图。你可以预期这些变量之间有很强的相关性,因为晚点起飞的航班也可能晚点到达。
在高数组上操作时,情节
,散射
,binscatter
函数以迭代的方式绘制数据,随着读取数据的增加,逐步向图中添加数据。在更新过程中,图的顶部有一个进度指示器,显示绘制了多少数据。在剧情完成之前的更新过程中支持缩放和平移。万博1manbetx
散射(T.ArrDelay T.DepDelay)包含(“延误”) ylabel (离职的延迟) xlim([-140 1000])
进度条还包括一个暂停/恢复按钮。一旦显示了足够的数据,使用该按钮可以提前停止绘图更新。
拟合趋势线
使用polyfit
而且polyval
函数用于在到达和出发延误的图形上覆盖线性趋势线。
持有在p = polyfit(T.ArrDelay,T.DepDelay,1);x = sort(T.ArrDelay,1);Yp = polyval(p,x);情节(x, yp,的r -)举行从
可视化密度
点的散点图在一定程度上是有用的,但如果点大量重叠,则很难从散点图中解读信息。在这种情况下,它有助于可视化图中点的密度,以发现趋势。
使用binscatter
函数来可视化到达点和出发点的密度。
binscatter (T.ArrDelay T.DepDelay,“XLimits”(-100 1000),“YLimits”,[-100 1000]) xlim([-100 1000]) ylim([-100 1000]) xlabel(“延误”) ylabel (离职的延迟)
调整这一
属性,以便所有大于150的bin值都具有相同的颜色。这就防止了一些数值非常大的箱子主导整个情节。
Ax = gca;斧子。CLim = [0 150];