可视化大型数据集需要以某种方式对数据进行汇总、分类或抽样,以减少在屏幕上绘制的点的数量。在某些情况下,函数如柱状图
和派
箱为减少尺寸的数据,而其他功能如阴谋
和散射
使用更复杂的方法,避免在屏幕上绘制重复像素。对于像素重叠与分析相关的问题,Binscatter.
函数还提供了一种可视化密度模式的有效方法。
可视化高阵列不是需要使用收集
。马铃薯®立即评估和显示高阵列的可视化。目前,您可以使用此表中的函数和方法可视化高阵列。
函数 | 必需的工具箱 | 笔记 |
---|---|---|
阴谋 |
- | 这些功能在迭代中绘图,随着读取更多数据逐渐添加到曲线。在更新期间,进度指示符显示绘制的数据的比例。在更新过程中支持缩放和平移,在绘图完成之前。万博1manbetx要停止更新过程,请按进度指示符中的暂停按钮。 |
散射 |
- | |
Binscatter. |
- | |
柱状图 |
- | |
直方图2 |
- | |
派 |
- | 仅用于类别数据的可视化。 |
binScatterPlot (统计和机器学习工具箱) |
统计和机器学习工具箱™ | 图包含一个滑块,用于控制图像中的亮度和颜色细节。滑块调整值的值 |
ksdensity (统计和机器学习工具箱) |
统计和机器学习工具箱 | 生成数据的概率密度估计,在单变量数据的100点处评估,或者为二元数据的900分。 |
datasample. (统计和机器学习工具箱) |
统计和机器学习工具箱 |
|
此示例显示了几种不同的方式,即可显示高阵列。
创建一个数据存储airlinesmall.csv
数据集,其中包含航空公司飞行数据的行。选择表变量的子集进行工作,并删除包含缺失值的行。
ds = tabulartextdataStore('airlinesmall.csv'那'尾声'那“NA”);ds。SelectedVariableNames = {'年'那'月'那“ArrDelay”那'depdelay'那'起源'那“桌子”};t =高(DS);t = rmmissing(t)
T = MX6高表年份Arrdelay Depdelay Origin ext________________________________________________________________ 1987 10 8 12 {'lax'} {'sjc'} 1987 10 8 1'san'} {'smf'} 1987 10 13 12 {'bur'} {'sjc'} 1987 10 4 -1 {'smf'} {'lax'} 1987 10 59 63 {'lax'} {sjc'} 1987 10 3 -2 {'san'} 1987 10 11 -1 {'sea'} :::::::::::::::::::::
按月飞行的饼图
转换数字月
变量转换为反映月份名称的分类变量。然后绘制一个饼图,显示每年有多少航班的航班。
T.Month =分类(T.Month,1:12,{“1月”那2月的那'Mar'那4月的那'可能'那'君'那'七月'那'八月'那'九月'那“10月”那'11月'那12月的})
T = Mx6高表年月ArrDelay DepDelay起源服务台 ____ _____ ________ ________ _______ _______ 1987 10月8 12{“宽松”}{‘SJC} 1987 10月8 1{‘SJC}{“钻”}1987年10月21日20{‘圣’}{SMF的}1987年10月13日12{“钻”}{‘SJC} 1987 10月4 1 {SMF的}{“宽松”}1987 10月59 63{“宽松”}{‘SJC} 1987 10月3 2{‘圣’}{“旧金山”}1987年10月11日1{‘海’}{“宽松”}:: : : : : : : : : : :
饼(t.month)
using the Local MATLAB Session: - Pass 1 of 2: Completed in 1.5 sec - Pass 2 of 2: Completed in 1.4 sec
延迟的直方图
绘制数据的到达延迟的直方图。由于数据具有长尾,因此使用该数据的限制绘图区域滨藏
名称值对。
直方图(T.Arrdelay,“BinLimits”,[ - 50 150])
using the Local MATLAB Session: - Pass 1 of 2: Completed in 2.5 sec - Pass 2 of 2: Completed in 1.3 sec
延迟散点图
绘制抵达和离开延误的散点图。您可以期待这些变量之间的强烈相关性,因为迟到的航班也可能迟到。
在高阵列上运行时,阴谋
那散射
,Binscatter.
函数以迭代的方式绘制数据,随着读取更多数据而逐步添加到绘图中。在更新过程中,图的顶部有一个进度指示器,显示绘制了多少数据。在情节完成之前的更新过程中,支持缩放和平移。万博1manbetx
散射(T.ArrDelay T.DepDelay)包含(“延误”) ylabel ('离开延迟') xlim([-140 1000])
进度条还包括一个暂停/简历按钮。一旦显示足够多的数据,使用该按钮可以尽早停止情节更新。
适合趋势线
使用Polyfit.
和polyval
在抵达和出发延迟的情节上叠加线性趋势线的功能。
抓住在p = polyfit (T.ArrDelay T.DepDelay 1);x = (T.ArrDelay, 1);yp = polyval (p (x);情节(x, yp,'r-')举行从
可视化密度
点的散点图在某一点上是有用的,但如果点的重叠很广泛,就很难从图中解读信息。在这种情况下,它有助于可视化图中的点密度,以发现趋势。
使用Binscatter.
函数可视化到达和出发延误图中的点密度。
binscatter(t.arrdelay,t.depdelay,'xlimits',[ - 100 1000],'ylimits',[-100 1000]) xlim([-100 1000]) xlabel(“延误”) ylabel ('离开延迟')
调整这一
属性,以便所有大于150的bin值都是相同的颜色。这可以防止一些值非常大的箱子占据整个情节。
甘氨胆酸ax =;斧子。[0 150];