【Udacity】4,1,2,为什么使用数据可视化

安斯库姆四重奏

我们为何要使用数据可视化?当我们直接看到数据(而不是当做一组数据放到表格中)时,我们更容易看出数据之间的关系。下面这组数据叫做安斯库姆四重奏:

I (x) I (y) II (x) II (y) III (x) III (y) IV (x) IV (y)
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
这里有四组类似的数据集。一切看起来正常,只是一组数字。从 I 到 IV 的每个数据集都具有相同的统计特征:

属性 值
每组 x 的均值 9(精确值)
每组 x 的样本方差 11(精确值)
每组 y 的均值 7.5 (精确到小数点后两位)
每组 y 的样本方差 4.122 或 4.127(精确到小数点后三位)
每组 x 和 y 之间的关系 0.816 (精确到小数点后三位)
每组的线性递归直线 3.00 + 0.500*x(分别精确到小数点后两位和三位)
线性递归的拟合优度测量结果(例如 R^2)也相同。只看数据的话,根本发现不了什么奇怪的地方, 但是对于 IV 组,除了一个地方之外,所有其他的 x 都相同。我们看看可视化之后的效果吧:
【Udacity】4,1,2,为什么使用数据可视化

安斯库姆四重奏可视化图表 (https://commons.wikimedia.org/w/index.php?curid=9838454)

将这些数据绘制成图表后,我们可以清晰地看到每组数据非常不同。不仅数据集不同,而且第 II、III 和 IV 组的线性趋势明显不对,虽然所有的统计信息似乎没问题。这就是可视化具有的作用,它们可以展示出仅通过查看数据本身无法看出的关系。