《数据可视化基础》:多面板图形需要注意的问题

以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/

当我们的数据集包含很多种元素的时候,如果把这些信息都可视化到一张图上就会显示十分的凌乱。因此,为了更好的可视化这个庞大的数据集,我们可以创建一个分面的图形。这个图形包含多个面板,每一个图形面板上显示了数据的某一个子集。这类多面板图形的有两种不同的分类。

  1. 统一的多面板图形(small multiples)是在一个规则的网格当中排列了多个图形。每一个图形显示了数据的不同的子集,但是所有的图形可视化的内容是一样的(例如X,Y轴代表的变量是一样的)。

  2. 拼图:类似于文章当中的一个大的图片,图片当中包括了不同类型的图片。

1.多面板图形(small multiples)

多面板图形的关键思想是根据某一个数据集当中的一个或者多个变量将数据进行分割。然后分别可视化每个亚数据集。最后把可视化的图形放到一个网格当中。

这里我们使用泰坦尼克号乘客的数据集,当我们基于每个乘客旅行的分类(三个分类)以及乘客生存与否(两个分类)细分数据集,这样就得到了6个亚数据集。然后把这6个亚数据集当中的男女乘客人数来进行可视化。经过可视化,我们就得到👇这个图。下面这个图我们可以看到,我们将6个条形图排列在2*3的网格当中。每一个网格当中有一个亚数据集可视化的图形。《数据可视化基础》:多面板图形需要注意的问题

这种可视化为泰坦尼克号乘客的命运提供了一种直观和高度可解释的可视化。我们清楚地看到,大多数男人死了,大多数女人活了下来。此外,在死亡的女性中,几乎所有人都乘坐了三等舱。

多面板图形是一次可视化大量数据的强大工具。👇显示了一部电影在互联网电影数据库(IMDB)上的平均排名与该电影获得的投票数之间的关系,这分别是针对上映时间超过100年的电影。在下面的图形当中,数据集被年份进行了分割。这一可视化显示了平均排名和投票数之间的整体关系,例如投票越多的电影往往排名越高。然而,这一趋势的强弱因年而异,对于21世纪初上映的电影来说,二者之间并没有关系,甚至还存在负相关。《数据可视化基础》:多面板图形需要注意的问题

对于👆这样大的图,为了方便理解,每个面板使用的轴的范围和比例是很重要的。人们期望每一个亚图的坐标轴的比例是一样的。如果不一样,那就容易产生误解。例如👇这个,它显示了不同专业的学士学位随时间的变化。图片当中每个小图的Y轴基于自己的数据进行了调整。《数据可视化基础》:多面板图形需要注意的问题

然而,这样的调整容易产人误导。因为人们对于不同亚图的解读的时候。经常默认的是Y轴的单位是一样的。当然如果真的想要使用不同的坐标轴范围的话,最好在图片的标题当中让读者注意到这个问题。例如:添加一句:“注意:这个图的每个面板的Y周缩放不同”的话。

《数据可视化基础》:多面板图形需要注意的问题

最后需要注意的是,在排列各个面板小图的时候,按照一定的逻辑来进行排列是很重要的。这个对于读者对于图片的解读至关重要。

1.2 拼图

经常我们需要把多个单独的图形拼到一起来传达一个意思。例如,👇这个图分析了美国高等教育机构的学士学位转变趋势。a图显示了从1971年到2015年授予学位总数的增长,在这段时间内授予学位的数量大约翻了一番。b显示了5个最受欢迎的学位领域在同一时期授予学位的比例的变化。我们可以看到,从1971年到2015年,社会科学、历史和教育行业经历了大幅下降,而商业和卫生专业则出现了大幅增长。《数据可视化基础》:多面板图形需要注意的问题

请注意,与多面板图形示例不同的是,复合图形的各个面板是按字母顺序标记的。传统上用小写或大写的拉丁字母。因此可以使用标签来唯一地指定一个特定的面板。例如,当想谈论图21.5中显示授予学位比例变化的部分时,我可以参考图(b)。

同时,需要注意,拼图当中的标签最好还是匹配图片的设计。如果不匹配的话,就显得十分的违和。例如👇这个图。

《数据可视化基础》:多面板图形需要注意的问题

我们还需要各个图形的“视觉语言”最好统一。所谓视觉语言指的是我们用来显示数据的颜色、符号、字体等等。简而言之,保持语言的一致性意味着,相同的东西看起来是相同的,或者至少在实质上是相似的。

例如👇这个图,👇这个是一个可视化的关于男性和女性运动员的生理和身体组成数据集的拼图。a显示数据集中男性和女性的数量;b:显示男性和女性的红细胞和白细胞计数以及c显示了不同运动员的男性和女性的身体脂肪百分比。《数据可视化基础》:多面板图形需要注意的问题

上面的图就没有使用相同的可视化语言。首先a当中男女运动员使用了相同的蓝色,b当中的男性使用了相同的蓝色,同时c当中女性使用了相同的蓝色。此外,(b)和(c)引入了额外的颜色,但这些颜色在两个图之间是不同的。因此,如果男性和女性运动员一致使用相同的两种颜色,并将相同的配色方案应用到a中,情况会更好。第二,在(a)和(b)组中,女性在左边,男性在右边,但在(c)组中顺序颠倒了。因此(c)中的箱线图的顺序应该转换一下,以便它匹配(a)和(b)。

下面的图修复了所有这些问题。在这个图中,女性运动员一直用橙色表示,男性运动员的左边用蓝色表示。同时由于使用了相同的颜色标注。所以这三个图就可以使用一个图例来说明颜色的含义即可。《数据可视化基础》:多面板图形需要注意的问题

最后,我们需要注意拼图当中各个小图的对齐方式。各个小图的轴和其他图形元素都应该彼此对齐。下面的图相较于上面的图而言就对齐的就不是很好的。《数据可视化基础》:多面板图形需要注意的问题

生物医学科研方法

excel函数基础

2021-1-15 13:24:37

生物医学科研方法

《数据可视化基础》第一章:把数据放到图表上

2021-1-15 13:25:37