关于ggplot2数据格式与术语

ggplot2来说,数据的结构是一成不变的:它要求是“长”格式的数据框,而不是相反的“宽格式”。

当数据为长格式时,每行表示一个条目。其所属的分组不由它们在矩阵中的位置决定,而是在一个单独的列中指定。

术语

  • 数据是我们想要可视化的对象。它包含了若干变量,变量存储于数据框的每一列。
  • 几何对象是用以呈现数据的几何图形对象,如条形、线条和点。
  • 图形属性是几何对象的视觉属性,如x坐标和y坐标、线条颜色、点的形状等。
  • 数值的值和图形属性之间存在着某类映射。
  • 标度控制着数据空间的值到图形属性空间的值的映射。一个连续型的y标度会将较大的数值映射至空间中纵向更高的位置。
  • 引导元素向看图者展示了如何将视觉属性映射回数据空间。最常见的元素是坐标轴上的刻度线和标签(还有图例)。

以上摘自《ggplot图形可视化手册》

总结而言,我们大致懂得在数据图形中存在着一种从数据属性到视觉属性的映射(或者对应关系),ggplot提供了结构化的实现方案。数据通过各类结构元素实现这套映射:几何对象定其形,图形属性染其色,标度描其廓,引导传其值。而这些结构元素,本身就存在种种相互依赖和制约。

ggplot2入门与进阶(上)ggplot2入门与进阶(下)两篇博文是非常不错的参考和学习资料。

人该是自己生活的主宰,而不是别人手里的行货