第 4 章 数据清洗

数据的清洗是数据分析最核心的技能,读者需要长时间的学习和实战方能掌握。复杂的操作往往由基础的操作堆砌组合而成,本章的重点就是帮助读者快速学习和掌握数据清理最核心的操作单元。我将逐步讲解如何处理向量、单个数据集、两个数据集和多个数据集最基础且实用的数据操作方式,其他相关的内容将放到本章【常见问题与方案】一节作为补充介绍。。

R 丰富的特性支持以多种方式完成相同的操作,对于大部分的操作,我将介绍 3 种不同的解决方案:

  1. tidyverse 方式。
  2. R 内置操作方式。
  3. data.table 方式。

读者可以根据自己的需求选择性的学习,也可以进行全面的了解和学习。tidyverse 方式目前已经成为 R 处理数据的主流方案,我推荐读者重点掌握。注意,读者切勿画地为牢,数据分析重在解决,而不在于手段,实际处理数据时应当灵活使用可以运用的工具方法,上述 3 种方式有时也可以有机地组合运用,并非相互排斥。

4.1 向量

4.2 单个数据集

4.2.1 选择列

4.2.2 过滤行

4.2.3 新增列

4.2.4 聚合运算

4.2.5 分组计算

4.2.6 缺失值填充

4.3 两个数据集

4.4 多个数据集

4.5 常见问题与方案

除了本节目前罗列的问题,读者在学习本章内容时遇到的其他问题都可以通过 GitHub Issue 提出和进行讨论。如果读者提出的是通性问题,将增补到该节。