极客R:数据分析之道
上次修改 2020-06-28
前言
这是一本 R 语言入门的教程书。它旨在为生物信息学相关方向的研究人员(包括学生)以及相关从业者提供 R 语言基础知识的学习指导。当然,由于本书内容的普适性,我相信对数据科学感兴趣的读者都能够从阅读中受益。如果读者已经掌握了一些 R 的编程知识,可以翻看目录挑选感兴趣的内容阅读;如果读者已经掌握的 R 编程基础知识,我推荐翻看本书的附录部分查找感兴趣的内容进一步深入学习。
R 语言与知名的 C、Python 这类通用编程语言相比,它是一门领域特定语言(domain-specific language、DSL),专注于数据科学领域。由于 Python 的普及以及它在商业、科研分析中的流行,R 语言常常被用来与 Python 作比较。我在此无意做这样的比较,就我的个人使用经验来看,两者都有其独特和独到之处。作为一名数据科学家,我们常常需要掌握多门编程语言作为工具进行工作,其中主要包括 R、Python 和 Shell。R 和 Python 都是作为主要的数据探索、分析和可视化工具,读者任选其一熟练掌握即可。初学者同时学习 R 和 Python 是不可取,因为不同的编程语言都有相似的数据结构和运算控制逻辑,所以深度掌握一门语言能够更好地工作和更快地学习其他编程语言。另外,初学者往往困惑于 R 和 Python 两种语言中哪种更值得学习。就我的个人观点看,对于生物信息学方向的大部分读者,R 是更好的选择,有以下一些理由:
- R 语言对于没有编程经验的读者更加友好,内置向量化运算机制和默认统计分析包可以快速开始分析和获取结果。
- 由于 Bioconductor 项目库和 CRAN 库中保存了上千个生物信息学软件包,涉及生物信息学领域的各个方面,读者在实际的研究工作中很难完全离开 R 语言环境。
- tidyverse 系列工具包的强力驱动让 R 在数据分析各个方面工作都非常强力。
内容简介
当前已经有不少 R 语言和数据分析相关的教程和书籍,本书无力像它们一样详尽地介绍 R 众多方面的内容,而是聚焦于指导读者学习和理解数据分析的核心要点,并能快速应用到自己实际的工作中。本书的创作哲学是结合必备基础知识的简要介绍与实际问题的讨论与方案。本书的核心内容包括 R 的基础语法和一系列数据分析编程知识,后者将根据 Hadley 在《R for Data Science》提供的数据分析流程概览图 0.1 中指出的核心要点分别按章节进行介绍。最后,我们将通过一些 R 包学习 R 在生物信息学方向的应用。
本书的章节概要如下:
建议与反馈
这是我第一次编写比较系统的 R 语言教程,由于个人能力有限,难免存在错误和不当,恳请读者批评指正。目前我在业余时间对本书内容进行积极的开发,如果读者有任何建议,欢迎到 GitHub 仓库 Issue 中进行讨论。
致谢
非常感谢谁谁以及谁谁对我的帮助。
王诗翔
于 上海