R-网页爬虫：分析HTML代码

王诗翔 · 2018-09-17

分类: r
标签: r 爬虫

前一篇文章我们学习了选择器（CSS和XPath）。

我们可以从https://cran.rstudio.com/web/packages/available_packages_by_name.html这个网页上获取所有可用的R扩展包。网页看起来简单，想知道选择器的表达式，在页面右击，选择菜单中的审查元素选项（大部分浏览器都有），然后就会出现检查面板。我们可以看到网页底层的HTML代码。

HTML包含唯一的<table>，因此可以直接将CSS选择器设为table，再用html_table()提取表格并返回一个数据框：

library(rvest)
#> Loading required package: xml2
page = read_html("https://cran.rstudio.com/web/packages/available_packages_by_name.html")
pkg_table = page %>% 
    html_node("table") %>% 
    html_table(fill = TRUE)
head(pkg_table, 5)
#>         X1
#> 1         
#> 2       A3
#> 3    aaSEA
#> 4 AATtools
#> 5   ABACUS
#>                                                                         X2
#> 1                                                                     <NA>
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3                                  Amino Acid Substitution Effect Analyser
#> 4         Reliability and Scoring Routines for the Approach-Avoidance Task
#> 5    Apps Based Activities for Communicating and Understanding\nStatistics

这里原始表没有表头。结果数据框使用了默认表头，并且第一行是空的，下面代码解决这个问题：

pkg_table = pkg_table[complete.cases(pkg_table), ]
colnames(pkg_table) = c("name", "title")
head(pkg_table, 3)
#>       name
#> 2       A3
#> 3    aaSEA
#> 4 AATtools
#>                                                                      title
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3                                  Amino Acid Substitution Effect Analyser
#> 4         Reliability and Scoring Routines for the Approach-Avoidance Task

我开发的包在里面吗？随便看几个

pkg_table[pkg_table$name %in% c("UCSCXenaTools", "UCSCXenaShiny", "ezcox", "metawho"),]
#>                name
#> 4220          ezcox
#> 8121        metawho
#> 15365 UCSCXenaShiny
#> 15366 UCSCXenaTools
#>                                                                               title
#> 4220                                           Easily Process a Batch of Cox Models
#> 8121  Meta-Analytical Implementation to Identify Who Benefits Most\nfrom Treatments
#> 15365                                            A Shiny App for UCSC Xena Database
#> 15366                        Download and Explore Datasets from UCSC Xena Data Hubs