Introdução
Web Scraping uma estratégia de mineração de dados, na qual ferramentas são utilizadas para acessar sítios eletrônicos, extrair informações de interesse e estruturá-las de maneira apropriada. Em R, um dos pacotes mais utilizados é o rvest
, construído em cima dos pacotes httr
e xml2
, permitindo acesso ao conteúdo de páginas web. Este acesso, entretanto, pode depender de customizações específicas, caso a página não siga uma estrutura fixa.
Atividade
- Visite o site Chance de Gol ( http://www.chancedegol.com.br ) e explore a tabela de jogos realizados;
- Proponha uma estrutura (de tabela em R) para acomodar os dados em questão:
- O placar como apresentado permite manipulação matemática?
- A data está em formato adequado para operações?
- As probabilidades de vitória estão em formato apropriado para manipulação matemática?
- Sabendo que os dados mantidos pelo site estão disponíveis a partir do ano de 2001, explore as informações disponíveis para:
- As tabelas estão em conformidade com aquela avaliada no Item 2?
- Todos os campos apresentam o mesmo formato?
- Que campos não apresentam a mesma estrutura?
- Crie funções que tornem os campos apresentados no Item 4. homogêneos entre os anos.
- Crie uma função que, utilizando o ano de entrada, crie uma tabela (classe
tibble
) contendo as informações disponibilizadas para todos os jogos do campeonato brasileiro realizados naquele ano.
- Crie uma base de dados consolidada, contendo todos os placares de jogos realizados em todos os Campeonatos Brasileiros realizados de 2001 a 2018.
- Crie uma função que, utilizando a base do Item 7., apresente os percentuais de vitória (ou empate) para jogos de quaisquer dois times dados como entrada pelo usuário. Por exemplo, se a entrada dada for “Flamengo” e “Vasco”, então a função deve retornar a seguinte tabela de resposta:
Empate |
10 |
0.36 |
Flamengo |
9 |
0.32 |
Vasco |
9 |
0.32 |
Dicas
Comandos do rvest
que podem ser empregados incluem:
read_html
html_nodes
html_table