Introdução

Web Scraping uma estratégia de mineração de dados, na qual ferramentas são utilizadas para acessar sítios eletrônicos, extrair informações de interesse e estruturá-las de maneira apropriada. Em R, um dos pacotes mais utilizados é o rvest, construído em cima dos pacotes httr e xml2, permitindo acesso ao conteúdo de páginas web. Este acesso, entretanto, pode depender de customizações específicas, caso a página não siga uma estrutura fixa.

Atividade

  1. Visite o site Chance de Gol ( http://www.chancedegol.com.br ) e explore a tabela de jogos realizados;
  2. Proponha uma estrutura (de tabela em R) para acomodar os dados em questão:
  1. Sabendo que os dados mantidos pelo site estão disponíveis a partir do ano de 2001, explore as informações disponíveis para:
  1. As tabelas estão em conformidade com aquela avaliada no Item 2?
  1. Crie funções que tornem os campos apresentados no Item 4. homogêneos entre os anos.
  2. Crie uma função que, utilizando o ano de entrada, crie uma tabela (classe tibble) contendo as informações disponibilizadas para todos os jogos do campeonato brasileiro realizados naquele ano.
  3. Crie uma base de dados consolidada, contendo todos os placares de jogos realizados em todos os Campeonatos Brasileiros realizados de 2001 a 2018.
  4. Crie uma função que, utilizando a base do Item 7., apresente os percentuais de vitória (ou empate) para jogos de quaisquer dois times dados como entrada pelo usuário. Por exemplo, se a entrada dada for “Flamengo” e “Vasco”, então a função deve retornar a seguinte tabela de resposta:
n prop
Empate 10 0.36
Flamengo 9 0.32
Vasco 9 0.32

Dicas

Comandos do rvest que podem ser empregados incluem: