Introdução

Conjuntos de dados estruturados costumam ser divididos em múltiplas tabelas. A razão para isso é a minimização de duplicação de informação. Por este motivo, uma tarefa habitualmente realizada em manipulação de bases de dados é a combinação de dados de diferentes origens.

Objetivos

Ao fim deste laboratório, você deve ser capaz de combinar duas tabelas de dados, de forma que, na tabela resultante, sejam mantidos registros que existam:

Adicionalmente, você deve ser capaz de identificar registros que existam:

Carregue os pacotes relevantes para este Laboratório

Atrasos de vôos

Considere novamente o problema de atrasos de vôos, disponível em https://www.kaggle.com/usdot/flight-delays. Nesta atividade, além dos dados de flights.csv, nós iremos utilizar informações disponíveis nos arquivos airlines.csv e airports.csv.

  1. Importe, utilizando o pacote readr, cada um dos três arquivos disponíveis. Os objetos resultantes devem ser chamados flights, airlines e airports.

    • Para o arquivo de aeroportos, importe apenas as colunas IATA_CODE, CITY, STATE, LATITUDE, LONGITUDE;
    • Para o arquivo de vôos:
      1. Importe apenas as colunas DESTINATION_AIRPORT e ARRIVAL_DELAY;
      2. Leia apenas 1 milhão de linhas por vez;
      3. Remova vôos em que o aeroporto de destino comece com a letra 1;
      4. Remova registros em que existam pelo menos uma coluna faltante;
      5. Determine, para cada parte do arquivo, as estatísticas suficientes para a determinação do atraso médio por aeroporto de destino;
      6. Ao finalizar a leitura do arquivo, combine as estatísticas suficientes de modo a produzir a média de atraso por aeroporto.
  2. Selecione a operação apropriada join para incluir, na tabela flights, as colunas CITY e STATE do objeto airports. Para executar esta tarefa:

    1. Identifique a coluna que é a chave na tabela flights;
    2. Identifique a coluna que é a chave na tabela airports;
    3. Quais são os aeroportos que estão listados em flights, mas estão ausentes em airports?
    4. Apresente o comando que combine ambas as tabelas, indicando explicitamente as chaves;
    5. Armazene a tabela resultante no objeto flights.
  3. Quantos aeroportos cada estado possui? Apresente uma tabela ordenada de forma decrescente (no número de aeroportos).

  4. Apresente um mapa representando todos os atrasos observados por aeroporto.

    1. Carregue o pacote leaflet;
    2. Combine os comandos leaflet, addTiles e addMarkers para a criação de um mapa básico;
    3. Armazene o grafico em b) numa variável chamada this;
    4. Adicione as duas linhas abaixo após a criação da variável this (apenas se você estiver usando Jupyter):