Conjuntos de dados estruturados costumam ser divididos em múltiplas tabelas. A razão para isso é a minimização de duplicação de informação. Por este motivo, uma tarefa habitualmente realizada em manipulação de bases de dados é a combinação de dados de diferentes origens.
Ao fim deste laboratório, você deve ser capaz de combinar duas tabelas de dados, de forma que, na tabela resultante, sejam mantidos registros que existam:
Adicionalmente, você deve ser capaz de identificar registros que existam:
Considere novamente o problema de atrasos de vôos, disponível em https://www.kaggle.com/usdot/flight-delays. Nesta
atividade, além dos dados de flights.csv
, nós iremos
utilizar informações disponíveis nos arquivos airlines.csv
e airports.csv
.
Importe, utilizando o pacote readr
, cada um dos três
arquivos disponíveis. Os objetos resultantes devem ser chamados
flights
, airlines
e airports
.
IATA_CODE
, CITY
, STATE
,
LATITUDE
, LONGITUDE
;DESTINATION_AIRPORT
e
ARRIVAL_DELAY
;Selecione a operação apropriada join para incluir, na
tabela flights
, as colunas CITY
e
STATE
do objeto airports
. Para executar esta
tarefa:
flights
;airports
;flights
,
mas estão ausentes em airports
?flights
.Quantos aeroportos cada estado possui? Apresente uma tabela ordenada de forma decrescente (no número de aeroportos).
Apresente um mapa representando todos os atrasos observados por aeroporto.
leaflet
;leaflet
, addTiles
e
addMarkers
para a criação de um mapa básico;this
;this
(apenas se você estiver usando Jupyter):