Introdução

Um conjunto de dados no formato tidy beneficia o analista de dados por permitir a manipulação dos mesmos de uma maneira unificada. De modo similar, métodos estatísticos são habitualmente implementados para receber dados neste formato. Desta maneira, a importação e tratamento de dados visando o referido formato reduzirá a criação de bancos de dados temporários, evitando problemas difíceis de diagnosticar.

Os conjuntos de dados apresentados correspondem ao número de casos de tuberculose observados em alguns países, juntamente com seus tamanhos populacionais.

Objetivos

Ao fim deste laboratório, você deverá ser capaz de:

Manipulação de Dados no Formato Tidy

  1. Carregue o pacote tidyverse

  2. Apresente os bancos de dados table1, table2, table3, table4a e table4b, distribuídos juntamente com o pacote tidyverse. Para cada banco de dados, descreva textualmente se ele está no formato tidy e justifique cada uma de suas respostas.

  3. Utilizando comandos do pacote dplyr, determine a taxa de ocorrência de tuberculose para cada 10.000 pessoas. Armazene o resultado em um objeto chamado taxas.

  4. Apresente, utilizando comandos do pacote dplyr, o número de casos de tuberculose por ano.

  5. Apresente, utilizando comandos do pacote dplyr, o número de casos de tuberculose identificados em cada país.

  6. Utilizando comandos do pacote dplyr, apresente uma tabela que descreva a mudança no número de casos, em cada país, ao longo dos anos de 1999 e 2000.

  7. Apresente um gráfico de linhas, preparado via ggplot2, apresentando a mudança na taxa de casos (por 10.000 habitantes) estratificado por país.

  8. Calcule a taxa para as tabelas table2 e table4a+table4b. Para isso, você precisará executar 4 passos:

    • Extrair o número de casos de tuberculose por país, por ano;
    • Extrair o tamanho da população correspondente, por ano;
    • Dividir o número de casos pelo tamanho da população e multiplicar o resultado por 10.000;
    • Armazenar o resultado numa variável apropriada;
  9. Refaça o gráfico da questão 7 para os dados apresentados em table2.

  10. Utilizando o comando pivot_longer, transforme table4a em um objeto no formato tidy. Armazene o resultado num objeto chamado tidy4a.

  11. Refaça o item 10 para o objeto table4b. Armazene o resultado num objeto chamado tidy4b.

  12. Combine os objetos tidy4a e tidy4b em um único objeto, utilizando o comando left_join. Apresente uma explicação textual sobre o que faz o referido comando.

  13. Use o comando pivot_wider para tranformar o objeto table2 em um objeto com formato tidy.

  14. Observe que a coluna rate do objeto table3 é um texto mostrando a fração que formaria a taxa de casos de tuberculose. Transforme o objeto table3 em um objeto com formato tidy separando a coluna 3 em duas outras colunas: cases e population, utilizando o comando separate. Utilize o argumento convert para transformar o resultado em um objeto numérico.