Laboratório 2: Dados Relacionais com Polars

Author

Benilton S Carvalho

Objetivo

Dados relacionais são uma constante no exercício da profissão do estatístico. Esta estratégia permite uma representação mais efetiva de dados estruturados, oferecendo a possibilidade de análises computacionalmente mais eficientes.

Os Dados

O banco de dados para esta atividade é o “IMDb Movie Data”, que possui informações sobre filmes, atores, diretores, gêneros e outros. Para os arquivos indicados abaixo, considere que o símbolo \N representa valores faltantes. Observe com cuidado a extensão dos arquivos para uma indicação do formato do mesmo.

1. title.basics0.tsv.gz (Informações Básicas dos Filmes)

Coluna Descrição
tconst Identificador único do título (ex: tt1234567)
titleType Tipo do título (ex: movie, short, tvSeries)
primaryTitle Título principal
originalTitle Título original
isAdult Indica se é conteúdo adulto (0: não, 1: sim)
startYear Ano de lançamento/início
endYear Ano de término (para séries)
runtimeMinutes Duração em minutos
genres Gêneros separados por vírgula (ex: Action, Comedy)

2. title.ratings.tsv.gz (Avaliações dos Filmes)

Coluna Descrição
tconst Identificador único do título (ex: tt1234567)
averageRating Nota média dos usuários (escala de 1 a 10)
numVotes Número de votos recebidos

3. title.principals0.tsv.gz (Elenco e Equipe Técnica)

Coluna Descrição
tconst Identificador único do título (ex: tt1234567)
nconst Identificador único da pessoa (ex: nm1234567)
category Categoria de trabalho da pessoa (ex: actor, director)
job Função específica desempenhada (para não-atores)
characters Personagens interpretados (para atores)

Atividade

Utilizando apenas operações por meio da biblioteca polars, responda:

  1. Quais são os 5 filmes com as maiores notas (averageRating)? Apresente uma solução capaz de desempatar os filmes baseando-se no número de votos recebidos.
  2. Qual é o gênero mais frequente entre os filmes com nota maior que 8?
  3. Quais são os 3 atores/atrizes que mais participaram de filmes com nota maior que 7.5?