Laboratório 3: SQLite com Polars

Author

Benilton S Carvalho

Objetivo

Dados relacionais são uma constante no exercício da profissão do estatístico. Esta estratégia permite uma representação mais efetiva de dados estruturados, oferecendo a possibilidade de análises computacionalmente mais eficientes. Neste laboratório, trabalharemos com dados relacionais a partir de uma base de dados SQLite.

Os Dados

O banco de dados para esta atividade é o “IMDb Movie Data”, que possui informações sobre filmes, atores, diretores, gêneros e outros. Para os arquivos indicados abaixo, considere que o símbolo \N representa valores faltantes. Observe com cuidado a extensão dos arquivos para uma indicação do formato do mesmo.

1. title.basics0.tsv.gz (Informações Básicas dos Filmes)

Coluna Descrição
tconst Identificador único do título (ex: tt1234567)
titleType Tipo do título (ex: movie, short, tvSeries)
primaryTitle Título principal
originalTitle Título original
isAdult Indica se é conteúdo adulto (0: não, 1: sim)
startYear Ano de lançamento/início
endYear Ano de término (para séries)
runtimeMinutes Duração em minutos
genres Gêneros separados por vírgula (ex: Action, Comedy)

2. title.ratings.tsv.gz (Avaliações dos Filmes)

Coluna Descrição
tconst Identificador único do título (ex: tt1234567)
averageRating Nota média dos usuários (escala de 1 a 10)
numVotes Número de votos recebidos

3. title.principals0.tsv.gz (Elenco e Equipe Técnica)

Coluna Descrição
tconst Identificador único do título (ex: tt1234567)
nconst Identificador único da pessoa (ex: nm1234567)
category Categoria de trabalho da pessoa (ex: actor, director)
job Função específica desempenhada (para não-atores)
characters Personagens interpretados (para atores)

4. movies.sqlite3 (Banco de Dados em SQLite)

Atividade

  1. Crie um banco de dados SQLite utilizando os 3 arquivos acima. O banco de dados deve conter as seguintes tabelas: basics, ratings e principals
  2. (Utilizando SQL, responda): Quais são os 5 filmes com as maiores notas (averageRating)? Apresente uma solução capaz de desempatar os filmes baseando-se no número de votos recebidos.
  3. (Utilizando SQL, responda): Qual é o gênero mais frequente entre os filmes com nota maior que 8?
  4. (Utilizando SQL, responda): Quais são os 3 atores/atrizes que mais participaram de filmes com nota maior que 7.5?