Objetivo
Dados relacionais são uma constante no exercício da profissão do estatístico. Esta estratégia permite uma representação mais efetiva de dados estruturados, oferecendo a possibilidade de análises computacionalmente mais eficientes. Neste laboratório, trabalharemos com dados relacionais a partir de uma base de dados SQLite.
Os Dados
O banco de dados para esta atividade é o “IMDb Movie Data”, que possui informações sobre filmes, atores, diretores, gêneros e outros. Para os arquivos indicados abaixo, considere que o símbolo \N
representa valores faltantes. Observe com cuidado a extensão dos arquivos para uma indicação do formato do mesmo.
2. title.ratings.tsv.gz
(Avaliações dos Filmes)
tconst |
Identificador único do título (ex: tt1234567) |
averageRating |
Nota média dos usuários (escala de 1 a 10) |
numVotes |
Número de votos recebidos |
3. title.principals0.tsv.gz
(Elenco e Equipe Técnica)
tconst |
Identificador único do título (ex: tt1234567) |
nconst |
Identificador único da pessoa (ex: nm1234567) |
category |
Categoria de trabalho da pessoa (ex: actor, director) |
job |
Função específica desempenhada (para não-atores) |
characters |
Personagens interpretados (para atores) |
4. movies.sqlite3
(Banco de Dados em SQLite)
Atividade
- Crie um banco de dados SQLite utilizando os 3 arquivos acima. O banco de dados deve conter as seguintes tabelas:
basics
, ratings
e principals
- (Utilizando SQL, responda): Quais são os 5 filmes com as maiores notas (
averageRating
)? Apresente uma solução capaz de desempatar os filmes baseando-se no número de votos recebidos.
- (Utilizando SQL, responda): Qual é o gênero mais frequente entre os filmes com nota maior que 8?
- (Utilizando SQL, responda): Quais são os 3 atores/atrizes que mais participaram de filmes com nota maior que 7.5?