Este projeto foi desenvolvido com o objetivo de responder à pergunta Qual será a classificação de nota (GradeClass) de um aluno novo, dado seu perfil (por exemplo, idade, tempo de estudo semanal, faltas, etc.)? Utilizando um modelo de classificação. Os dados foram retirados da plataforma Kaggle, um repositório popular de datasets para análise de dados e aprendizado de máquina.
A pergunta que buscamos responder neste projeto é: Qual será a classificação de nota (GradeClass) de um aluno novo, dado seu perfil (por exemplo, idade, tempo de estudo semanal, faltas, etc.)?
Os dados foram obtidos da plataforma Kaggle, a partir do dataset Students Performance Dataset. O dataset inclui contém informações abrangentes sobre 2.392 estudantes do ensino médio, detalhando seus dados demográficos, hábitos de estudo, envolvimento dos pais, atividades extracurriculares e desempenho acadêmico. Possui 2392 linhas, 17 colunas e algumas variaveis como: idade, Genero, etinia, eduação parental, habitos de estudo entro outros.
- Limpeza dos dados, incluindo tratamento de valores ausentes e inconsistências.
- Transformação de variáveis categóricas em variáveis numéricas (codificação).
- Normalização/Padronização dos dados para otimizar o desempenho do modelo de classificação.
- Visualização dos dados para identificar padrões, tendências e possíveis outliers.
- Estatísticas descritivas para entender melhor a distribuição das variáveis.
- Seleção do modelo de classificação adequado (Árvore de Decisão, K-Nearest Neighbours e Naïve Bayes).
- Divisão dos dados em conjuntos de treinamento e teste.
- Treinamento do modelo utilizando o conjunto de treinamento.
- Avaliação do desempenho do modelo utilizando a métrica de Acurácia.
- Implementação do modelo de classificação para prever GradeClass que é a variavel para classificar os estudantes.
- Interpretação dos resultados e resposta à pergunta de pesquisa.
- O modelo de classificação atingiu uma acurácia de 94% no conjunto de teste.
- Observando a acurácia é possivel perceber que a proporção de previsões corretas feitas pelo modelo em relação ao total de previsões foi de quase 100%.
- Ao inserir novos dados de novos alunos podemos concluir que o modelo será capaz de prever a classificação de alunos em grupos com 94% de acerto.
Para melhorar ainda mais este projeto, futuras análises podem incluir:
- Outras métrica como precisão, Precisão, Recall, F1-Score, entre outras.