O desenvolvimento deste trabalho baseia-se no procedimento KDD (Knowledge Discovery in Databases), Descoberta de Conhecimento em Bases de Dados, aplicado numa base de dados disponibilizada pelo Kaggle. Foi realizada uma revisão bibliográfica dos conceitos e etapas que norteiam o procedimento KDD. Posteriormente, realizou-se um estudo dos possíveis modelos de Machine Learning que poderiam ser utilizados dentro do contexto da base de dados analisada. Dentre os modelos preditivos existentes, foram escolhidos os que apresentaram melhores resultados: Decision Tree (DT), Linear Regression (LR), K-Nearest Neighbor (KNN) e Random Forest (RF). Utilizou-se como métrica principal de comparação de resultados o R². O modelo DT obteve R² de 0.96, o de LR obteve um R² de 0.90, o KNN obteve um R² de 0.96 e o modelo baseado no algoritmo RF obteve o melhor R² no valor de 0.98 (98%).
- Atividade com Diamond Dataset utilizando Machine Learning do MBA de Inteligência Artificial e Machine Learning do Centro Universitário Salesiano de São Paulo (Unisal).
- Acesso: lab_python -> Jupyter Lab -> Binder -> .gke -> https://github.com/thedatasociety