Skip to content

Latest commit

 

History

History
20 lines (11 loc) · 1.39 KB

README.md

File metadata and controls

20 lines (11 loc) · 1.39 KB

Unsupervised-Clustering

Este é o quarto problema da disciplina de machine learning - FGA-UNB

Objetivo

Este problema tem o objetivo atacar a area de Machine Learning não supervisionado. Mais especificamente Clusterização. Mais especificamente serão utilizados dados do tipo de Texto.

Os dados utilizados nesta interação da disciplina do grupo podem ser encontrados Aqui.

Referencial teorico

Clusterização

Clusterização consiste no agrupamento de dados em grupos semelhantes e significativos (Clusters), dessa forma capturando a estrutura natural dos dados apresentados. O objetivo natural da clusterização é que os grupos intra cluster sejam semelhantes entre si, e que os clusters sejam tenham diferenças significativas com relação aos outros clusters. Quanto maior for o grau de semelhança intra cluster e a diferença entre cluster, melhor é considerado o modelo montado.

A sobreposição de grupos é chamado de ruido. Dependendo da analise é necessário retirar as amostras que causam ruido. Caso os grupos estejam sobrepostos, é possível que a configuração dos parametros do algorítmo não esteja corretos ou o algoritmo utilizado não seja o recomendado.

Para mais informações acerca de clusterização acesse este artigo.