- 무작위로 k개의 클러스터 중심 선정
- 각 샘플에서 가장 가까운 클러스터 중심을 찾아, 해당 클러스터의 샘플로 지정
- 클러스터에 속한 샘플의 평균값으로 클러스터 중심 변경
- 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복
sklearn.cluster
모듈 아래Kmeans
클래스 구현되어 있음n_clusters
: 클러스터 개수를 지정하는 매개변수
- 불리언 배열을 사용해 원소를 선택
- 클러스터 개수를 늘려가면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법.
- 클러스터 개수를 증가시키면서 이너셔를 그래프로 그리면 감소하는 속도가 꺾이는 지점이 있음
- 이 지점부터는 클러스터 개수를 늘려도 클러스터에 밀집된 정도는 크게 개선되지 않음 (이너셔가 크게 줄지 않음)
- 클러스터에 속한 샘플이 얼마나 가깝게 모여 있는지를 나타내는 값
- 일반적으로 클러스터 개수가 늘어나면 클러스터 개개의 크기는 줄어들기 때문에, 이너셔도 줄어듦