6-2 k-평균

k-평균 알고리즘 소개

작동 방식

무작위로 k개의 클러스터 중심 선정
각 샘플에서 가장 가까운 클러스터 중심을 찾아, 해당 클러스터의 샘플로 지정
클러스터에 속한 샘플의 평균값으로 클러스터 중심 변경
클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복

KMeans 클래스

sklearn.cluster 모듈 아래 Kmeans 클래스 구현되어 있음
n_clusters : 클러스터 개수를 지정하는 매개변수

불리언 인덱싱^{boolean indexing}

불리언 배열을 사용해 원소를 선택

최적의 k 찾기

엘보우 방법

클러스터 개수를 늘려가면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법.
클러스터 개수를 증가시키면서 이너셔를 그래프로 그리면 감소하는 속도가 꺾이는 지점이 있음
- 이 지점부터는 클러스터 개수를 늘려도 클러스터에 밀집된 정도는 크게 개선되지 않음 (이너셔가 크게 줄지 않음)

이너셔

클러스터에 속한 샘플이 얼마나 가깝게 모여 있는지를 나타내는 값
일반적으로 클러스터 개수가 늘어나면 클러스터 개개의 크기는 줄어들기 때문에, 이너셔도 줄어듦