Skip to content

Latest commit

 

History

History
24 lines (20 loc) · 1.32 KB

6-2_k-평균_김정원.md

File metadata and controls

24 lines (20 loc) · 1.32 KB

6-2 k-평균

k-평균 알고리즘 소개

작동 방식

  1. 무작위로 k개의 클러스터 중심 선정
  2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아, 해당 클러스터의 샘플로 지정
  3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심 변경
  4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복

KMeans 클래스

  • sklearn.cluster 모듈 아래 Kmeans 클래스 구현되어 있음
  • n_clusters : 클러스터 개수를 지정하는 매개변수

불리언 인덱싱boolean indexing

  • 불리언 배열을 사용해 원소를 선택

최적의 k 찾기

엘보우 방법

  • 클러스터 개수를 늘려가면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법.
  • 클러스터 개수를 증가시키면서 이너셔를 그래프로 그리면 감소하는 속도가 꺾이는 지점이 있음
    • 이 지점부터는 클러스터 개수를 늘려도 클러스터에 밀집된 정도는 크게 개선되지 않음 (이너셔가 크게 줄지 않음)

이너셔

  • 클러스터에 속한 샘플이 얼마나 가깝게 모여 있는지를 나타내는 값
  • 일반적으로 클러스터 개수가 늘어나면 클러스터 개개의 크기는 줄어들기 때문에, 이너셔도 줄어듦