지도학습

입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용, k-최근접 이웃이 지도 학습 알고리즘이다.

비지도 학습

타깃 데이터가 없어서 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는 데 주로 활용한다.

모델을 훈련할 때 사용하는 데이터이다. 보통 훈련 세트가 클수록 좋다. 따라서 테스트 세트를 제외한 모든 데이터를 사용한다.

전체 데이터에서 20~30%를 테스트 세트로 사용하는 경우가 많다. 전체 데이터가 아주 크다면 1%만 덜어내도 충분할 수 있다.

seed()는 넘파이에서 난수를 생성하기 위한 정수 초깃값을 지정한다. 초깃값이 같으면 동일한 난수를 뽑을 수 있다. 따라서 랜덤 함수의 결과를 동일하게 재현하고 싶을 때 사용한다.
arange()는 일정한 간격의 정수 또는 실수 배열을 만든다. 기본 간격은 1이고 매개변수가 하나이면 종료 숫자를 의미한다. 0에서 종료 숫자까지 배열을 만들고 종료 숫자는 배열에 포함되지 않는다.
shuffle()은 주어진 배열을 랜덤하게 섞는다. 다차원 배열일 경우 첫 번째 축(행)에 대해서만 섞는다.