입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용, k-최근접 이웃이 지도 학습 알고리즘이다.
타깃 데이터가 없어서 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는 데 주로 활용한다.
모델을 훈련할 때 사용하는 데이터이다. 보통 훈련 세트가 클수록 좋다. 따라서 테스트 세트를 제외한 모든 데이터를 사용한다.
전체 데이터에서 20~30%를 테스트 세트로 사용하는 경우가 많다. 전체 데이터가 아주 크다면 1%만 덜어내도 충분할 수 있다.
- seed()는 넘파이에서 난수를 생성하기 위한 정수 초깃값을 지정한다. 초깃값이 같으면 동일한 난수를 뽑을 수 있다. 따라서 랜덤 함수의 결과를 동일하게 재현하고 싶을 때 사용한다.
- arange()는 일정한 간격의 정수 또는 실수 배열을 만든다. 기본 간격은 1이고 매개변수가 하나이면 종료 숫자를 의미한다. 0에서 종료 숫자까지 배열을 만들고 종료 숫자는 배열에 포함되지 않는다.
- shuffle()은 주어진 배열을 랜덤하게 섞는다. 다차원 배열일 경우 첫 번째 축(행)에 대해서만 섞는다.
구글 코랩에 실습한 링크 https://colab.research.google.com/drive/1Q7mw6sWxXbqeXbCxtfQ7eXqE6F12g58w?usp=sharing