본 프로젝트는 런던에 위치한 에어비앤비 숙소의 텍스트 리뷰를 사용해 긍정, 부정 감정을 분석하는 모델을 생성한다. 텍스트 리뷰는 자연어 처리 과정을 거치고 RNN, LSTM, CNN 및 다양한 Hyper parameter를 적절히 사용해 비교하며 예측 정확도가 가장 높은 모델을 생성하고자 한다.
statista의 통계에 따라 에어비앤비 도시 중 숙소가 가장 많은 도시는 London
- 다양한 언어의 리뷰 존재 => 영어 이외의 문자를 제거, 소문자 변환
- Vader 어휘사전을 이용해 긍정, 부정 매핑
- Nltk 라이브러리 => 어간 추출, 표제어 추출, 불용어 제거
- 단어 집합 생성 후 정수 인코딩 및 리뷰 데이터 길이 동일
- 첫 번째 모델
- 생성한 4개의 모델로 평가한 test 데이터 정확도는 큰 차이 없다.
- 정확도가 가장 높고, Loss가 가장 낮은 모델 : LSTM 단일 모델.
- 사용자가 느낀 감정을 텍스트로 전부 표현하기에는 어려움이 있음.