- '23-1학기 데이터마이닝 과제
-
Personal Loan Classification Problem
-
은행 대출 잠재 고객을 파악하는 분류모델 개발
-
잠재 고객 파악에 중요 변수 파악 ・ 인사이트 도출
-
Bank Personal Loan Modeling
-
https://www.kaggle.com/datasets/krantiswalke/bank-personal-loan-modelling
-
은행 대출 마케팅을 실행한 고객 정보 및 해당 고객 대출 실행 여부
데이터 전처리
도메인 조사 : 총부채↑(현재 데이터로 파악 불가) / 연카드소비액↑ : 대출 가능성↑
EDA : 연 소득↑ / 연 카드소비↑ / 모기지론↑ /가족 수↑ / CD계좌 보유 / 석사이상 : 대출가능성↑
Decision Tree Rule : (중요변수) 연소득↑ / 석사이상 : 대출가능성↑
트리 기반 모델 : 연 소득 / 연 카드소비 / 가족 수 / CD계좌 보유 / 교육수준 : 대출에 중요 (*단, 양의 관계 추측)
로지스틱 회귀 : 연소득 ↑ / CD계좌 보유 / 석사이상 : 대출 가능성↑ (*단, 모델 적합도가 낮은 한계)
-
도메인 조사 · EDA · DT 기반 분석과 모델 분석 기반 중요 변수가 동일하다고 판단
- [중요변수] 연소득, 연 카드소비액, 교육수준, 가족 수, CD(양도성예금증서) 계좌 여부
-
[인사이트]
-
고학력 고소득 고객층이 개인대출을 받을 가능성이 높다.
- 고소득 기준 : 연소득 기준 상위 20%
-
중·저소득층에서 소비가 적은 고객은 특히 대출 가능성이 낮다.
- 소비 적음 기준 : 연 카드소비액 기준 하위 20%
-
가족 수나 양도성예금증서 보유 여부를 잠재고객 판단에 활용할 수 있다.
-
-
도메인 지식 활용 어려움
- 데이터 제공 은행 관련 추가 설명이 없어, 구체적인 은행 영업 방식 ・ 고객 특성 파악에 한계
-
활용 데이터 부족
- 총 부채(도메인 조사에서 중요시), 시계열 데이터(소득・소비 증가율) 등이 추가될 경우, 보다 나은 모델 구축 가능
-
(데이터 처리) Python, Pandas, Numpy
-
(모델 구현) Sklearn
-
(데이터 시각화) Matplotlib, Seaborn