- 2022.03.08 ~ 2022.03.11
- Netflix dataset을 바탕으로 한 데이터 분석 및 시각화 프로젝트
- 멤버: 박재경 (팀장)(웨딩피치)/ 김서현(엔젤 릴리)/ 조송희(엔젤 데이지)
- 과정: 데이터 기본 분석> 방향 설정> 데이터 모델링> 데이터 분석> 데이터 시각화> 인사이트 도출 및 마무리
<평가 방식>
- EDA 및 시각화가 적절하게 이루어졌는가? (15%)
- 데이터 분석을 통한 인사이트가 도출이 잘 되었는가? (15%)
- 도출한 인사이트를 통해 설득력이 충분하였는가? (20%)
- 팀원들이 협업을 통해 프로젝트를 수행하고 발표를 진행하였는가? (25%)
- 발표시간을 준수하였는지? (25%)
- 가점 : 교육생들의 따봉 (좋아요 수치를 합산하여 가산점으로 반영)
- dataset1)Netflix Movies and TV Shows: https://www.kaggle.com/shivamb/netflix-shows?select=netflix_titles.csv
- dataset2)Netflix subscribers and revenue by country: https://www.kaggle.com/pariaagharabi/netflix2020
- dataset3)Netflix Original Films & IMDB Scores: https://www.kaggle.com/luiscorter/netflix-original-films-imdb-scores
- 내용적 측면: 시간에 따른 자극적인 콘텐츠 변화 추이를 살펴보고 장르,등급,시간 간의 상관관계 분석
- 비고) main_df.csv 활용
- 결측치 삭제/ 장르와 등급를 3-6가지로 줄여서 진행
- 컨텐츠 장르와 등급의 분포 시각화
- 시간 변화에 따른 등급과 장르을 기준으로 총작품 갯수의 변화
- 최근 추가된 작품 장르와 등급 키워드 시각화
- 최종: 시간이 지나면서 자극적(등급이 높고, 장르가 폭력적인)인 컨텐츠가 증가하였는가?
- 구조적 측면: 넷플릭스 오리지널 콘텐츠에 따른 변화 추이
- 비고) onlyoriginal.csv 활용
- 넷플릭스 오리지널수의 증감 추이
- 오리지널과 오리지널이 아닌 콘텐츠의 비교
- 오리지널과 국가간의 상관관계 등
- 시장 측면: 국가(대륙) 간 상관관계 분석
- 비고) cont_df.csv, NetflixsRevenue2018toQ2_2020.csv, NetflixSubscribersbyCountryfrom2018toQ2_2020.csv 활용
- 수익, 구독자 수와의 상관관계 분석
분석목표 | 설명 | 통계적 분석 기법 | ✔ |
---|---|---|---|
평균에 대한 검정과 추정 | 평균값에 대한 모델링 | T검정 | |
비율에 대한 검정과 추정 | 비율에 대한 모델링 | 직접확률계산법, F분포법 | |
분할표의 검정 | 각각 2개 이상의 분류값을 지닌 2개 이상의 차원이 있고 그 결과로 하나의 측정값이 있을 때, 분류 조합에 따라 측정값에 유효한 차이가 발생하는지를 검정 | 카이제곱 검정, Fisher의 직접 확률 검정, 맥네마의 검정, 잔차 분석 | |
변수들 간의 상관관계의 강도 도출 | 독립적으로 움직이는 두 변수들 사이의 관계(상관관계)의 강도를 상관계수로 나타내어 표시 | 상관분석 | ✔ |
변수들 간의 선형/ 비선형 인과관계의 형태와 강도 추출 | 종속적으로 움직이는 두 개 이상의 변수들 사이의 관계의 강도를 결정 계수로 나타내고, 각 변수의 계수를 추정해 모델화, 변수들은 연속적인 값일 수도 있고 분류값일 수도 있음 | 회귀분석, 다중회귀분석, 로지스틱 회귀분석, 판별분석 | ✔ |
어떤 결과에 영향을 미치는 요인들 사이의 관계와 핵심 요인의 선별 | 어떤 측정값에 변화 요인이 되는 값들이 세 개의 차원이 라고 할 때, 각 차원들 중에 어떤 것이 측정값에 가장 큰 영향을 미치는지, 각 차원은 다른 차원의 영향력과 어느 정도 겹치는지 분석 | 요인분석, 주성분분석 | |
대상들을 여러 기준값들에 따라 분류하고, 다차원 공간에 배치 | 측정값과 차원들이 있을 때 차원들의 값을 기준으로 측정값들 사이의 거리를 계산해 적절하게 그룹을 짓고, 이 거리가 의미있는 차원들로 축을 구성한 다차원 공간에 측정값들을 배치 | 군집분석, 다차원척도법(MDS) | ✔ |
차원들의 패턴이 비슷한 측정값과 그렇지 않은 측정값을 분류 | 예를들어, 설문 항복에 대한 답변들의 패턴에 따라 비슷한 답변을 한 응답자와 그렇지 않은 응답자를 분류 | 대응분석 | |
시간의 흐름에 따라 변하는 데이터를 분석할 수 있는 모델의 도출 | 시계열 데이터에 영향을 주는 요인을 추세요인, 계절요인, 순환요인, 불규칙요인으로 분해해서 시계열 데이터를 가장 잘 설명할 수 있는 모델을 만들고, 이 모델을 통해 미래에 대해서도 예측 | 시계열 분석 | ✔ |
- toolbox: matplotlib, seaborn, plotly, volia
- 시간 시각화 : 막대그래프, 누적 막대 그래프, 점 그래프
- 분포 시각화 : 원그래프(파이차트), 도넛차트, 트리맵, 누적 연속 그래프분포
- 관계 시각화 : 스캐터 플롯(산점도), 버블 차트, 히스토그램
- 비교 시각화 : 히트맵, 체르노프 페이스, 스타차트, 평행좌표계, 다차원척도법
- 공간 시각화 : 지도 매핑
-
김서현(엔젤릴리): 먼저 우리조 다들 고생 정말 많으셨습니다 :) ! 조의 컨셉을 정할 때부터 분석 내용을 정하고 각자 맡은바를 해내기까지 착-착- 잘 맞아서 이만큼 나올 수 있었던 것 같아요 ㅎㅎ 비록 초반에 계획했던 많은 부분을 비전공자, 무경험자 셋이서 하기에 욕심인 것 같아 하나둘씩 빼고 진행해서 아쉬웠지만 그래도 할 수 있는 만큼 각자의 최선을 다한 결과가 나온 것 같아 프로젝트 끝맺음을 잘 할 수 있었던 것 같아요. 든든한 재경님! 항상 밝은 송희님! 덕분에 첫 데이터톤 좋은 기억 갖고 갑니다 ㅎㅎ 같은조로 만나서 반가웠습니다! :D
-
조송희(데이지): 서현님, 재경님 정말..... 고생많으셨습니다 ㅠㅠㅠ!!! 서현님이 잘 이끌어주시고 재경님이 코드를 많이 도와주셔서 저도 뭐 하나라도 더 해보게 됐던 거 같아요. 쑥스럽지만 두 분께도 많이 배웠습니다 :D 비전공자에 처음 경험을 하는 것에 처음엔 조금 쫄았는데, 두 분 모두 거의 처음이라는 말씀에 아 그냥 하면 되는구나 일단 찍어보자 하는 자세를 많이 배웠어요 :) 짧은 시간이었지만 첫 데이터톤 함께 할 수 있게 되서 내심 참 감사했습니다! 우리 팀은 뭘하든 앞으로도 승승장구하실거라고 봅니다ㅎㅎㅎ 수고 많으셨습니다~!!
-
박재경(엔젤피치): 서현님, 송희님 모두 고생 많으셨습니다! 처음에는 걱정도 많은 데이터톤이었지만 모두 열심히 해주셔서 무사히 마칠 수 있었던 것 같아요. 노트북을 제출한 이후에 다시 살펴보니 고치고 싶은 부분이 한 두개가 아니지만, 그래도 짧은 시간 내에 할 수 있는만큼 최선을 다한 것 같아서 뿌듯합니다. 비전공자여서 코드짜고 데이터프레임 만드는데 시간이 많이 걸렸지만, 그래도 하다보면 조금씩 늘 수 있다는 걸 다시금 느낀 데이터톤인 것 같아요. :) 서현님께는 시각화를, 송희님께는 상관관계 분석을 배울 수 있어서 뜻깊었습니다. 모두 다 열심히 참여해 주셔서 감사합니다!