Skip to content

kim-seo-hyun/datathon

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

50 Commits
 
 
 
 
 
 
 
 

Repository files navigation

datathon

Aiffel YJ2th Datathon Netflix 1조 ❤weddingpeach❤

웨딩피치_jpg

Discription

웨딩피치_zep1

  • 2022.03.08 ~ 2022.03.11
  • Netflix dataset을 바탕으로 한 데이터 분석 및 시각화 프로젝트
  • 멤버: 박재경 (팀장)(웨딩피치)/ 김서현(엔젤 릴리)/ 조송희(엔젤 데이지)
  • 과정: 데이터 기본 분석> 방향 설정> 데이터 모델링> 데이터 분석> 데이터 시각화> 인사이트 도출 및 마무리

about datathon

<평가 방식>

  • EDA 및 시각화가 적절하게 이루어졌는가? (15%)
  • 데이터 분석을 통한 인사이트가 도출이 잘 되었는가? (15%)
  • 도출한 인사이트를 통해 설득력이 충분하였는가? (20%)
  • 팀원들이 협업을 통해 프로젝트를 수행하고 발표를 진행하였는가? (25%)
  • 발표시간을 준수하였는지? (25%)
  • 가점 : 교육생들의 따봉 (좋아요 수치를 합산하여 가산점으로 반영)

data analysis

데이터분석

수집 데이터

Data organization

  1. 내용적 측면: 시간에 따른 자극적인 콘텐츠 변화 추이를 살펴보고 장르,등급,시간 간의 상관관계 분석
  • 비고) main_df.csv 활용
  • 결측치 삭제/ 장르와 등급를 3-6가지로 줄여서 진행
  • 컨텐츠 장르와 등급의 분포 시각화
  • 시간 변화에 따른 등급과 장르을 기준으로 총작품 갯수의 변화
  • 최근 추가된 작품 장르와 등급 키워드 시각화
  • 최종: 시간이 지나면서 자극적(등급이 높고, 장르가 폭력적인)인 컨텐츠가 증가하였는가?
  1. 구조적 측면: 넷플릭스 오리지널 콘텐츠에 따른 변화 추이
  • 비고) onlyoriginal.csv 활용
  • 넷플릭스 오리지널수의 증감 추이
  • 오리지널과 오리지널이 아닌 콘텐츠의 비교
  • 오리지널과 국가간의 상관관계 등
  1. 시장 측면: 국가(대륙) 간 상관관계 분석
  • 비고) cont_df.csv, NetflixsRevenue2018toQ2_2020.csv, NetflixSubscribersbyCountryfrom2018toQ2_2020.csv 활용
  • 수익, 구독자 수와의 상관관계 분석

Data Modeling Relationship

dataset_relationship_finish

분석 목표에 따른 분석 기법

분석목표 설명 통계적 분석 기법
평균에 대한 검정과 추정 평균값에 대한 모델링 T검정
비율에 대한 검정과 추정 비율에 대한 모델링 직접확률계산법, F분포법
분할표의 검정 각각 2개 이상의 분류값을 지닌 2개 이상의 차원이 있고 그 결과로 하나의 측정값이 있을 때, 분류 조합에 따라 측정값에 유효한 차이가 발생하는지를 검정 카이제곱 검정, Fisher의 직접 확률 검정, 맥네마의 검정, 잔차 분석
변수들 간의 상관관계의 강도 도출 독립적으로 움직이는 두 변수들 사이의 관계(상관관계)의 강도를 상관계수로 나타내어 표시 상관분석
변수들 간의 선형/ 비선형 인과관계의 형태와 강도 추출 종속적으로 움직이는 두 개 이상의 변수들 사이의 관계의 강도를 결정 계수로 나타내고, 각 변수의 계수를 추정해 모델화, 변수들은 연속적인 값일 수도 있고 분류값일 수도 있음 회귀분석, 다중회귀분석, 로지스틱 회귀분석, 판별분석
어떤 결과에 영향을 미치는 요인들 사이의 관계와 핵심 요인의 선별 어떤 측정값에 변화 요인이 되는 값들이 세 개의 차원이 라고 할 때, 각 차원들 중에 어떤 것이 측정값에 가장 큰 영향을 미치는지, 각 차원은 다른 차원의 영향력과 어느 정도 겹치는지 분석 요인분석, 주성분분석
대상들을 여러 기준값들에 따라 분류하고, 다차원 공간에 배치 측정값과 차원들이 있을 때 차원들의 값을 기준으로 측정값들 사이의 거리를 계산해 적절하게 그룹을 짓고, 이 거리가 의미있는 차원들로 축을 구성한 다차원 공간에 측정값들을 배치 군집분석, 다차원척도법(MDS)
차원들의 패턴이 비슷한 측정값과 그렇지 않은 측정값을 분류 예를들어, 설문 항복에 대한 답변들의 패턴에 따라 비슷한 답변을 한 응답자와 그렇지 않은 응답자를 분류 대응분석
시간의 흐름에 따라 변하는 데이터를 분석할 수 있는 모델의 도출 시계열 데이터에 영향을 주는 요인을 추세요인, 계절요인, 순환요인, 불규칙요인으로 분해해서 시계열 데이터를 가장 잘 설명할 수 있는 모델을 만들고, 이 모델을 통해 미래에 대해서도 예측 시계열 분석

Data visualization

  • toolbox: matplotlib, seaborn, plotly, volia
  • 시간 시각화 : 막대그래프, 누적 막대 그래프, 점 그래프
  • 분포 시각화 : 원그래프(파이차트), 도넛차트, 트리맵, 누적 연속 그래프분포
  • 관계 시각화 : 스캐터 플롯(산점도), 버블 차트, 히스토그램
  • 비교 시각화 : 히트맵, 체르노프 페이스, 스타차트, 평행좌표계, 다차원척도법
  • 공간 시각화 : 지도 매핑

Finish

  • 김서현(엔젤릴리): 먼저 우리조 다들 고생 정말 많으셨습니다 :) ! 조의 컨셉을 정할 때부터 분석 내용을 정하고 각자 맡은바를 해내기까지 착-착- 잘 맞아서 이만큼 나올 수 있었던 것 같아요 ㅎㅎ 비록 초반에 계획했던 많은 부분을 비전공자, 무경험자 셋이서 하기에 욕심인 것 같아 하나둘씩 빼고 진행해서 아쉬웠지만 그래도 할 수 있는 만큼 각자의 최선을 다한 결과가 나온 것 같아 프로젝트 끝맺음을 잘 할 수 있었던 것 같아요. 든든한 재경님! 항상 밝은 송희님! 덕분에 첫 데이터톤 좋은 기억 갖고 갑니다 ㅎㅎ 같은조로 만나서 반가웠습니다! :D

  • 조송희(데이지): 서현님, 재경님 정말..... 고생많으셨습니다 ㅠㅠㅠ!!! 서현님이 잘 이끌어주시고 재경님이 코드를 많이 도와주셔서 저도 뭐 하나라도 더 해보게 됐던 거 같아요. 쑥스럽지만 두 분께도 많이 배웠습니다 :D 비전공자에 처음 경험을 하는 것에 처음엔 조금 쫄았는데, 두 분 모두 거의 처음이라는 말씀에 아 그냥 하면 되는구나 일단 찍어보자 하는 자세를 많이 배웠어요 :) 짧은 시간이었지만 첫 데이터톤 함께 할 수 있게 되서 내심 참 감사했습니다! 우리 팀은 뭘하든 앞으로도 승승장구하실거라고 봅니다ㅎㅎㅎ 수고 많으셨습니다~!!

  • 박재경(엔젤피치): 서현님, 송희님 모두 고생 많으셨습니다! 처음에는 걱정도 많은 데이터톤이었지만 모두 열심히 해주셔서 무사히 마칠 수 있었던 것 같아요. 노트북을 제출한 이후에 다시 살펴보니 고치고 싶은 부분이 한 두개가 아니지만, 그래도 짧은 시간 내에 할 수 있는만큼 최선을 다한 것 같아서 뿌듯합니다. 비전공자여서 코드짜고 데이터프레임 만드는데 시간이 많이 걸렸지만, 그래도 하다보면 조금씩 늘 수 있다는 걸 다시금 느낀 데이터톤인 것 같아요. :) 서현님께는 시각화를, 송희님께는 상관관계 분석을 배울 수 있어서 뜻깊었습니다. 모두 다 열심히 참여해 주셔서 감사합니다!

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •