데이터 팀의 핵심 인력, 데이터 엔지니어!
데이터 엔지니어는 조직에서 어떤 역할을 하고, 어떤 역량을 가진 사람일까요?
만약 내가 데이터 엔지니어가 되려면, 어디부터 시작해야 하는걸까요?
이런 막연한 질문에 대해 기술적 해답을 찾아가는 7주 온라인 스터디입니다.
- 일정: 2022.9.17.(토)~10.29.(토), 7주간
- 온라인 세션: 매주 토요일 오전 10시(KST)
- 슬랙을 활용한 상시 피드백, 코드리뷰, 리더와의 집중 멘토링 세션이 준비되어 있습니다.
- 회사에서 데이터 조직이 하는 일이 무엇인지 여러 각도에서 살펴보고, 어떤 구성원들이 존재하는지 알아봅니다. 데이터 조직에서 데이터 엔지니어가 하는 역할과 필요한 스킬 셋에 대해 자세히 알아보고 실제 테크 기업 데이터 엔지니어의 하루를 살펴봅니다.
- 키워드: 데이터 팀의 역할, 데이터 팀의 구성원(데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트)과 역할, ETL (Extract, Transform, Load)/데이터 잡/데이터 파이프라인, 데이터 잡 스케줄러, Airflow, 데이터 웨어하우스 (Redshift, Snowflake, BigQuery)
- 데이터 엔지니어에게 가장 중요한 스킬 셋은 바로 SQL! 통상적으로 개발자가 쓰는 SQL과 비교해 데이터 엔지니어링에서 쓰는 SQL은 무엇이 다른지 알아봅니다. 예제 데이터를 토대로 복잡한 SQL을 사용하는 방법을 학습해봅니다.
- 키워드 : 기초 SQL과 데이터 엔지니어링을 위한 고급 SQL, JOIN, LEFT JOIN, OUTER JOIN, SQL Aggregate functions, UNION, EXCEPT, SQL UDF, Cohort, Redshift
- 파이썬으로 간단한 ETL을 작성해 보고, Airflow가 어떻게 도움이 되는지 알아봅니다. 앞서 작성한 간단한 ETL을 Airflow로 변환해 봅니다.
- 키워드 : ETL, 데이터 파이프라인, 데이터 잡, 스케줄러, Python, SQL, Airflow, Redshift, Airflow DAG/Task/Operator
- 좀 더 복잡한 데이터를 다뤄보며 Airflow의 여러 기능에 대해 배워봅니다. 써머리 테이블을 직접 만들어 보면서 raw data가 어떻게 이해하기 쉬운 형태로 추상화되는지 확인해봅니다.
- 키워드 : Airflow 파라미터 설명, Airflow의 태스크/DAG 실행순서 정의, Airflow troubleshooting
- Airflow를 사용하는 가장 중요한 이유 중의 하나인 Backfill에 대해 배워봅니다. 다음으로 Summary table을 만드는 DAG를 구현해 봅니다.
- 키워드 : Backfill, Summary table
- Airflow를 실제로 운영한다는 가정하에 필요한 다양한 주제들을 다뤄보고 과정을 마무리합니다.
- 키워드 : Backfill, Airflow production
- 데이터 엔지니어의 커리어에 대한 이야기를 나눕니다.