이슈트래커 프로젝트의 인프라 및 데이터 엔지니어링 환경 구성에 대한 레포지토리입니다.
- 데이터 웨어하우스로 구글 빅쿼리를 사용합니다.
- 데이터 마트 및 웹 서비스 DB로 MySQL을 사용합니다.
- 대용량 데이터의 처리를 위해 스파크를 사용합니다.
- 아래 아키텍쳐는 러프한 디자인이며 기술 스택 등은 추후 변경될 수 있습니다.
- save_data_to_big_query_with_client.py
- 구글 빅쿼리 클라이언트를 사용해 데이터를 저장하는 코드입니다.
- save_data_to_big_query.py
- 스파크를 이용해 구글 빅쿼리에 데이터를 저장하는 코드입니다.
- 데이터 저장에 스파크를 사용하는 것은 큰 의미가 없을 것 같아서 사용하지 않을 예정입니다.
- load_data_to_big_query.py