무중단 배포 스크립크 작성 (issue #456) #480

robinjoon · 2024-09-19T15:24:45Z

이 PR이 머지된 이후 main에 머지되기 전에 작업해야되는 내용

product 환경 DB 연동

현재 새로 요구받은 프로덕션 DB환경으로의 연동이 Java 코드에 반영되어있지 않아 임시로 product 환경에서도 local 프로파일로 동작하게 되어있습니다.

다만 이는 아직 main에 배포되지 않았기 때문에 원래 프로덕션 서버는 기존 DB와 연동되고있습니다.

신규 배포 환경은 우선 api2.devel-up.co.kr로 연동해놨어요.

product 환경 로깅 및 모니터링 시스템 연동

구현 요약

Rolling 방식의 무중단 배포를 구현했습니다.

배포 과정은 크게 다음과 같습니다.

빌드 및 도커 허브 업로드
서버 A 배포
서버 A 헬스 체크
- 실패 시
  1. 서버 A 롤백
  2. 서버 A 헬스 체크
- 성공 시
  1. 서버 B 배포
  2. 서버 B 헬스 체크

알림은 4가지 시나리오에서 발생합니다.

두번째 시나리오는 극단적인 상황이라 재현이 힘들어서 따로 테스트하지 못했습니다.

연관 이슈

close 무중단 배포 스크립트 작성 #456

참고

코드 리뷰에 RCA 룰을 적용할 시 참고해주세요.

헤더	설명
R (Request Changes)	적극적으로 반영을 고려해주세요
C (Comment)	웬만하면 반영해주세요
A (Approve)	반영해도 좋고, 넘어가도 좋습니다. 사소한 의견입니다.

robinjoon · 2024-09-19T15:26:20Z

기존 PR 닫고 커밋들만 체리 픽 해서 새로 PR 만들었어요 @alstn113

le2sky

안녕하세요. 아톰입니다. 구현 잘해주시고 시나리오 별로 테스트 결과 공유 해주셔서 감사합니다.
엣지 케이스가 될만한 부분 의견 들어보고 싶어서 RC 드려요. 고생 많으셨습니다. 😀

le2sky · 2024-09-21T02:04:48Z

backend/src/main/java/develup/api/HealthApi.java

+    public ResponseEntity<ApiResponse<String>> health() {
+        return ResponseEntity.status(200).body(new ApiResponse<>("up"));
+    }


[Approve]

ResponseEntity.ok 레츠고?

le2sky · 2024-09-21T03:02:04Z

.github/workflows/backend_cd.yml

+  findPreviousImageVersion:
+    name: 🔎Find Previous Docker Image Version
+    runs-on: [ self-hosted, devel-up-prod-a ]
+    outputs:
+      previousImageVersion: ${{steps.find_version.outputs.name}}
+    steps:
+      - id: find_version
+        run: |
+          PREVIOUS_IMAGE_NAME=$(docker ps --format "{{.Image}}")
+          echo "name=$PREVIOUS_IMAGE_NAME" >> $GITHUB_OUTPUT
+          echo $PREVIOUS_IMAGE_NAME


[Commnet]

build job이 해당 작업 안기다려줘도 되는건지 궁금하네요. 👀
만약, build job -> deployToA job까지 수행 했어요.
그리고 healthCheckA 수행 이전에 컨테이너가 잠깐 실행되었고 실패했다고 했을때, docks ps를 찍으면 실패한 최신 도커 이미지 버전이 롤백 대상 버전이 될 가능성은 없나요??

그런 시나리오가 원천적으로 불가능한 건 아니라고 생각해요. 그런데, 현실적으로 빌드 작업과 롤백 버전 찾는 작업이 동시에 트리거되면 그 작업의 부하 차이가 워낙 커서 롤백 버전 찾는 작업이 먼저 수행되게 되요. 위에 사진 보시면 속도 차이가 엄청 나요

굳굳 좋아요. 그럴 가능성이 적긴하네요. 👍
cd 과정에 평균 find previus docker image version 잡 수행 시간이 추가되는 것보다는 자동 롤백 실패 비용이 더 작겠네요.
graceful shutdown 논의는 슬랙으로 이어나가시고, 헬스 체크 api 선택적으로 반영해주시고 다시 요청 주시면 approve 처리할게요.

robinjoon added 30 commits September 20, 2024 00:22

feat: HealthController 추가

d66d971

feat: compose.yml 무중단 배포 환경 변화에 따라 수정

92d4886

feat: Rolling 방식 무중단 배포 스크립트 작성

ba943ac

fix: 슬랙 메세지 임시로 비활성화

179aa1e

fix: 워크플로우 이름 변경

fa7405f

fix: 클래스 이름 변경

c686913

fix: compose 파일 변경

fd2bbfb

fix: healthcheck api 응답 변경

0eaf465

fix: healthcheck 로직 스크립트로 분리

34bae07

fix: 작업 경로 지정

a03832a

fix: healthcheck 주기 변경

a808943

chore: 헬스 체크가 실패할 경우 이후 배포가 진행되지 않는지 확인

1ff5a6b

feat: A 배포 실패 시 롤백하는지 확인

44e6cb0

chore: 트리거를 위한 공백 추가

1a25e5d

fix: ci cd 스크립트 오류 수정

ab9ccb4

공백 제거

0f9cafd

스크립트에 컨티뉴 온 에러 제거

85af4c6

fix: 롤백 시 이미지 이름 출력하도록 수정

f5d360d

fix: 롤백 시 이미지 이름 출력하도록 수정

bdfe119

fix: 롤백 시 이미지 이름 출력하도록 수정

a5b32b5

fix: 롤백 시 이미지 이름 출력하도록 수정

d04f149

fix: 롤백 시 이미지 이름 출력하도록 수정

63c37f6

fix: 롤백 시 이미지 이름 출력하도록 수정

2e7807d

fix: 롤백 시 이미지의 이전 버전을 제대로 불러오지 못하는 오류 수정

005c840

chore: A 배포 후 헬스 체크 실패시 롤백 되는지 확인

dd474b9

fix: 스크립트 정리

4434851

정상적인 상황 배포 테스트

0085c7c

스크립트 오타수정

75966b1

feat: 알림 보내는 스크립트 작성

4a34742

배포 성공 테스트

a9499b3

robinjoon added 13 commits September 20, 2024 00:22

A 롤백 성공 테스트

650dda8

슬랙 알림 보내는 조건 수정

4fbb827

A 롤백 실패 테스트

9817eb9

A 롤백 실패 테스트

513950d

A 롤백 실패 테스트

a7e05a0

continue on error 제거

bd2f300

테스트

9c289a4

롤백 실패시 알림 테스트

6d9e972

배포 성공 시 알림 테스트

834b1e0

롤백 성공 시 알림 테스트

22ccc1d

롤백 성공 시 알림 테스트 2

e6a2645

fix: 헬스 체크 api 정상 동작하도록 수정

6f5babb

fix: 타겟 브랜치 main으로 변경

146a299

robinjoon added 🚛 백엔드 백엔드 관련 이슈 ⚒️ 기능 작업해야하는 기능 labels Sep 19, 2024

robinjoon assigned robinjoon and alstn113 Sep 19, 2024

robinjoon temporarily deployed to dev September 19, 2024 15:25 — with GitHub Actions Inactive

le2sky requested changes Sep 21, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

무중단 배포 스크립크 작성 (issue #456) #480

무중단 배포 스크립크 작성 (issue #456) #480

robinjoon commented Sep 19, 2024 •

edited

Loading

robinjoon commented Sep 19, 2024

le2sky left a comment

le2sky Sep 21, 2024

le2sky Sep 21, 2024

robinjoon Sep 21, 2024

le2sky Sep 21, 2024

무중단 배포 스크립크 작성 (issue #456) #480

Are you sure you want to change the base?

무중단 배포 스크립크 작성 (issue #456) #480

Conversation

robinjoon commented Sep 19, 2024 • edited Loading

이 PR이 머지된 이후 main에 머지되기 전에 작업해야되는 내용

product 환경 DB 연동

product 환경 로깅 및 모니터링 시스템 연동

구현 요약

연관 이슈

참고

robinjoon commented Sep 19, 2024

le2sky left a comment

Choose a reason for hiding this comment

le2sky Sep 21, 2024

Choose a reason for hiding this comment

le2sky Sep 21, 2024

Choose a reason for hiding this comment

robinjoon Sep 21, 2024

Choose a reason for hiding this comment

le2sky Sep 21, 2024

Choose a reason for hiding this comment

robinjoon commented Sep 19, 2024 •

edited

Loading