Skip to content

TPS 및 톰캣 & HikariCP 설정

lemone edited this page Oct 24, 2024 · 20 revisions

측정 환경

  • 월 예산 초과로 인해 테스트 데이터베이스 환경을 운영 환경과 동일하게 구성하지 못했다.
    • 데이터베이스: db.m6gd.large(운영), t4g.micro(테스트)
  • 테스트 환경에서 최대한 성능 개선을 한 뒤, 그 결과를 운영에 적용하기로 결정했다.
  • 데이터베이스 테이블당 더미 데이터 70만~100만건 적재

TPS 목표

벤치마크 할 서비스 - 백준

  • 프로그래밍 관련 교육 서비스 중 보편적으로 많이 사용되는 알고리즘 서비스 백준 선택

TPS 목표

  • 백준 페이지 뷰 수를 초 단위로 나눈 값을 목표 TPS로 설정했다.
  • 페이지 뷰 수 / 86,400(초/일)
  • 19,080,000 / 86,400 = 220.69

테스트 유형

  • 페어 프로그래밍에 직접적으로 도움을 주는 주요 API 단일 테스트
  • 서비스 사용 흐름을 예측하는 시나리오 기반 API 다중 테스트

1. 단일 테스트

  • ‘코딩해듀오’ 서비스 사용자들이 페어 프로그래밍을 진행에 도움주는 몇가지 기능을 추려 하나의 API건 별로 TPS 측정을 실시하고 특이사항을 관찰한다. image
  • 가상 사용자 200백명을 대상으로 2분간 50명씩 늘려가며 총 8분동안 테스트

페어룸

페어룸 생성 TPS

시나리오: 각 사용자는 1초에 한번씩 [POST] /api/pair-room API를 호출한다.

image

  • TPS 추이

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 16TPS

특이사항

  • DB 병목: HikariCP pending이 최대 168개까지 올라간다.
  • 0.17 %(즉, 07705 요청 중 13개 요청 실패)

페어룸 조회 TPS

시나리오: 각 사용자는 1초에 한번씩 [GET] /api/pair-room/{accessCode} API를 호출한다.

image

  • TPS 추이

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 22.61TPS

페어룸 상태 변경 TPS

시나리오: 각 사용자는 1초에 한번씩 [PATCH] /api/pair-room/{accessCode}/status API를 호출한다.

image

  • TPS 추이

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 25.80 TPS

특이사항

  • DB 병목: HikariCP pending이 최대 148개까지 올라간다.

투두

투두 생성 TPS

시나리오: 각 사용자는 1초에 한번씩 아래 API 호출

  1. [POST] /api/pair-room 방 생성
  2. [POST] /api/{accessCode}/todos 방에 TODO 리스트 생성

image

  • TPS 추이

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 16.78

특이사항

  • DB 병목: HikariCP pending이 최대 179개까지 올라간다.
  • 페이룸 생성 타임아웃: 338개 발생

투두 조회 TPS

시나리오: 각 사용자는 1초에 한번씩 아래 API 호출

  1. [POST] /api/{accessCode}/todos 방에 TODO 리스트 생성
  2. [GET] /api/{accessCode}/todos TODO 리스트 조회

image

  • TPS 추이

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 5.30

특이사항

  • JVM 쓰레드 live max312개
  • 저조한 TPS
  • 낮은 성공률

레퍼런스 링크

레퍼런스 링크 생성 TPS

시나리오: 각 사용자는 1초에 한번씩 [POST] /api/{accessCode}/reference-link API를 호출한다.

image

  • TPS 추이

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 24.39 TPS

카테고리

카테고리 생성 TPS

각 사용자는 1초에 한번씩 [POST] /api/{accessCode}/category API를 호출한다.

image

  • 초당 요청 성공률

image

  • 성능 테스트 실행 결과 메트릭

시나리오 TPS

  • 22.04

단일 테스트 - 결과 분석

TPS

  • 최소: 5.3
  • 최대: 25.8
  • 평균: 18.9

문제 상황

  • 가상 사용자가 약 150명에 도달했을 때, hikariCP 고갈 문제 발생

결론

데이터베이스 병목 현상이 발생함을 확인하고, 시나리오 테스트를 통해 개선하자.

2. 시나리오 테스트

시나리오 명세

  1. 페어룸 생성
    1. SSE 커넥션 생성
    2. 투두 목록 조회
    3. 레퍼런스 링크 조회
    4. 타이머 정보 조회
  2. 타이머 시작
  3. 레퍼런스 링크 생성
  4. 투두 목록 생성 10회
  5. 카테고리 생성 3회
  6. 페어 역할 변경
    1. 페어룸 상태 변경
  7. 타이머 중지

테스트 환경

image

  • 0~4분: 50명 순차적으로 증가
  • 4~8분: 100명 순차적으로 증가
  • 8~12분: 150명 순차적으로 증가
  • 12~16분: 200명 순차적으로 증가

실험 목표

  • HikariCP max-pool 조정
  • 톰캣 threads max, max connections, accept count 설정 조정

HikariCP pool 개수 조정

1. Max Connection Pool 20개

image

  • TPS: 7.9
  • 특정 상황에서 connection이 반환되지 않아 요청이 pending 상태가 된다.
    • 150명 이상 접속 시 hikari connection 급격하게 증가

2. Max Connection Pool 10개

image

  • TPS: 10.8
  • 특정 상황에서 connection이 반환되지 않아 요청이 pending 상태가 된다.
    • 178명 이상 접속 시 hikari connection 급격하게 증가

Pool 개수 별 수치 변화

image

image

  • 왼쪽부터 시간 순으로 max-connection-pool의 수는 10개, 20개, 5개이다.
  • 측정 결과 default 설정인 10개일 때 가장 TPS가 높았고, 20개와 5개일 때 비슷한 수치를 보였다.
  • 측정 결과 default 설정인 10개일 때 pending 상태인 커넥션 수가 가장 적었다.
  • 20개일 때 idle 상태인 커넥션이 가장 많았고, 20개와 5개일 때 pending 상태인 커넥션 수가 비슷했다.

톰캣 설정 조정

데이터베이스 병목으로 인해 유미의한 측정이 불가능하여, RDS(db.m6gd.large/ 운영 환경)로 scale up 하여 테스트를 진행한다. 순간적인 대량 부하로 HTTP 요청 한계와 TPS 측정한다.

시나리오

  • 0~30초: 100명
  • 30초~1분: 200명
  • 1분~1분30초: 300명
  • 1분30초~2분: 400명
  • 2분~2분30초:500명
  • 2분30초~3분: 600명
  • 3분~3분30초:700명
  • 3분30초~4분: 800명
  • 4분~4분30초: 900명
  • 4분30초~5분:1000명
  • 5분~6분: 1500명
  • 6분~7분: 2000명

기존 설정

  • Max-Thread: 200
  • accept-count: 300
  • Max-Connection: 10,000

image

TPS

image.png

측정 결과

  • 149.22 TPS

1. max-connection

image

  • 각 max-connection
  • 왼쪽부터 시간 순으로 각각 스레드 수 300개, 200개, 100개이다.
  • 스레드 수가 200개일 때 TPS가 가장 높았고, 300개와 100개는 비슷한 수치를 보였다.

image

  • 왼쪽부터 시간 순으로 각각 스레드 수 300개, 200개, 100개이다.
  • max-thread 가 100개 일 때

2. Accept count

100개(디폴트)

image

image

  • TPS: 31

300개

  • 실행 왜 안됨ㅜ

500개

3. max connections

Clone this wiki locally