CV-16조 💡 비전길잡이 💡
NAVER Connect Foundation boostcamp AI Tech 4th
민기 | 박민지 | 유영준 | 장지훈 | 최동혁 |
---|---|---|---|---|
AI hub SynthTextKR |
ICDAR SynthText |
Augmentation SynthText |
ICDAR Optimization |
SynthText 500k ICDAR 17/19 |
- EAST: An Efficient and Accurate Scene Text Detector
- Data-driven approach를 통한 글자 검출 성능 향상 목표 - 모델 고정
- ImageNet pretrained Backbone + 대량의 합성 데이터 pre-training + fine-tuning
- SynthText pre-generated 데이터셋 확보 후 pre-training
- 이후 ICDAR 17/19 데이터로 fine-tuning하여 좋은 성능 확인
- boostcamp 자체 annotation 데이터셋 포함 4개 범주 데이터셋 활용
- 공공행정문서 OCR : 카테고리 별 8장 약 2618장의 데이터셋 활용
- 야외 실제 촬영 한글 이미지 : EDA 결과 적합하지 않아 제외
- ICDAR17 MLT - 9개 언어, Training 7,200장, Validation 1,800장
- ICDAR19 MLT - 10개 언어, Training 10,000장
- Synthetic data: 영어 858,750장 중 542,706장 학습에 사용
- E2E-MLT Data: 한국어 40,432장 중 5,452장을 학습 데이터 사용
- 규모가 큰 데이터셋(영어) pre-trained 후 fine-tuning하는 전략
- 이후 5,452장(한국어) + 7,939장(영어) 소규모 competition 데이터셋 pre-trained 적용
exp | recall (public) |
precision (public) |
f1-score (public) |
f1-score (private) |
---|---|---|---|---|
AI_hubOCR | 0.5958 | 0.3876 | 0.4690 | 0.5097 |
pre-AI_hubOCR + ICDAR1719 |
0.4890 | 0.7001 | 0.5758 | 0.6087 |
exp | recall (public) |
precision (public) |
f1-score (public) |
f1-score (private) |
---|---|---|---|---|
ICDAR 17 | 0.5510 | 0.7877 | 0.6415 | 0.6309 |
ICDAR 19 | 0.5739 | 0.8141 | 0.6739 | 0.6730 |
ICDAR 19 Norm | 0.5931 | 0.7899 | 0.6775 | 0.6793 |
ICDAR 17, 19 | 0.5851 | 0.8095 | 0.6792 | 0.6688 |
exp | recall (public) |
precision (public) |
f1-score (public) |
f1-score (private) |
---|---|---|---|---|
ICDAR 19, ST-kr | 0.5379 | 0.7793 | 0.6365 | 0.6794 |
pre-en(500k) + ICDAR 19 | 0.5749 | 0.8141 | 0.6739 | 0.6730 |
pre-en(500k) + ICDAR 17/19 | 0.5997 | 0.8080 | 0.6884 | 0.7192 |
pre-en(500k) + ICDAR 17/19, ST-kr | 0.5815 | 0.7638 | 0.6603 | 0.6707 |
pre-mix + ICDAR 17/19 | 0.6113 | 0.8171 | 0.6993 | 0.7115 |
pre-en(80k) + ICDAR 17/19 | 0.5583 | 0.7458 | 0.6386 | 0.6507 |
- 초반에 ICDAR 17, 19 적용하여 높은 점수 확보
- SynthText 적용 후 ImageNet pretrained Backbone + 대량의 합성 데이터 pretrain
- 최종적으로 fine-tuning 통해 후반부에 성능 끌어올림
|-- 🗂 appendix : 발표자료
|-- 🗂 code : 학습시 사용했던 코드
`-- README.md