웹 크롤링: 검색 엔진의 구축 등을 위해 특정한 방법으로 웹 페이지를 수집하는 프로그램
웹 스크래핑: 웹에서 데이터를 수집하는 프로그램
robot.txt 에서 disallowed 를 제외한 웹 사이트 스크래핑하는 사이드 프로젝트
stack | |
---|---|
Language | Python (^3.11) |
Framework | FastAPI (^0.86.0) |
Database | PostgreSQL, MongoDB |
Infra | Docker, Redis, RabbitMQ, AWS EC2, RDS, S3 |
Version Control | Git, Github, Poetry |
aiohttp & asyncio 를 활용한 웹 스크래핑
기본적인 데이터 관리를 위한 MySQL과 알림 센터 관리를 위한 MongoDB 사용
redis를 이용헌 DB caching 기능
메세지 브로커를 이용해 알림 센터 및 이메일 발송