Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

크롤링 로직을 구현한다 #4

Open
david-parkk opened this issue Jul 20, 2024 · 2 comments
Open

크롤링 로직을 구현한다 #4

david-parkk opened this issue Jul 20, 2024 · 2 comments
Assignees

Comments

@david-parkk
Copy link
Member

🔍 설명

  • 메뉴 검색 관련 크롤링 로직 구현

🔥 할 일

  • 크롤링 시간 측정
  • 크롤링 로직 구현
@david-parkk
Copy link
Member Author

david-parkk commented Jul 24, 2024

https://slender-nation-c65.notion.site/java-crawling-29489aea2c494c8eaf411e980620c50b?pvs=4

🔍 주제

  • 직접 크롤링을 해보면서 나온 문제에 대해 공유합니다

🏆 내용

  • 회의간 나온 내용으로 요청으로 받았을때 크롤링 작업을 수행하는 경우입니다.
  • 검색 url 관련해서 문제가 있었습니다.
    • https://map.naver.com/p/search/{가게이름} 으로 하는 경우 검색이 잘된다고 알고 있었는데, 만약에 검색 결과가 1개 이상인 경우 가게 상세조회 페이지로 redirect되지 않습니다(가츠시와 가츠시 건대점을 직접 검색해보시면 쉽게 이해할 수 있습니다)
    • 위의 경우 조건을 분기하는 형태로 처리할 수 있지만 해당 경우 파생되는 문제가 있습니다.
  • 시간이 너무 오래걸립니다. (14~18초)
    • 실시간으로 처리할 수 있는 범위를 벗어난다고 생각합니다.
  • 가게 메뉴를 list으로 가져오는기 어렵다.
    • 가게 메뉴가 사진이 있는 경우나 그렇지 않은 경우가 있어서 파싱하기 어렵습니다
  • 배포환경에서 크롤링하는데 문제가 있습니다.
    • 배포환경(리눅스)에서 크롤링을 하려면 webdriver을 설치해야하는데 쉽지 않을 거 같습니다.
    • 또한 headless(브라우저를 직접 띄우지 않는 상태) 모드로 크롤링을 진행해야할텐데, 로컬에서 해보니까 문제가 많았습니다(해결 못함)
    • 배포환경은 컴퓨팅 성능이 로컬보다 약하기 때문에 크롤링에 컴퓨팅 리소스를 다 잡아먹을 수 도 있습니다

정리하면 실시간으로 크롤링을 수행해선 안될거 같습니다

@david-parkk
Copy link
Member Author

  • 소수점 처리를 추가해야한다.
  • 데이터 오류를 찾아야한다

@david-parkk david-parkk mentioned this issue Aug 6, 2024
2 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant