crawler

Поиск файлов на сайте https://www.softpedia.com.

Основная идея в том, что страницы можно разделить на 3 группы:

страницы со списокм файлов (такие как https://win.softpedia.com/).
страницы конкретных файлов (такие как https://linux.softpedia.com/get/System/Operating-Systems/Linux-Distributions/SparkyLinux-Ultra-102961.shtml).
popup, встраиваемый в страницы из пункта 2, при нажатии на кнопку "загрузить файл".

Соответственно, чтобы получить ссылки на загрузку файлов, нам нужно рекурсивно пройти всю пагинацию страниц из пункта 1, собирая ссылки на страницы из пункта 2.

Далее нужно запросить каждую страницу из пункта 2 и сформировать на её основе POST запрос на получение popup-а из пункта 3.

После чего уже обрабатывать mirror ссылки на сам файл.

На данный момент не реализованы:

загрузка и анализ содержимого архивов.
retry-и при получении ошибки загрузки html страницы.
нормальная логика конфигурирования приложения.
сохранение результата в каком-нибудь адекватном формате (навроде json-а).
тротлинг запросов. Даже если запустить всё с паралелизмом равным единице, сайт очень быстро начинает банить (т.к. нет тротлинга хотябы в случае ошибки загрузки страницы). В ответ на запрос страницы файла (из пункта 2) приходит пустой html.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
configuration		configuration
src/main		src/main
.gitignore		.gitignore
README.md		README.md
build.sbt		build.sbt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

crawler

About

Releases

Packages

Languages

def1ne/crawler

Folders and files

Latest commit

History

Repository files navigation

crawler

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages