Позволяет добывать по поисковому запросу сотни Гб контента - фото, видео или гиф.
На каждом шаге защита от дубликатов. Если что-то прервать и запустить повторно, прогресс сохранится и ничего лишнего не произойдет. Csv для сохранения ссылок создаются автоматически. Для каждого нового поиска нужно убрать или переименовать старые csv.
Пошаговая инструкция:
- Убедитесь, что в Pinterest есть контент по вашему запросу
- Скачать архив из гитхаб
- Установить библиотеки командой
pip install -r requirements.txt
в терминале - само установится всё, что указано в требованиях - В settings указать поисковые запросы и типы нужных файлов. Это единственное, что вам нужно указать
- Запускать поочередно скрипты 01, 02, 03, downloader. Что в них происходит:
- 01 - поиск постов по поисковому запросу и сохранение ссылок на найденные посты (Selenium)
- 02 - открытие всех найденных ссылок из 01 и поиск похожих постов (скролл вниз в related pins) и сохранение ссылок - необязательный шаг, даст ~x100 больше контента, но долго (Selenium)
- 03 - открытие всех ссылок на посты из 01+02 и поиск ссылок на скачивание файлов (Aiohttp)
- downloader - скачивание файлов по ссылкам из 03 (Aiohttp)