Skip to content

Labracadabr/Pinterest_selenium_parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Pinterest_selenium_parser

Позволяет добывать по поисковому запросу сотни Гб контента - фото, видео или гиф.

На каждом шаге защита от дубликатов. Если что-то прервать и запустить повторно, прогресс сохранится и ничего лишнего не произойдет. Csv для сохранения ссылок создаются автоматически. Для каждого нового поиска нужно убрать или переименовать старые csv.

Пошаговая инструкция:

  1. Убедитесь, что в Pinterest есть контент по вашему запросу
  2. Скачать архив из гитхаб
  3. Установить библиотеки командой pip install -r requirements.txt в терминале - само установится всё, что указано в требованиях
  4. В settings указать поисковые запросы и типы нужных файлов. Это единственное, что вам нужно указать
  5. Запускать поочередно скрипты 01, 02, 03, downloader. Что в них происходит:
    • 01 - поиск постов по поисковому запросу и сохранение ссылок на найденные посты (Selenium)
    • 02 - открытие всех найденных ссылок из 01 и поиск похожих постов (скролл вниз в related pins) и сохранение ссылок - необязательный шаг, даст ~x100 больше контента, но долго (Selenium)
    • 03 - открытие всех ссылок на посты из 01+02 и поиск ссылок на скачивание файлов (Aiohttp)
    • downloader - скачивание файлов по ссылкам из 03 (Aiohttp)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages