.
├── data
│ ├── parsed # 2018-09-28.json.txt -- список скачанных статей в json
│ └── parser
│ ├── articles # 0/a1/0a1b2c3d.html.gz -- кеш скачанных страниц
│ ├── conf # feeds.csv, sources.csv , ...
│ └── lists # download_urls.txt , processed_urls.txt , ...
├── README.md
└── scrapping # скрипты для скраппинга
└── nlp # скрипты и тетрадки по nlp
│ ├── topic_models # тематическое моделирование
Python 3.6+
- Клонируем себе реп
- Заводим ветку, кодим-проверяем-коммитим
- Создаем пулл-реквест
- Не стесняйтесь писать комменты на русском языке.
- Пишите содержательные сообщения к коммитам.
- Используйте flake8 (
flake8 .
) для проверки кода на стиль.
- Andrey @Erlemar
- Vladimir @LanSaid
- Pavel @p-kachalov
- Andrey Malakhov @andreymalakhov
- Yuri Baburov @buriy Здесь могло быть ваше имя.
- scrapping/downloader.py : скачивает страницы из списков, находящихся в data/parser/lists/*.txt
- scrapping/find_feeds.py : заходит на сайты, находит все RSS на них и сохраняет в data/parser/conf/feeds.csv
- scrapping/find_news.py : проходит по списку RSS и главных страниц и сохраняет все найденные ссылки