proj_news_viz

.
├── data
│   ├── parsed         #  2018-09-28.json.txt -- список скачанных статей в json
│   └── parser
│       ├── articles   # 0/a1/0a1b2c3d.html.gz -- кеш скачанных страниц
│       ├── conf       # feeds.csv, sources.csv , ...
│       └── lists      # download_urls.txt , processed_urls.txt , ...
├── README.md
└── scrapping          # скрипты для скраппинга
└── nlp                # скрипты и тетрадки по nlp
│   ├── topic_models   # тематическое моделирование

Requirements

Python 3.6+

Порядок работы

Клонируем себе реп
Заводим ветку, кодим-проверяем-коммитим
Создаем пулл-реквест

Соглашения

Не стесняйтесь писать комменты на русском языке.
Пишите содержательные сообщения к коммитам.
Используйте flake8 (flake8 .) для проверки кода на стиль.

Contributions

Andrey @Erlemar
Vladimir @LanSaid
Pavel @p-kachalov
Andrey Malakhov @andreymalakhov
Yuri Baburov @buriy Здесь могло быть ваше имя.

Скрипты:

scrapping/downloader.py : скачивает страницы из списков, находящихся в data/parser/lists/*.txt
scrapping/find_feeds.py : заходит на сайты, находит все RSS на них и сохраняет в data/parser/conf/feeds.csv
scrapping/find_news.py : проходит по списку RSS и главных страниц и сохраняет все найденные ссылки

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
data/parser/conf		data/parser/conf
nlp		nlp
scrapping		scrapping
.gitignore		.gitignore
Makefile		Makefile
README.md		README.md
pyproject.lock		pyproject.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

proj_news_viz

Requirements

Порядок работы

Соглашения

Contributions

Скрипты:

About

Releases

Packages

Languages

zergey/proj_news_viz

Folders and files

Latest commit

History

Repository files navigation

proj_news_viz

Requirements

Порядок работы

Соглашения

Contributions

Скрипты:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages