datasets-parser

Обрабатывает csv data файлы в папке data и записывает их в базу данных

При обработке пропускает архивы и иные файлы, которы не csv

Поэтому при необходимости надо распаковать архивы перед тем как запускать обработку csv файлов:

globalterrorismdb_full_may2023.7z
world-postal-code.csv

Если учитывать распакованные вышеуказанные архивы, то после обработки в БД будет 2 164 199 записей.

Системные требования

Для работы необходимы docker и git

В docker контейнере будет создана и запущена база данных postgres

Git нужен для того, чтобы скачать репозиторий с проектом.

Так же можно воспользоваться прямой ссылкой для скачивания проекта https://github.com/terratensor/datasets-parser/archive/refs/heads/main.zip

Как обработать файлы и получить БД

Создаем папку на диске для проектов:

mkdir terratensor

Выбираем созданную папку

cd terratensor

Скачиваем репозиторий

git clone https://github.com/terratensor/datasets-parser.git

Запускаем докер контейнер с базой данных

docker compose up -d

Скачиваем последнюю версию парсера

https://github.com/terratensor/datasets-parser/releases/latest

Сохраняем в папку с проектом, запускаем

./datasets-parser.exe -d ./data

-d ./data — путь до папки в которой хранятся csv файлы для обработки Если вы сохраните утилиту datasets-parser.exe в корень проекта, то достаточно запустить exe файл без указания дополнительных параметров.

При каждом новом запуске база не удаляется, а пополняется снова. Так что будьте внимательны, обычно процедура обработки файлов достаточно запустить один раз.

Для просмотра БД необходима программа для работы с базами данных, рекомендуем DBeaver Community

Установите программу, запустите. Создайте новое соединение с БД, клавиши ctrl+shift+n

Details

Выберите тип нового соединения PostgreSQL

Details

Введите данные для соединения:

База данных: geomatrix
Прользователь: app
Пароль: secret
Хост: localhost
Порт: 54325

Details

Справа в списке баз данных появится наименование geomatrix, разверните до таблицы: db_entities, как показано на рисунке, переключитель на вкладку данные

Details

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
app		app
build		build
cmd		cmd
data		data
dataset		dataset
db/entitystore		db/entitystore
.gitignore		.gitignore
Makefile		Makefile
README.md		README.md
docker-compose.yml		docker-compose.yml
go.mod		go.mod
go.sum		go.sum

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

datasets-parser

Системные требования

Как обработать файлы и получить БД

About

Uh oh!

Releases 1

Packages

Uh oh!

Languages

terratensor/datasets-parser

Folders and files

Latest commit

History

Repository files navigation

datasets-parser

Системные требования

Как обработать файлы и получить БД

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Languages

Packages