Socratext: OCR et extraction d'informations de documents administratifs

Ce projet est développé dans le cadre du programme 10% piloté par Etalab. Lors des ateliers de lancement qui se sont tenus les 13 et 14 juin, des premiers éléments de cadrage ont été rassemblés ici.

Les administrations ont régulièrement besoin d’exploiter en masse des documents administratifs sous des formats non directement exploitables (PDF scannés, images, etc.). L’information contenue dans ces documents, pour être exploitée, doit passer par des étapes d'OCR, d’extraction et de structuration de l’information, qui est vite très chronophage si elle doit être réalisée à la main.

Ce repertoire a pour objectif de co-construire des solutions d'OCR, d'extratction d'informations et de compréhension de documents (extraire la structure d'un document), et ce en prenant en compte les différents besoins rencontrés par les administrations participant au programme.

Extraction d'information de photos de tickets de caisse

Entraînement d'un modèle LayoutLMv2

Sur le SSP Cloud, lancer ce service (configuration actuelle : 1 GPU). Installer les librairies de requirements.txt et run le script setup.sh. Pour lancer l'entraînement d'un modèle, et envoyer les logs sur l'espace de stockage du SSP Cloud :

python src/train.py --s3

Les flags --lr et --batch-size permettent de spécifier le pas d'apprentissage et la taille des batchs respectivement, par exemple :

python src/train.py --s3 --lr 0.004 --batch-size 5

Pour lancer Tensorboard, run le script tensorboard.sh.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
data		data
front		front
images		images
notebooks		notebooks
reports		reports
results		results
src		src
.gitignore		.gitignore
LICENSE		LICENSE
MLproject		MLproject
README.md		README.md
mlflow.sh		mlflow.sh
requirements.txt		requirements.txt
setup.sh		setup.sh
tensorboard.sh		tensorboard.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Socratext: OCR et extraction d'informations de documents administratifs

Extraction d'information de photos de tickets de caisse

Entraînement d'un modèle LayoutLMv2

About

Releases

Packages

Contributors 2

Languages

License

etalab/programme10pourcent-socratext

Folders and files

Latest commit

History

Repository files navigation

Socratext: OCR et extraction d'informations de documents administratifs

Extraction d'information de photos de tickets de caisse

Entraînement d'un modèle LayoutLMv2

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages