-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Loterre-resolvers] create databases #8
Conversation
Create concepts, indexes databases for a vocabulary.
As they are generated, and managed by dvc
Ça ne change rien. |
Je m'étais trompé de vocabulaire. Le problème suivant est de pouvoir récupérer les fichiers databases produits (en $ dvc add databases/216.tgz
ERROR: cannot update '216.tgz': overlaps with an output of stage: 'tgz-216' in 'dvc.yaml'.
Run the pipeline or use 'dvc commit' to force update it. La seule méthode que je vois, c'est de prendre les informations nécessaires dans |
Oui ! On peut récupérer des fichiers à partir de Ensuite, on peut faire |
Le mieux, avec ce nouveau |
Le service web
loterre-resolvers
tel qu'il était écrit se mettait à jour une fois par semaine, pour chaque vocabulaire:Donc, à chaque première requête de la semaine (début de semaine tombant mardi), toutes ces opérations étaient relancées.
Cela menait parfois à un timeout, la création pour les plus gros vocabulaires pouvant prendre plus de 5 minutes.
Une première optimisation a consisté à intégrer directement à l'image du service tous les fichiers SKOS (ce qui évite leur téléchargement). Mais ce n'est pas la partie la plus longue: c'est la création de l'index.
Voir Inist-CNRS/web-services#46
Le mieux est donc de créer les fichiers de la base dans le dépôt
Inist-CNRS/ws-data
, et de pousser ces fichiers (compressés) sur un remote DVC.On le fait vocabulaire par vocabulaire, pour pouvoir en ajouter ou en supprimer (ou simplement en mettre un seul à jour sans avoir à tout relancer).