Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

hébergement (Nakala ?) de jeux de données et modèles acoustiques #100

Closed
alexis-michaud opened this issue Mar 22, 2020 · 2 comments
Closed
Assignees

Comments

@alexis-michaud
Copy link
Collaborator

alexis-michaud commented Mar 22, 2020

Pour l'utilisation de documents de la Collection Pangloss pour des expérimentations en Traitement Automatique des Langues (par ex. tel que décrits ici et ), l'hébergement de jeux de données et de modèles acoustiques a un rôle central et qui n'est actuellement pas pris en charge dans les règles de l'art archivistiques.

Le besoin est décrit (en anglais) ici pour les jeux de données, et ici pour les modèles acoustiques. En résumé : il est très utile pour les collègues TAListes de disposer d'états intermédiaires des données (jeux de données après sélection et prétraitement, tels qu'utilisés en entrée pour certains traitements). Il sera également utile de proposer au téléchargement des modèles acoustiques créés à partir de certains jeux de données. La puissance de calcul nécessaire à la création de ces modèles est telle que la mise à disposition des modèles représente une importante économie de temps de calcul.

Un hébergement GitHub comme ici rend de grands services mais présente quelques inconvénients de taille :

  • il nous rend tributaire de changements des conditions d'hébergement de cet outil Microsoft
  • il n'y a pas les possibilités de tisser des liens entre ressources via des métadonnées dans les règles de l'art, à la différence de Pangloss, CoCoON, NAKALA, etc. Or il y a un enjeu important pour la Science Ouverte : qu'il soit possible de suivre, à partir d'un corpus, les usages auxquels il s'est prêté, sous quelles formes pré-traitées il est disponible, comment un modèle acoustique qui se fonde sur ce jeu de données a été employé, etc. (Liens entre données, outils et publications.)

La recommandation d'Oliver Adams consiste à recourir aux services d'Huma-Num pour proposer un hébergement semi-pérenne.

A l'heure actuelle (mars 2020), le logiciel Persephone ne permet pas encore un export facile des modèles acoustiques, mais cela fait partie des améliorations prévues en 2020-2021.

@alexis-michaud
Copy link
Collaborator Author

alexis-michaud commented May 23, 2020

@besacier y aurait-il des solutions parmi les plate-formes utilisées par le Laboratoire d'Informatique de Grenoble ? Il faudrait que ça permette une installation avec pip

@alexis-michaud
Copy link
Collaborator Author

Discussions en cours dans le cadre du projet Elpis ἐλπίς

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants