You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Pour l'utilisation de documents de la Collection Pangloss pour des expérimentations en Traitement Automatique des Langues (par ex. tel que décrits ici et là), l'hébergement de jeux de données et de modèles acoustiques a un rôle central et qui n'est actuellement pas pris en charge dans les règles de l'art archivistiques.
Le besoin est décrit (en anglais) ici pour les jeux de données, et ici pour les modèles acoustiques. En résumé : il est très utile pour les collègues TAListes de disposer d'états intermédiaires des données (jeux de données après sélection et prétraitement, tels qu'utilisés en entrée pour certains traitements). Il sera également utile de proposer au téléchargement des modèles acoustiques créés à partir de certains jeux de données. La puissance de calcul nécessaire à la création de ces modèles est telle que la mise à disposition des modèles représente une importante économie de temps de calcul.
Un hébergement GitHub comme ici rend de grands services mais présente quelques inconvénients de taille :
il nous rend tributaire de changements des conditions d'hébergement de cet outil Microsoft
il n'y a pas les possibilités de tisser des liens entre ressources via des métadonnées dans les règles de l'art, à la différence de Pangloss, CoCoON, NAKALA, etc. Or il y a un enjeu important pour la Science Ouverte : qu'il soit possible de suivre, à partir d'un corpus, les usages auxquels il s'est prêté, sous quelles formes pré-traitées il est disponible, comment un modèle acoustique qui se fonde sur ce jeu de données a été employé, etc. (Liens entre données, outils et publications.)
A l'heure actuelle (mars 2020), le logiciel Persephone ne permet pas encore un export facile des modèles acoustiques, mais cela fait partie des améliorations prévues en 2020-2021.
The text was updated successfully, but these errors were encountered:
Pour l'utilisation de documents de la Collection Pangloss pour des expérimentations en Traitement Automatique des Langues (par ex. tel que décrits ici et là), l'hébergement de jeux de données et de modèles acoustiques a un rôle central et qui n'est actuellement pas pris en charge dans les règles de l'art archivistiques.
Le besoin est décrit (en anglais) ici pour les jeux de données, et ici pour les modèles acoustiques. En résumé : il est très utile pour les collègues TAListes de disposer d'états intermédiaires des données (jeux de données après sélection et prétraitement, tels qu'utilisés en entrée pour certains traitements). Il sera également utile de proposer au téléchargement des modèles acoustiques créés à partir de certains jeux de données. La puissance de calcul nécessaire à la création de ces modèles est telle que la mise à disposition des modèles représente une importante économie de temps de calcul.
Un hébergement GitHub comme ici rend de grands services mais présente quelques inconvénients de taille :
La recommandation d'Oliver Adams consiste à recourir aux services d'Huma-Num pour proposer un hébergement semi-pérenne.
A l'heure actuelle (mars 2020), le logiciel
Persephone
ne permet pas encore un export facile des modèles acoustiques, mais cela fait partie des améliorations prévues en 2020-2021.The text was updated successfully, but these errors were encountered: