Le Challenge 2024 de TextMine Reconnaissance d'entités géographiques dans un corpus des instructions nautiques
, disponible sous Kaggle vise à détecter les mentions de lieux décrit dans les volumes de descriptions des littoraux constitué par l’Institut national de l'information géographique et forestière (IGN) et le Service hydrographique et océanographique de la Marine (Shom).
Les poids du modèle le plus performant est disponible sous HuggingFace: tetis-textmine-2024-camembert-large-based
Participants |
---|
Rémy Decoupes |
Roberto Interdonato |
Rodrique Kafando |
Mehtab Syed Alam |
Maguelonne Teisseire |
Mathieu Roche |
Sarah Valentin |
Ce dépôt propose 4 notebooks :
- Pipeline spaCy : ce notebook permet de ré-entrainer un modèle issu de la librairie spaCy (fr_core_news_lg)
- Fine-tuning de modèle de type BERT : ce notebook permet d'entraîner des modèles de langues de type BERT (comme RoBERTa, XLM-RoBERTa, Camembert, ...) sur le jeu de données du challenge
- Evaluer les entraînements : le précédent notebook permet d'enregistrer toutes les métriques des entraînements via l'outil MLflow. Ce notebook, quant à lui, permet de mettre en forme ces résultats comme illustré par la Fig. 1 ci-dessous.
- Inferring : il permet de prédire les labels des tokens pour cette tâche
Figure 1: Comparaison de modèles pré-entraînés avec différents hyperparamètres.