Skip to content

tetis-nlp/tetis-challenge_textmine_2024

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 

Repository files navigation


Le Challenge 2024 de TextMine Reconnaissance d'entités géographiques dans un corpus des instructions nautiques, disponible sous Kaggle vise à détecter les mentions de lieux décrit dans les volumes de descriptions des littoraux constitué par l’Institut national de l'information géographique et forestière (IGN) et le Service hydrographique et océanographique de la Marine (Shom).

Les poids du modèle le plus performant est disponible sous HuggingFace: tetis-textmine-2024-camembert-large-based

Participants
Rémy Decoupes
Roberto Interdonato
Rodrique Kafando
Mehtab Syed Alam
Maguelonne Teisseire
Mathieu Roche
Sarah Valentin

Description du dépôt logiciel

Ce dépôt propose 4 notebooks :

  1. Pipeline spaCy : ce notebook permet de ré-entrainer un modèle issu de la librairie spaCy (fr_core_news_lg)
  2. Fine-tuning de modèle de type BERT : ce notebook permet d'entraîner des modèles de langues de type BERT (comme RoBERTa, XLM-RoBERTa, Camembert, ...) sur le jeu de données du challenge
  3. Evaluer les entraînements : le précédent notebook permet d'enregistrer toutes les métriques des entraînements via l'outil MLflow. Ce notebook, quant à lui, permet de mettre en forme ces résultats comme illustré par la Fig. 1 ci-dessous.
  4. Inferring : il permet de prédire les labels des tokens pour cette tâche

Comparaison de modèles pré-entraînés avec différents hyperparamètres

Figure 1: Comparaison de modèles pré-entraînés avec différents hyperparamètres.

About

UMR TETIS's contribution to the TextMine 2024 Challenge

Topics

Resources

License

Stars

Watchers

Forks