Skip to content

Latest commit

 

History

History
13 lines (11 loc) · 979 Bytes

File metadata and controls

13 lines (11 loc) · 979 Bytes

recognition-of-written-languages

Using algorithms of unsupervised learning to recognize written languages

Reconnaissance des langues écrites

La modélisation des langues est un domaine où l'apprentissage non supervisé est très appliqué, l'analyse des textes et la detection des langues écrites sont parmi les applications très connues. Dans ce projet, on souhaite pouvoir identifier la langue d’un texte donné (français ou anglais). Pour cela, on va utiliser un tableau de données de textes où on a déjà labélisé chaque texte par sa langue. Dans un premier temps, l’objectif est de construire plusieurs modèles caractérisants les différentes langues, basé sur la fréquence d’apparition des symboles (lettres) dans chaque langue, pour ensuite procéder à un comparatif des diffférents modèles.
Chaque exercice du projet consistera à :
¤ Choisir un modèle.
¤ Estimer ses paramètres.
¤ Le programmer et commenter les résultats.