Indexation web

Ce projet porte sur la création d'un mini moteur de recherche comme google. Elle se base sur un ensemble de documents existant dans un corpus (documents disponibles sur les sites internet par exemple) pour afficher les résultats d'une requête par ordre de pertinence.

Le notebook TP_indexation_final_version contient toutes les étapes de préprocessing des textes et modélisations nécessaires pour créer ce moteur d'indexation web.

Nettoyage du texte

supprimer les ponctuations à cause de leur apparition dans tous les langages
supprimer les mots qui n'ont qu'un seul caractère car une seule lettre n'est d'aucune utilité pour identifier un document
remettre tous les mots en miniscule afin d'éviter la sensibilité à la casse des mots du vocabulaire transformer les chiffres d'un document en lettre (1000 --> 'one thousand')
supprimer les stop_words de la langue anglaise contenant les mots usuels utilisés fréquemment dans la langue (ex: my, our, them, etc..)
faire de la lemmatisation

Indexation et requêtes

Création de l'index graâce à un dictionnaire contenant toutes les informations des documents
Parallélisation du process d'indexation (multiprocessing et map reduce)
Création de différents types de requêtes (simples, personnalisés, avancés,...)
Vectorisation, TFDIDF et autres modèles pour le ranking des résultats

Application

Le fichier indexation.py dans le dossier "Application" permet de lancer une interface pour tester en temps réel le projet. Il suffit de lancer python indexation.py dans un terminal pour démarrer le moteur de recherche sous forme d'interface où la navigation est gérée grâce aux directions du clavier. Enjoy 😃 !

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Application		Application
data		data
README.md		README.md
TP_indexation_final_version.ipynb		TP_indexation_final_version.ipynb
index.pkl		index.pkl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Indexation web

Nettoyage du texte

Indexation et requêtes

Application

About

Releases

Packages

Languages

boulbi777/indexation-web

Folders and files

Latest commit

History

Repository files navigation

Indexation web

Nettoyage du texte

Indexation et requêtes

Application

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages