Skip to content

Catégorisation des liens par segmentation d’une page HTML.

License

Notifications You must be signed in to change notification settings

LeMoussel/LinkContext

Folders and files

NameName
Last commit message
Last commit date

Latest commit

60e66ea · Aug 31, 2021

History

4 Commits
Aug 31, 2021
Aug 31, 2021
Aug 31, 2021
Aug 31, 2021
Aug 31, 2021

Repository files navigation

LinkContext

Catégorisation des liens par segmentation d’une page HTML.

Ce programme Python, développé au dessus de Block-o-Matic (BoM), permet de décomposer une page web en segments, visuellement et sémantiquement cohérents, appelés blocs. Les liens sont ensuite extraits pour chaque bloc identifié.

Pré-requis

  • Python version 3.7. Les versions plus anciennes de Python ne devraient PAS fonctionner. Les versions plus récentes de Python devraient être OK.

  • Microsoft Playwright for Python. Playwright nécessite Python 3.7 ou plus. Les binaires de navigateur pour Chromium, Firefox et WebKit fonctionnent sur les 3 plateformes (Windows, macOS, Linux). Voir Installation de Playwright for Python.

  • Matplotlib : Visualisation avec Python. Matplotlib est une bibliothèque complète permettant de créer des visualisations statiques, animées et interactives en Python.

  • Librairie JS BoM.

Execution

Windows 10

# Windows
py main.py --url "http://example.com/"

# Linux
python3 main.py --url "http://example.com/"

Références

Todo

Toutes suggestions qui semble être une bonne idée. S'il vous plaît, essayez-le, soumettez des PRs pour étendre ou corriger des choses, et signalez toute bizarrerie ou bogue que vous rencontrez 😄

About

Catégorisation des liens par segmentation d’une page HTML.

Topics

Resources

License

Stars

Watchers

Forks