Classification (Zone Analysis) and Information Extraction From Job Ads
Code for Classification and Information Extraction from job advertisements as part of my Master's Thesis.
Splits JobAds into paragraphs and classifies them into the four classes
- company description
- job description
- applicants profile
- formalities
Extract competences from applicants profiles
Die Klassen und weiteren Dateien des Projekts sind in der folgenden Paketstruktur geordnet, welche die jeweilige Funktionalität wiederspiegeln soll:
Sämtliche ausführbaren Klassen liegen als JUnit-Testklassen vor und stellen vollständige Workflows dar.
Mit classifyJobAdsIntoParagraphs kann eine Stellenanzeigen-Datenbank in Paragraphen der oben genannten Klassen klassifiziert werden. Die Ergebnisse werden als Datenbankfiles gespeichert (unter test/resources/classification/output).
SimpleRulebasedExraction verwendet diese als Input zur Kompetenzextraktion und speichert die Ergebnisse ebenfalls als Datenbankfile (test/resources/information_extraction/output).
Mit CreateCompetenceTrainingData, einem interaktiven Workflow zur Annotation von Kompetenzen, kann ein Testkorpus für Evaluationszwecke erstellt werden. (Ein manuell annotiertes Korpus befindet sich bereits im Ordern test/resources/information_extraction/trainingdata)
EvaluateSimpleRulebasedExtraction und EvaluateBootstrapExtraction, führen eine Extraktion mit dem jeweiligen Verfahren durch und evaluieren die Ergebnisse im Anschluss. Ausführliche Evaluationsergebnisse (inklusive aller richtig und falsch extrahieren Entitäten) werden als Text-files gespeichert (test/resources/informationextraction/output/evaluation_files). Bei der Evaluation des Bootstrapping-Ansatzes werden außerdem sämtliche automatisch generierten Patterns gespeichert (test/resources/information_extraction/output).
Zur Ausführung der JUnit Testklassen müssen folgende Dateien hinzugefügt werden:
In den Ordner information_extraction/data/openNLPmodels: de-sent.bin & de-token.bin (downloadlink: http://opennlp.sourceforge.net/models-1.5/)
In den Ordner information_extraction/data/sentencedata_models: ger-tagger+lemmatizer+morphology+graph-based-3.6+.tgz (downloadlink: https://code.google.com/archive/p/mate-tools/downloads)
1 Bundesinstitut für Berufsbildung