LRNLP 07: Informationsextraktion aus deutschen Online-Stellenanzeigen für HR-Anwendungen

Référence: ISBN 9783862885367
96,10


Informationsextraktion aus deutschen Online-Stellenanzeigen für HR-Anwendungen

Inna Scherer
Ludwig-Maximilians-Universität München

Das Hauptziel der vorliegenden Publikation ist die Implementierung von sprachspezifischen Komponenten und die Entwicklung von lexikalischen Ressourcen zur automatischen Extraktion von relevanten Informationen aus deutschen Online-Stellenanzeigen.

Jeder der sich mit der Gewinnung von strukturierten Daten aus Online-Stellenanzeigen befasst hat, kennt die Herausforderungen dieser Aufgabe. Die Online-Stellenanzeigen liegen hauptsächlich als HTML- oder PDF-Dokumente vor und sind inhaltlich nicht strukturiert. Online-Jobportale und andere Anwendungen brauchen aber für ihre Zwecke strukturierte Daten. Da es sich dabei um eine große Menge von Daten handelt und somit eine manuelle Überführung der Daten ausscheidet, wird ein automatisches System benötigt.

Die vorliegende Arbeit stellt verschiedene Lösungsansätze gegenüber. Der Ansatz der lokalen Grammatiken gelangt zur Ausführung. Bei dem auf lokalen Grammatiken basierenden Informationsextraktionssystem handelt es sich um eine Textverarbeitungspipeline.

Mit dieser werden informationstragende Textfragmente erkannt und ausgezeichnet. Diese Ausdrücke werden semantisch klassifiziert. Dabei unterstützt das System die Behandlung von Synonymen und Schreibvarianten. Hierzu waren umfangreiche Lexika in Form von lokalen Grammatiken zu entwickeln. Die Erstellung erfolgte mittels einer systematischen linguistischen Untersuchung der umfangreichen Trainingskorpora.

Die Ausgabe der gefundenen Ergebnisse erfolgt in einem stark strukturierten Datenformat, so dass die Implementierung vieler Anwendungen im Human Resource Bereich möglich wird.

ISBN 9783862885367. Linguistic Resources for Natural Language Processing 07. 206pp. 2014.

Parcourir cette catégorie : Natural Language Processing (LRNLP)