LRNLP 05: BiographIE - Klassifikation und Extraktion karrierespezifischer Informationen

Référence: ISBN 9783862880133
98,70


BiographIE - Klassifikation und Extraktion karrierespezifischer Informationen

Michaela Geierhos
Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München

hrsg. von Franz Guenthner

Das wesentliche Ziel der vorliegenden Publikation ist die Erstellung von sprachspezifischen Modulen im Bereich der Biographischen InformationsExtraktion (BiographIE). Unter Informationsextraktion verstehen wir die automatisierte Analyse von Dokumenten im Hinblick auf das Entdecken und Normalisieren von semantisch interessanten Entitäten und deren Eigenschaften.

Das Hauptgewicht der Arbeit liegt auf sehr detaillierten und umfangreichen linguistischen Grammatiken im Bereich der Beschreibung von Personen und deren Beziehungen zu anderen relevanten Entitäten (z.B. Organisationen, Orte, Datums- und Zeitangaben) in Texten. Neben den öffentlichen und privaten Eigenschaften von Personen (Geburtsdatum, Nationalität etc.) sollen vor allem alle biographisch relevanten Attribute aus Texten extrahiert werden können. Dazu gehören in erster Linie berufliche Werdegänge, Anstellungsverhältnisse, Rollen in Firmen und ähnliche Eigenschaften. Da alle diese Attribute in unzählbar verschiedenen Formen ausgedrückt werden können, müssen sehr umfangreiche Lexika und sehr detaillierte grammatische Beschreibungen erstellt werden. Dies geschieht hauptsächlich bei der systematischen Evaluierung von Korpora. Je umfangreicher diese sind, desto adäquater werden die erstellten Grammatiken sein. Im Gegensatz zu den heute üblichen statistischen, auf maschinellem Lernen basierenden Verfahren setzen wir auch umfangreiche semi-automatisch erstellte, linguistische Module ein, die dann durch systematische Evaluierung auf Korpora schnell ergänzt und verbessert werden können.

Basierend auf unseren Extraktionsmethoden ist es nun möglich, im Bereich der semantischen Suche deutliche Fortschritte zu machen. Insbesondere Personensuchmaschinen können sich unsere detaillierten Analysemethoden zu Nutze machen, um beispielsweise zu ermitteln, wer in welcher Funktion bei welcher Firma von wann bis wann beschäftigt war.

We present some linguistic and modeling aspects of our system BiographIE (Biographical Information Extraction) dedicated to the extraction of biographical information from business news in English. The concept of biographical events (such as birth, marriage and career) is defined by predicative relations linking several arguments out of which one is obligatory characterized by the object class . Our approach is to describe these types of relations by means of local grammars and specialized electronic dictionaries. Our results show that this technique seems feasible and allows us to extend our studies to the analysis of new genres of text.

ISBN 9783862880133. Linguistic Resources for Natural Language Processing 05. 286pp. 2010.

RESOURCES FOR NATURAL LANGUAGE PROCESSING

Applications of natural language processing in a growing variety of technical, industrial and ecommerce domains have become common place. Yet there is still little agreement among theoretically and practically minded computational linguists about the basic assumptions and working principles. The monographs in this series address the role and the form of linguistic resources in all areas and applications for natural language processing. Even though it is widely admitted that such resources are an important prerequisite for serious progress in the construction, there has been little consensus about the details of these resources. There have also been very few systematic attempts to outline and to pursue large-scale programs in this field. In addition to the enumeration of all the morphological forms of a language, the central resources are still outstanding, in particular the widely underestimated greater need for very large dictionaries of "complex forms". These range from dictionaries of nominal compounds to dictionaries of predicate-argument schemas as expressed by verbs, predicative nouns and adjectives for instance. And in particular , specific attention needs to be directed towards the construction of exhaustive dictionaries of "frozen predicates" which in fact outnumber the other types. On the basis of such dictionaries even more adequate representative structures in the form of local grammars and transducers that can deal with the ubiquitous variations of these predicate-argument structure schemas can be envisaged. Once such extensive linguistic databases are available, we will be able to benefit from the insight that the central goal of linguistic analysis is to identify linguistic units of different degrees of complexity on the basis of pre-existing lexico-grammatical structures. Only then will we be able to tackle the challenging tasks concerning language learning by humans and machines in an adequate way.

Franz Guenthner
CIS, Ludwig-Maximilians-Universität, München

Parcourir cette catégorie : Natural Language Processing (LRNLP)