© unsplash/@utsavsrestha

© unsplash/@utsavsrestha
Landwirtschaft & Meteorologie

Entitäten­erkennung in Nachrichten­artikeln und Freitexten

Hintergrund

Nachrichten über extreme Wetterereignisse sind wichtig, um Wettervorhersagen im Nachhinein zu bewerten und Wetterereignisse mit ihren Folgen wie Überschwemmungen oder eingetretenen Schäden in Beziehung zu setzen. Zudem ist es schwierig, die Schwere eines extremen Wetterereignisses zu quantifizieren. Wettervorhersagedienste, wie der Deutsche Wetterdienst (DWD), analysieren daher Presseartikel und -mitteilungen, um Erkenntnisse über Datum, Ort und Schwere des Wetterereignisses zu gewinnen.

Herausforderungen

Wenn die Primärquellen für wetterbezogene Artikel definiert sind, müssen die Artikel von den verschiedenen Verlagen abgerufen werden. Presseagenturen wie dpa oder Reuters liefern xml-Feeds, die sich leicht in die Datenpipeline integrieren lassen. Andere Verlage wie z.B. Regionalzeitungen liefern jedoch keine vergleichbaren Dienste, so dass die Artikel von verschiedenen Websites abgerufen werden müssen. Abhängig von der Scraping-Methode können die Formate von pdf bis txt variieren.

Wenn die Daten so aufbereitet werden, dass die Artikel für einen Algorithmus lesbar sind, bleibt die Herausforderung, wie die verschiedenen Entitäten wie Ort, Schäden oder Art des Wetterereignisses erkannt, klassifiziert und bewertet werden können.

Lösungsansatz

Je nach den zu extrahierenden Entitäten und ihrer Vielfalt an Inputs können unterschiedliche technische Ansätze gewählt werden. Bei recht einheitlich formatierten Entitäten, wie Datum oder Uhrzeit, können reguläre Ausdrücke programmiert werden, um sie an gemeinsame Datentypen anzupassen. Für Datum könnte dies tt/mm/jjjjj oder ähnlich sein.

Für kompliziertere Entitäten kann ein Wörterbuch mit Synonymen und Ontologien zur Klassifizierung und Zuordnung von Text zu Entitäten und Themen entwickelt werden. Ansätze zur Themenmodellierung wie die Latent Dirichlet Allocation (LDA) werden zur Messung der Ähnlichkeit zwischen Textkomponenten entwickelt.

Weitere fortgeschrittene Ansätze, die zu vielversprechenderen Ergebnissen führen können, könnten BERT- oder domänenspezifische Worteinbettungen (wie BioBERT für biomedizinische Sprache) oder überwachte Lernansätze auf der Grundlage von gelabelten Daten gewählt werden.

Passende Case Studies

Natural Language Processing

Rechtliche Überprüfung von Mietverträgen

Mit Hilfe verschiedener Methoden aus dem Bereich NLP entdeckt diese Software Fehler in Verträgen.
Unsere Lösung

Diese Webinare könnten Sie interessieren

Texterkennung (OCR) - Der erste Schritt auf dem Weg zu einer erfolgreichen Implementierung eines NLP-Projekts

In diesem Webinar wenden wir uns dem Thema Texterkennung zu.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts

Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.

Ewelina Fiebig

Machine Learning Scientist

Fabian Gringel

Machine Learning Scientist

Semantische Suche und Verstehen von natürlichem Text mit Neuronalen Netzen: BERT

In diesem Webinar erhalten Sie eine Einführung in die Anwendung von BERT für die semantische Suche anhand einer realen Fallstudie: Jedes Jahr interagieren Millionen von Bürgern mit Behörden und werden regelmäßig von der dort verwendeten Fachsprache überwältigt. Wir haben das BERT erfolgreich eingesetzt, um mit Hilfe von umgangssprachlichen Abfragen aus Regierungsdokumenten die richtige Antwort zu liefern - ohne dabei Fachbegriffe in den Abfragen verwenden zu müssen.

Konrad Schultka

Machine Learning Scientist

Jona Welsch

Machine Learning Scientist

Rekurrente neuronale Netze: Wie Computer lesen lernen

Das Webinar gibt eine Einführung in die Funktionsweise von RNNs und veranschaulicht deren Einsatz an einem Beispielprojekt aus dem Bereich der Legal Tech

Fabian Gringel

Machine Learning Scientist