© unsplash/@utsavsrestha

© unsplash/@utsavsrestha
Home › 
Use Cases › 
Entitäten­erkennung in Nachrichten­artikeln und Freitexten

Entitäten­erkennung in Nachrichten­artikeln und Freitexten

Use Case
Meteorologie

Hintergrund

Nachrichten über extreme Wetterereignisse sind wichtig, um Wettervorhersagen im Nachhinein zu bewerten und Wetterereignisse mit ihren Folgen wie Überschwemmungen oder eingetretenen Schäden in Beziehung zu setzen. Zudem ist es schwierig, die Schwere eines extremen Wetterereignisses zu quantifizieren. Wettervorhersagedienste, wie der Deutsche Wetterdienst (DWD), analysieren daher Presseartikel und -mitteilungen, um Erkenntnisse über Datum, Ort und Schwere des Wetterereignisses zu gewinnen.

Herausforderungen

Wenn die Primärquellen für wetterbezogene Artikel definiert sind, müssen die Artikel von den verschiedenen Verlagen abgerufen werden. Presseagenturen wie dpa oder Reuters liefern xml-Feeds, die sich leicht in die Datenpipeline integrieren lassen. Andere Verlage wie z.B. Regionalzeitungen liefern jedoch keine vergleichbaren Dienste, so dass die Artikel von verschiedenen Websites abgerufen werden müssen. Abhängig von der Scraping-Methode können die Formate von pdf bis txt variieren.

Wenn die Daten so aufbereitet werden, dass die Artikel für einen Algorithmus lesbar sind, bleibt die Herausforderung, wie die verschiedenen Entitäten wie Ort, Schäden oder Art des Wetterereignisses erkannt, klassifiziert und bewertet werden können.

Lösungsansatz

Je nach den zu extrahierenden Entitäten und ihrer Vielfalt an Inputs können unterschiedliche technische Ansätze gewählt werden. Bei recht einheitlich formatierten Entitäten, wie Datum oder Uhrzeit, können reguläre Ausdrücke programmiert werden, um sie an gemeinsame Datentypen anzupassen. Für Datum könnte dies tt/mm/jjjjj oder ähnlich sein.

Für kompliziertere Entitäten kann ein Wörterbuch mit Synonymen und Ontologien zur Klassifizierung und Zuordnung von Text zu Entitäten und Themen entwickelt werden. Ansätze zur Themenmodellierung wie die Latent Dirichlet Allocation (LDA) werden zur Messung der Ähnlichkeit zwischen Textkomponenten entwickelt.

Weitere fortgeschrittene Ansätze, die zu vielversprechenderen Ergebnissen führen können, könnten BERT- oder domänenspezifische Worteinbettungen (wie BioBERT für biomedizinische Sprache) oder überwachte Lernansätze auf der Grundlage von gelabelten Daten gewählt werden.

KI-News jedes Quartal

Erhalten Sie Nachrichten über Machine Learning und Neuigkeiten rund um dida.

Erfolgreich angemeldet.

Gültige Email-Adresse benötigt.

Email-Adresse bereits registriert.

Etwas ist schiefgelaufen. Bitte versuchen Sie es nochmal.

Mit dem Klick auf "Anmelden" erklären Sie sich mit unserer Datenschutzerklärung einverstanden.

dida Logo