Aufgezeichnete Vorträge


Ethik in NLP


Marty Oelschläger

5. November 2023


Dieser Vortrag behandelt zwei Hauptthemen. Der erste Teil befasst sich mit ethischen Erwägungen bei der Verarbeitung natürlicher Sprache (NLP). Es wird erörtert, wie Sprachmodelle entwickelt und verantwortungsvoll eingesetzt werden, und es werden Themen wie algorithmische Verzerrungen und die Auswirkungen automatisierter Sprachsysteme behandelt. Das zweite Teil des Talks bietet eine praktische Einführung in das Image Retrieval und erklärt die Techniken und Algorithmen, die das Suchen und Finden von Bildern auf der Grundlage von Inhalten, Metadaten oder beschreibenden Tags ermöglichen. Dies könnte Demonstrationen der Indexierung von Bildern, der Merkmalsextraktion und der Verwendung von Suchanfragen zur effektiven Navigation in großen Bilddatenbanken umfassen.

Erkennung von konvektiven Wolken in Satellitendaten


William Clemens

4. November 2023


Die Erkennung konvektiver Wolken ist für die Wettervorhersage und Klimastudien von entscheidender Bedeutung. William Clemens, Wissenschaftler für maschinelles Lernen bei dida, nutzt bei seiner Arbeit Convolutional Neural Networks (CNNs), um zu diesem Zweck geostationäre Satellitendaten zu analysieren. CNNs sind besonders geschickt bei der Bilderkennung und eignen sich daher für die Erkennung der komplexen Muster und Strukturen, die für konvektive Wolken charakteristisch sind. Clemens' Ansatz sieht vor, die CNNs auf großen Datensätzen von Satellitenbildern zu trainieren, die mit dem Vorhandensein von Konvektionswolken gekennzeichnet sind, so dass das Modell die Unterscheidungsmerkmale dieser Wolken erlernen kann.

Informationsextraktion mit BERT aus Freiformtexten


Jona Welsch

23. Oktober 2023


Im Mittelpunkt des Vortrags von Jona Welsch steht der Einsatz von Deep Learning-Methoden wie BERT zur Extraktion von Informationen aus unstrukturiertem Text. Ein Projekt mit idealo dient als Fallstudie und zeigt, wie regelbasierte Algorithmen und Deep Learning kombiniert werden können, um Produktbeschreibungen in strukturierte Daten zu verwandeln. Der Vortrag befasst sich auch mit der Erstellung von schwach markierten Trainingsdaten, um den Markierungsprozess zu erleichtern.

Domänenspezifische semantische Suche: das passende Dokument finden


Jakob Scharlau

23. Oktober 2023


Der Vortrag von Jakob Scharlau befasst sich mit der Frage, wie maschinelles Lernen und vorab trainierte Sprachmodelle verwendet werden können, um Suchsysteme mit einem semantischen Verständnis von Sprache zu erstellen. Er behandelt aktuelle Techniken und Überlegungen zum Aufbau solcher Tools und enthält ein Beispiel für ein System, das auf der Grundlage einer einfachen Suchanfrage das richtige technische Dokument findet.

Graph Neural Networks für die Informationsextraktion mit PyTorch


Augusto Stoffel

23. Oktober 2023


In Augusto Stoffels Vortrag stellt er Graph Neural Networks (GNNs) vor, indem er sie mit Convolutional Neural Networks (CNNs) vergleicht. Er beschreibt, wie ein Bild als Graph dargestellt werden kann, um einen natürlichen Übergang zu den Grundlagen der GNN-Architektur zu schaffen. Der Vortrag behandelt dann Python-Implementierungen, insbesondere im PyTorch-Framework, und konzentriert sich auf GNN-Anwendungen bei der Informationsextraktion aus tabellarischen Dokumenten im Bereich NLP.

Informationsextraktion: von Graph Neural Networks zu Transformer-Modellen


Augusto Stoffel

23. Oktober 2023


Dieser Vortrag zielt darauf ab, zwei prominente Klassen von Modellen zu vergleichen, die bei der Informationsextraktion aus halbstrukturierten Dokumenten verwendet werden: Graph Neural Networks (GNNs) und spezialisierte transformatorbasierte Architekturen. Während Transformer für ihre Textverarbeitungsfähigkeiten bekannt sind und mit vortrainierten Gewichten geliefert werden, haben GNNs den Vorteil, dass sie viel weniger Rechenleistung benötigen. Ziel ist es, auf der Grundlage von Projekterfahrungen und interner Forschung zu bewerten, wie diese beiden Modelltypen in praktischen Szenarien abschneiden.
© unsplash/Markus Spiske

Semantische Suche und Verstehen von natürlichem Text mit Neuronalen Netzen: BERT


Konrad Schultka and Jona Welsch

17. September 2020


In diesem Webinar erhalten Sie eine Einführung in die Anwendung von BERT für die semantische Suche anhand einer realen Fallstudie: Jedes Jahr interagieren Millionen von Bürgern mit Behörden und werden regelmäßig von der dort verwendeten Fachsprache überwältigt. Wir haben das BERT erfolgreich eingesetzt, um mit Hilfe von umgangssprachlichen Abfragen aus Regierungsdokumenten die richtige Antwort zu liefern - ohne dabei Fachbegriffe in den Abfragen verwenden zu müssen.

© unsplash/Raymond Rasmusson

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts


Ewelina Fiebig and Fabian Gringel

19. Mai 2020


Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.