Angenommen, Sie arbeiten an einem NLP-Projekt. Ihre Eingabedaten sind wahrscheinlich Dateien wie PDF, JPG, XML, TXT oder ähnliches und es gibt eine Menge davon. Es ist nicht ungewöhnlich, dass in großen Datenbeständen einige Dokumente mit unterschiedlichen Namen exakt den gleichen Inhalt haben, d.h. es handelt sich um Duplikate. Dafür kann es verschiedene Gründe geben. Der wohl häufigste ist die fehlerhafte Speicherung und Archivierung der Dokumente.
Unabhängig von der Ursache ist es wichtig, die Duplikate zu finden und aus dem Datensatz zu entfernen, bevor Sie mit dem Labeling der Dokumente beginnen.
In diesem Blogbeitrag werde ich kurz demonstrieren, wie der Inhalt verschiedener Dateien mit Hilfe des Python-Moduls filecmp verglichen werden kann. Nachdem die Duplikate identifiziert wurden, werde ich zeigen, wie sie automatisch gelöscht werden können.