© unsplash/@andrewtneel
Automatische Analyse von geologischen Karten und Berichten
Hintergrund
Der erste Schritt bei Bergbauprojekten ist die Exploration neuer Abbaustätten. Dabei wird ein potentielles Bergbaugebiet hinsichtlich seiner mineralischen Zusammensetzung und Eigenschaften sowie seiner Abbaumethode und Rentabilität evaluiert.
Dafür werten Geologen verschiedene Quellen aus, wie mineralische Karten, geologische Berichte von Behörden und Forschungsinstituten, Eigentumsinformationen und lokale Mundpropaganda. Die resultierende Einschätzung ist von hoher ökonomischer Bedeutung, da aufgrund der hohen Bohrkosten eine gute Priorisierung von Bohrstellen die Effizienz eines Bergbauprojektes erheblich steigern kann.
Die Analyse der Quellen erfordert allerdings gut ausgebildete Geologen mit langjähriger Erfahrung und ist ein sehr zeitaufwendiger Prozess. Die automatisierte Analyse der Quellen kann die Geologen und Vermessungsingenieure unterstützen. Dank einer höheren Trefferwahrscheinlichkeit von geeigneten und wirtschaftlichen Explorationsstätten kann eine höhere Rentabilität erzielt werden.
Herausforderungen
Geologische Karten und Berichte sollen durch Machine Learning (ML) Algorithmen automatisch analysiert werden. Dabei werden bei der Analyse von Textdaten Methoden aus dem Bereich Natural Language Processing (NLP) eingesetzt; bei der Auswertung von Bilddaten Methoden aus der Computer Vision (CV).
Eine Herausforderung bei NLP-Projekten ist oft die Wahl eines geeigneten OCR-Tools, welches die verschiedenen Textquellen zufriedenstellend verarbeiten kann. Beispielsweise macht es einen großen Unterschied, ob handschriftliche oder maschinell erzeugte Berichte ausgewertet werden sollen, oder tabellarische Informationen im Gegensatz zu Fließtexten.
Da die Inputdaten, sowohl die Text- als auch die Bilddaten, aus verschiedenen Quellen stammen, können sie verschiedene Formate und Terminologien besitzen. Das kann es schwierig machen ein einheitliches Modell zu entwickeln. Daher muss in einem ersten Schritt ein Konzept entwickelt werden, wie die Daten in ein für das Modell verwendbares Format überführt werden können.
Lösungsansatz
Der erste Schritt ist die Wahl des OCR-Tools, wie z.B. Tesseract, Google Vision API, ABBYY FineReader oder Amazon Textract, die unterschiedlich gute Ergebnisse für verschiedene Inputarten liefern. Moderne NLP Techniken, die Beziehungen zwischen Wörtern und ihrem jeweiligen Kontext erkennen, sind Naive Bayes Klassifikatoren, TF-IDF- oder LSTM-Algorithmen. Für einfachere Informationsextraktionen dürften zudem auch regelbasierte Ansätze ausreichen.
Die geologischen Karten fallen in den Bereich der Computer Vision. Algorithmen wie Convolutional Neural Networks (CNN) sind in der Lage, Objekte in Bilddaten zu detektieren und zu klassifizieren. Dadurch können sie in den geologischen Karten automatisch relevante Informationen identifizieren.
Um eventuelle Abhängigkeiten zu erfassen und zu modellieren, sollten die unterschiedlichen Inputdaten - die Textdaten aus den geologischen Berichten und die Bilddaten der Karten - in einen gemeinsamen Datensatz integriert werden. Wenn für ein bestimmtes Gebiet sowohl Berichte als auch Karten vorliegen sind die Ergebnisse entsprechend aussagekräftiger. Die jeweils extrahierten Informationen werden dann in einer Datenbank zusammengefasst. Der Nutzer greift auf diese Daten über ein Graphical User Interface (GUI) zu und kann die vielversprechendsten Explorationsstätten betrachten.