KI zur automatischen Gensequenzanalyse

Hintergrund

Das Genom eines lebenden Organismus oder eines Virus ist die Gesamtheit aller Gensequenzen in der DNA sowie der nicht kodierenden DNA-Sequenzen. Es kodiert die Synthese der RNA oder der Proteine, die alle Aktivitäten in einem Organismus oder in einem Virus steuern. Daher geben die DNA-Sequenzierung und die Bestimmung der kodierenden Sequenzen Auskunft über den genetischen Bauplan der Organismen.

Das menschliche Genom zum Beispiel besteht allerdings aus fast 3 Milliarden DNA-Basenpaaren und nur etwa 2% des Genoms sind proteincodierende Gene, so dass die Genomanalyse ein komplexer Prozess ist.

Herausforderungen

Die DNA besteht aus zwei verbundenen Nukleotidsträngen, die durch die darin enthaltenen Basen C (Cytosin), G (Guanin), A (Adenin) und T (Thymin) charakterisiert sind, wobei nur A mit T und G mit C sich paaren können. Die DNA kann also als ein String verstanden werden, der diese vier Buchstaben enthält. Die langen Sequenzen von sich oft wiederholenden Buchstaben führen zu dem Problem, dass es komplex ist, getrennte Gensequenzen zu erkennen und zwischen Gen- und nicht-kodierenden Sequenzen zu unterscheiden, die sich nur durch ein Basenpaar unterscheiden können. Daher muss ein machine learning (ML) Modell in der Lage sein, sich die Mehrzahl der vergangenen Buchstaben (Basen) zu merken und ihre Abhängigkeiten untereinander zu erfassen.

Lösungsansatz

Die Extraktion von Informationen aus den textähnlichen DNA-Sequenzdaten erfordert ein ML Modell, das in der Lage ist, die langfristigen Abhängigkeiten von vorhergehenden Buchstaben zu erfassen. Solche Aufgaben können durch bidirektionale rekurrierende neuronale Netze (BRNN) gelöst werden, z.B. durch ein Long Short-Term Memory (LSTM) Algorithmus. Diese Algorithmen beziehen für die Berechnung neuer Ergebnisse frühere Ergenisse und Zustandsvariablen ein.

Durch Indem die Beziehungen zwischen den Basen bestimmt werden, ist das Modell in der Lage, Gensequenzen zu identifizieren und sie nach ihrer Funktionalität zu klassifizieren. Es kann auch Unregelmässigkeiten in der DNA-Sequenz erkennen, was die Krankheitsdiagnostik unterstützt und eine personalisiertere medizinische Behandlung ermöglicht.

Mehr Use Cases in Gesundheitswesen & Pharma

Genomsequenzierung

Informationsextraktion für die Erstellung elektronischer Patientenakten

Medizinische Diagnostik anhand bildgebender Verfahren

Nachverfolgung und Aktualisierung von Nebenwirkungen