Künstlerische Darstellung von CSI:FingerID als Web-Suchmaschine

Entdecker der verborgenen Metabolite

von Prof. Dr. Sebastian Böcker
Künstlerische Darstellung von CSI:FingerID als Web-Suchmaschine
Abbildung: Franziska Hufsky

Alles, was lebt, hat Metabolite, produziert Metabolite und verbraucht Metabolite. Die chemischen Prozesse zur „Verarbeitung“ dieser Moleküle sind gemeinhin als Stoffwechsel bekannt. Damit haben sie nicht nur eine enorme Bedeutung für unser Leben, sondern sie liefern auch wertvolle Informationen über den Zustand eines Lebewesens oder einer Umgebung. Doch die Diversität dieser chemischen Verbindungen bereitet der Wissenschaft einige Schwierigkeiten. Nur vergleichsweise wenige Moleküle wurden bisher in ihrer Struktur aufgeklärt, und wir wissen bislang nicht einmal, was wir nicht wissen – wie viele Metabolite also noch auf die Aufklärung ihrer Struktur warten. Die praktische Bedeutung dieser Strukturaufklärung lässt sich am Beispiel von Wirkstoffen aus der Natur zeigen: Diese sind entzündungshemmend, können Krankheitskeime abtöten, oder unterbinden das Wachstum von Krebszellen. Weit mehr als ein Drittel aller heute verfügbaren Medikamente basieren auf solchen sekundären Naturstoffen, wie sie in zahlreichen Pflanzen, Bakterien und Pilzen vorkommen. Den reichhaltigen Medizinschrank der Natur nutzbar zu machen und neue Naturstoffe zu identifizieren, ist jedoch zeit-, kosten- und arbeitsintensiv.

Weil Naturstoffe und andere Metabolite üblicherweise in extrem niedrigen Konzentrationen vorkommen – oft sind weniger als ein Millionstel Millionstel Millionstel Gramm in einer Probe – nutzt die Wissenschaft Massenspektrometrie, um diese Moleküle nachzuweisen. In aller Regel werden dabei aber nur die Moleküle identifiziert, die durch den Abgleich mit einer Datenbank von Referenzmessungen, also kommerziell erhältlichen Reinsubstanzen, eindeutig zugeordnet werden können. Auf diese Weise lässt sich leider niemals die Struktur eines gänzlich „neuen“ Moleküls aufklären. (Natürlich ist das Molekül nicht wirklich neu, die Natur produziert es ja schon seit Millionen von Jahren; nur der Menschheit ist seine Struktur noch gänzlich unbekannt.)

Hier kommt die Bioinformatik ins Spiel: Wir entwickeln beispielsweise Methoden, die es erlauben, mit den Massenspektrometriedaten in einer Molekülstruktur-Datenbank zu suchen. Unsere Suchmaschine für Molekülstrukturen – CSI:FingerID – kann man sich vorstellen wie eine Suche im Internet: Zu einer Anfrage (einem gemessenen Massenspektrum) liefert sie eine geordnete Liste von Treffern (Molekülstrukturen); im besten Fall findet sich die korrekte Antwort an der ersten Stelle. Anders als bisher muss dazu lediglich die Struktur eines Moleküls hinterlegt werden, aber die Substanz nicht kommerziell erhältlich sein. Das funktioniert auch dann, wenn diese Moleküle noch nie beobachtet wurden: So haben wir beispielsweise die Strukturen von mehr als 28.000 theoretisch möglichen Gallensäuren generiert.

Worfklow und Interface der SIRIUS Software Worfklow und Interface der SIRIUS Software Abbildung: Sebastian Böcker, SIRIUS Nutzerinterface

Da geht noch mehr: COSMIC und CANOPUS

Aber wie man es von Suchmaschinen kennt, findet sich die richtige Antwort nicht unbedingt an der ersten Position der Suchresultate. Wie können wir diejenigen Anfragen finden, bei der unsere Methode „ein gutes Gefühl” hat, also relativ sicher ist, dass die Molekülstruktur an der Spitze der Liste tatsächlich korrekt ist? Genau das erlaubt COSMIC, das ebenjenes Vertrauen als Zahl zwischen 0 und 100 Prozent misst. Und tatsächlich konnten wir auf diese Weise im Verdauungssystem von Mäusen zahlreiche „neue”, also bislang unbekannte Gallensäuren identifizieren.

Für eine Molekül-Suchmaschine muss die korrekte Struktur schon in der Datenbank gespeichert sein, in der wir suchen. Chemisch möglich sind mehr Molekülstrukturen, als es Atome im Universum gibt: Was tun wir für die zahlreichen Moleküle, deren Struktur in keiner Datenbank der Welt zu finden ist? Hier setzt unsere Methode CANOPUS an und bestimmt alle Stoffklassen des unbekannten Moleküls: Ist es ein Zucker, eine Aminosäure, ein Alkohol, eine Gallensäure? CANOPUS beantwortet diese Frage für mehr als 2500 Stoffklassen, und das auch für Moleküle mit komplett unbekannter Struktur. Diese Information reicht in vielen Fällen bereits aus, um wichtige biologische oder medizinische Fragestellungen zu beantworten. CANOPUS ermöglicht gewissermaßen einen Blick aus der „Vogelperspektive”; die aufwändige eindeutige Identifikation eines Metaboliten ist häufig überhaupt nicht notwendig.

Die Strukturen von 111 zufällig ausgewählten der 28630 konjugierten Gallensäuren....
Abbildung: Kai Dührkop
Die 28630 konjugierten Gallensäuren wurden in Datensätzen gesucht, bei denen...
Abbildung: Martin A. Hoffmann
CANOPUS ordnet jeder gemessenen Verbindung die wahrscheinlichsten Stoffklassen zu. Die...
Abbildung: Kai Dührkop

Die Rolle der Informatik

Was auf Seiten der biologisch-medizinischen Anwendung verständlich klingt, erfordert auf Seiten der Informatik große methodische Anstrengungen. Im ersten Schritt unserer Analyse werden beispielsweise die Massenspektren der kleinen Moleküle mit Summenformeln annotiert; das dahinterliegende informatische Problem ist leider beweisbar schwer, was die Existenz einer schnellen Lösungsmethode eigentlich unmöglich macht. (Formal gesprochen: Das Problem ist NP-schwer und ein Algorithmus mit polynomieller Laufzeit ist unmöglich, außer P=NP.) In der Praxis darf die Auswertung eines Massenspektrums aber nicht mehr als eine Sekunde dauern; durch ausgiebiges Weiterentwickeln und Engineeren der Algorithmen konnten wir diese Laufzeit tatsächlich erreichen.

In den nächsten Schritten der Auswertung nutzen wir Verfahren des maschinellen Lernens. Neben Kernel-basiertem Lernen mit Support Vector Machines kommen hier vor allem tiefe Neuronale Netze zum Einsatz. Auch dabei ist viel Methodenentwicklung notwendig: So benötigen Maschinelle Lernverfahren in der Regel große Datenmengen, um trainiert zu werden. Für die Vorhersage von Stoffklassen haben wir deshalb ein zweistufiges Verfahren entwickelt: Im ersten Schritt werden die Massenspektrometriedaten in einen molekularen Fingerabdruck umgewandelt; im zweiten Schritt werden aus dem molekularen Fingerabdruck die Stoffklassen vorhergesagt. Dieses zweistufige Verfahren ermöglicht es, im ersten Schritt auf einer vergleichsweise kleinen Datenmenge von zehntausenden Spektren zu trainieren, um dann im zweiten Schritt auf Millionen von Strukturen die charakteristischen Struktureigenschaften zu bestimmen, die für eine Stoffklasse signifikant sind.

Fazit

Warum es häufig zeitkritisch ist, ein neues Medikament zu finden, hat nicht zuletzt die Corona-Pandemie gezeigt. Wenn in 1000 Jahren ein Metabolit „entdeckt” wird, der die Heilung von Alzheimer ermöglicht, so nützt uns heute Lebenden das leider herzlich wenig. Unsere Methoden beschleunigen diesen Prozess und haben dementsprechend weite Verbreitung gefunden: Forscherinnen aus 79 Ländern nutzen die von uns entwickelten Methoden viele tausende Male täglich und haben bereits mehr als 200 Millionen Anfragen an unsere Server gesendet.

Jemand hält ein Smartphone, auf dem die YouTube-App startet
Boecker Lab Kanal: weiterführende Videos zur Software
Künstlerische Darstellung von CSI:FingerID als Web-Suchmaschine
Hier kann die Software frei heruntergeladen werden.
Laptop mit Diagrammen und Symbole für Bioinformatik (DNA, Strukturformel u.a.)
Viele kleine Geschichten aus der Bioinformatik im Blog

Literatur

M. A. Hoffmann, L.-F. Nothias, M. Ludwig, M. Fleischauer, E. C. Gentry, M. Witting, P. C. Dorrestein, K. Dührkop, and S. Böcker. High-confidence structural annotation of metabolites absent from spectral libraries. Nature Biotechnology, https://doi.org/10.1038/s41587-021-01045-9, 2021.

K. Dührkop, L. F. Nothias, M. Fleischauer, R. Reher, M. Ludwig, M. A. Hoffmann, D. Petras, W. H. Gerwick, J. Rousu, P. C. Dorrestein, and S. Böcker. Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra. Nature Biotechnology, 39(4):462–471, 2021. (Link)

K. Dührkop, M. Fleischauer, M. Ludwig, A. A. Aksenov, A. V. Melnik, M. Meusel, P. C. Dorrestein, J. Rousu, and S. Böcker. SIRIUS 4: a rapid tool for turning tandem mass spectra into metabolite structure information. Nature Methods, 16(4):299–302, 2019. (Link)

K. Dührkop, H. Shen, M. Meusel, J. Rousu, and S. Böcker. Searching molecular structure databases with tandem mass spectra using CSI:FingerID. Proceedings of the National Academy of Sciences U S A, 112(41):12580–12585, 2015. (Link)

M. Ludwig, L.-F. Nothias, K. Dührkop, I. Koester, M. Fleischauer, M. A. Hoffmann, D. Petras, F. Vargas, M. Morsy, L. Aluwihare, P. C. Dorrestein, and S. Böcker. Database-independent molecular formula annotation using Gibbs sampling through ZODIAC. Nature Machine Intelligence, 2(10):629–641, 2020. (Link)

Sebastian Böcker, Univ.-Prof. Dr.
Lehrstuhl Bioinformatik
Sebastian Böcker
Raum 3405
Ernst-Abbe-Platz 1-2
07743 Jena