Information

Welche Anwendungen gibt es, um die Struktur von Proteinen vorherzusagen?


Proteinmoleküle sind sehr wichtig, da sie fast alle chemischen Reaktionen in der Zelle katalysieren, die Genaktivität regulieren und die Zellstruktur bereitstellen.

Bei der Vorhersage der Proteinstruktur konnte ich jedoch nicht viele Anwendungsfälle finden. Im omicsonline konnte ich einen Artikel über Computational Methods for Protein Structure Prediction and its Application in Drug Design finden:

Die meisten modernen Wirkstoffforschungsprojekte beginnen mit der Identifizierung und Verifizierung von Protein-Targets, um ein verifiziertes Wirkstoff-Target zu erhalten. Für ein strukturbasiertes Wirkstoffdesign muss die dreidimensionale Struktur des Proteins experimentell entweder mithilfe von Röntgenkristallographie oder Kernspinresonanzspektroskopie (NMR) bestimmt werden.

Gibt es also, da Proteine ​​für die Aufrechterhaltung des Körpers lebenswichtig sind, andere Gründe für die Vorhersage der Struktur?


Ganz spontan ist die Proteinstruktur sehr wichtig, um zu bestimmen, wie Proteine ​​interagieren, zum Beispiel um molekulare Wege oder virale Kapsidstrukturen zu bestimmen. Die Kenntnis der Struktur eines Proteins kann Wissenschaftlern helfen, besser zu verstehen, was es tut und wie es es tut. Durch die Untersuchung von Proteinstrukturen können Wissenschaftler genau bestimmen, wie ein anderes Allel für ein Gen auf biochemischer Ebene Veränderungen im Phänotyp eines Organismus verursacht. Die Vorhersage von Stellen innerhalb der Struktur eines Proteins, die eine enzymatische Funktion haben, ermöglicht es Wissenschaftlern vorherzusagen, wie verschiedene Faktoren seine Funktion beeinflussen. Temperatur- oder pH-Unterschiede können sich auch auf die Proteinstruktur auswirken, und das Verständnis, wie sich ein Protein aufgrund von pH- oder Temperaturänderungen ändert, kann Wissenschaftlern helfen, zu bestimmen, wie ein Protein in seiner spezifischen Umgebung funktioniert.


Um Ihre Frage speziell im Zusammenhang mit dem Wirkstoffdesign zu beantworten: Es wäre natürlich toll, wenn wir uns beim Wirkstoffdesign auf die Vorhersage der Proteinstruktur verlassen könnten, aber die Strukturvorhersage ist noch nicht ganz genau. Arzneimitteldesign-Projekte sind teuer, daher ist es oft klüger, das Geld zuerst für die experimentelle Strukturbestimmung auszugeben, da dies eine zuverlässigere Grundlage für das strukturgesteuerte Arzneimitteldesign bietet (die Alternative wäre, das Geld für mehr fehlgeschlagene Designversuche auszugeben ein gutes Medikament, weil diese Versuche von einer ungenau vorhergesagten Struktur geleitet werden).

Außerdem ist die experimentelle Strukturbestimmung für die Vorhersage wertvoll, da sie die Bibliothek bekannter Strukturen für die Homologiemodellierung vergrößert.


Die Vorhersage der Proteinstruktur steckt noch in den Kinderschuhen, daher fehlen Beispiele, die Vorteile sind jedoch immens, in Bezug auf Proteinstruktur = Funktion, und wie Sie sagten, katalysieren oder bilden Proteine ​​​​fast alles im Körper. Wir können die Struktur unzuverlässig herausfinden, aber die Vorhersage der Struktur würde es uns ermöglichen, Proteine ​​​​nach Ordnung zu bauen, denn die Vorhersage der Struktur aus der Sequenz bedeutet die Vorhersage der Proteinfaltung, die in vielerlei Hinsicht der heilige Gral der modernen Biologie ist. In der Lage zu sein, dies zuverlässig und mit komplexeren Proteinen zu tun, würde es uns ermöglichen, Proteine ​​​​zu konstruieren, die bestimmte Aufgaben erfüllen, anstatt zu hoffen, über eines zu stolpern, das dies tut, und es dann einfach zu kopieren.


Ensemble-Workflow zur Strukturvorhersage von SARS-CoV-2 nsp3. Fallweise Protokolle der Strukturvorhersage werden durch genaues Parsen jeder Proteinsequenz unter Verwendung von Informationen über die Position von intrinsisch ungeordneten Regionen (IDR), Transmembranregionen (TM), Signalpeptiden und Templaten bestimmt

Bisher wurden Teil- oder Vollstrukturen von fünf Proteinen aus SARS-CoV-2 experimentell gelöst. Angesichts der Dringlichkeit, die molekulare Maschinerie von SARS-CoV-2 zu verstehen, haben wir einen Ensemble-Workflow verwendet, um Strukturmodelle aller ungelösten strukturellen und reifen nichtstrukturellen viralen Proteine ​​​​zu generieren. Aufgrund der Leistungsfähigkeit von Methoden zur Proteinstrukturvorhersage je nach Komplexität wurden Proteinsequenzen sorgfältig analysiert, um die Kombination der modernsten Methoden der Proteinstrukturvorhersage zu optimieren. Als solche haben die resultierenden Modelle die höchstmögliche Auflösung und maximale Informationen in Bezug auf die Gesamtform jedes Proteins. Hier bieten wir eine Synopse für jedes der 27 reifen viralen Proteine ​​zusammen mit ihren Strukturmodellen und zusätzlichen wichtigen Informationen, wie der Variabilität relativ zu SARS-CoV-1 und einer möglichen funktionellen Relevanz für SARS-CoV-2.

Auf der Grundlage eines aus jeder Sequenz extrahierten Profils wurden Fall-zu-Fall-Protokolle erstellt, die aus zwei Hauptfaktoren bestanden:

  1. Primärsequenzbasierte Informationen. Reste innerhalb konservierter Domänen (Pfam (Finn et al. 2014)) und intrinsisch ungeordnete Regionen wurden mit IuPred2 (Mészáros, Erdos und Dosztányi 2018) identifiziert, das auf der Zusammensetzung der Aminosäuresegmente und ihrer Tendenz zur Bildung stabiler Strukturmotive beruht. TMHMM (Krogh et al. 2001) wurde verwendet, um die helikalen Transmembranproteinregionen basierend auf einem Hidden-Markov-Modell vorherzusagen. In SARS-CoV-2 sind keine β-Fass-Transmembranproteine ​​vorhanden.
  2. Verfügbarkeit experimentell ermittelter Strukturen. PSI-BLAST wurde verwendet, um homologe mit Teil- oder Vollstrukturen zu identifizieren, die in der Proteindatenbank (PDB) verfügbar sind und als Template für die Modellierung verwendet werden könnten.

Mehrere hochkonservierte SARS-CoV-1-Proteine ​​wurden experimentell gelöst und stehen für unsere Analyse zur Verfügung. Um die genaue Übersetzung von Informationen aus diesen Strukturen zu maximieren, wurden Aminosäuresubstitutionen analysiert, um diejenigen zu identifizieren, die wahrscheinlich die Proteinkonformation beeinflussen. Beispiele für Veränderungen, die sich auf die Proteinstruktur auswirken, sind der Austausch einer hydrophoben Seitenkette durch eine geladene Aminosäure am Proteinkern oder eine Substitution durch Prolin (ein Helix-„Brecher“) innerhalb einer helikalen Struktur. Falls solche Substitutionen nicht gefunden werden und das Protein mehr als 70 % Identität mit der Matrize aufweist, werden Loops und Substitutionen lokal modelliert (LM) unter Verwendung des Rosetta-Remodels (Huang et al. 2011) und fixbb (Hu et al. 2007 Kuhlman .). und Baker 2000)-Anwendungen. Der Vergleich kürzlich veröffentlichter kristallographischer Strukturen mit Modellen, die unter Verwendung sorgfältig analysierter Proteinsequenzen und der Verwendung von LM für ausgewählte Regionen generiert wurden, scheint ein effektiver Ansatz zu sein (Prates et al. 2020). Das Erreichen einer hohen lokalen Auflösung, insbesondere an Stellen der Substrat-/Ligand-Bindung, kann die Ergebnisse nachfolgender Studien zur Identifizierung von Kandidaten für kleine Moleküle durch molekulares Docking erheblich verbessern. Obwohl oft Ensemble-Docking-Ansätze verwendet werden, um mit der konformativen Flexibilität des Protein-Targets fertig zu werden, ist die Verfeinerung der Bindungsstelle basierend auf Strukturinformationen von Homologen in der Holoform, falls verfügbar, besser geeignet, um funktionelle Komplexe zu identifizieren.

Homologie-basierte Modellierung ist typischerweise der optimale Ansatz für Fälle, in denen die Identität zum Template über 30 % liegt. Der fragmentbasierte (FB)-Ansatz des I-TASSER (Yang et al. 2015)-Workflows wurde in Fällen verwendet, in denen der Identitätsbereich 30-70% betrug, und um ein alternatives Modell zu LM in Regionen von Proteinen bereitzustellen, die Substitutionen beherbergen von denen erwartet wird, dass sie die Proteinkonformation signifikant beeinflussen. Um Strukturen für Proteine ​​vorherzusagen, für die keine Kristallstruktur eines Homologs verfügbar ist, haben wir den trRosetta (Yang et al. 2020) Workflow angewendet. Basierend auf den Benchmarks der Critical Assessment of Techniques for Protein Structure Prediction (CASP13) wurde trRosetta entwickelt, um eine solide Leistung für die Modellierung neuartiger Falten zu erzielen, indem ein tiefes Restnetzwerk zur Vorhersage des Abstands und der Orientierung zwischen den Resten verwendet wird, das die Energieminimierung leitet. In Prates et al. 2020 verwenden wir die Analyse von nsp3, dem größten reifen Protein von SARS-CoV-2, als Beispiel, um den Arbeitsablauf zu beschreiben (Abbildung).

Finn, Robert D., Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger et al. 2014. "Pfam: Die Proteinfamilien-Datenbank." Nukleinsäureforschung 42 (Datenbankausgabe): D222–30.

Huang, Po-Ssu, Yih-En Andrew Ban, Florian Richter, Ingemar Andre, Robert Vernon, William R. Schief und David Baker. 2011. „RosettaRemodel: Ein verallgemeinerter Rahmen für das Design von flexiblen Backbone-Proteinen.“ Plus eins 6 (8): e24109.

Hu, Xiaozhen, Huanchen Wang, Hengming Ke und Brian Kuhlman. 2007. „Hochauflösendes Design einer Proteinschleife.“ Proceedings of the National Academy of Sciences of the United States of America 104 (45): 17668–73.

Krogh, A., B. Larsson, G. von Heijne und E. L. Sonnhammer. 2001. "Vorhersage der Transmembranproteintopologie mit einem Hidden-Markov-Modell: Anwendung auf vollständige Genome." Zeitschrift für Molekularbiologie 305 (3): 567–80.

Kuhlman, B. und D. Baker. 2000. "Native Proteinsequenzen sind für ihre Strukturen nahezu optimal." Proceedings of the National Academy of Sciences of the United States of America 97 (19): 10383–88.

Mészáros, Bálint, Gábor Erdos und Zsuzsanna Dosztányi. 2018. "IUPred2A: Kontextabhängige Vorhersage der Proteinstörung als Funktion des Redoxzustands und der Proteinbindung." Nukleinsäureforschung 46 (W1): W329–37.

Prates, Erica Teixeira, Michael R. Garvin, Mirko Pavicic, Piet Jones, Manesh Shah, Christiane Alvarez, David Kainer et al. 2020. "Funktionelles Immunschwächesyndrom durch Darminfektion bei COVID-19." bioRxiv. https://doi.org/10.1011/2020.04.06.028712.

Yang, Jianyi, Ivan Anishchenko, Hahnbeom Park, Zhenling Peng, Sergey Ovchinnikov und David Baker. 2020. „Verbesserte Vorhersage der Proteinstruktur mithilfe vorhergesagter Orientierungen zwischen den Resten.“ Proceedings of the National Academy of Sciences of the United States of America 117 (3): 1496–1503.

Yang, Jianyi, Renxiang Yan, Ambrish Roy, Dong Xu, Jonathan Poisson und Yang Zhang. 2015. „Die I-TASSER Suite: Proteinstruktur- und -funktionsvorhersage.“ Naturmethoden 12 (1): 7–8.


Welche Anwendungen gibt es, um die Struktur von Proteinen vorherzusagen? - Biologie

ein Institut für Integrative Biologie, Universität Liverpool, Liverpool L69 7ZB, England, B Department of Biochemistry, University of Washington, Seattle, WA 98195, USA, C Institut für Proteindesign, University of Washington, Seattle, WA 98195, USA, und D Howard Hughes Medical Institute, University of Washington, Box 357370, Seattle, WA 98195, USA
* Korrespondenz-E-Mail: [email protected]

Evolutionärer Druck auf intramolekulare oder intermolekulare Restwechselwirkungen, die für die Proteinstruktur oder -funktion wichtig sind, kann zu einer Kovarianz zwischen den beiden Positionen führen. Jüngste methodische Fortschritte ermöglichen es, aus diesem evolutionären Kovarianzsignal viel genauere Kontaktvorhersagen abzuleiten. Die praktische Anwendung von Kontaktvorhersagen beschränkte sich weitgehend auf die Strukturbioinformatik, doch wie diese Arbeit zeigen soll, können die Daten für Strukturbiologen, die in der Röntgenkristallographie, Kryo-EM oder NMR arbeiten, von enormem Wert sein. Integrative Strukturbioinformatikpakete wie Rosetta können Kontaktvorhersagen bereits auf vielfältige Weise ausnutzen. Der Beitrag von Kontaktvorhersagen beginnt beim Konstruktentwurf, wo strukturelle Domänen möglicherweise separat ausgedrückt werden müssen und Kontaktvorhersagen helfen können, Domänengrenzen vorherzusagen. Strukturlösung durch molekularen Ersatz (MR) profitiert auf vielfältige Weise von Kontaktvorhersagen: In schwierigen Fällen können genauere Suchmodelle konstruiert werden mit von Anfang an Modellierung, wenn Vorhersagen verfügbar sind, während intermolekulare Kontaktvorhersagen die Konstruktion größerer, oligomerer Suchmodelle ermöglichen können. Darüber hinaus kann die MR, die supersekundäre Motive oder großflächige Screenings gegen die PDB verwendet, Informationen wie die parallele oder antiparallele Natur jeder β -Strangpaarung im Ziel ausnutzen, die aus Kontaktvorhersagen abgeleitet werden können. Kontaktinformationen sind besonders wertvoll bei der Bestimmung von Strukturen mit niedrigerer Auflösung, indem sie bei der Zuweisung von Sequenzregistern helfen. In großen Komplexen können Kontaktinformationen die Bestimmung der Identität eines Proteins ermöglichen, das für einen bestimmten Dichtebereich verantwortlich ist, und dann die Orientierung eines verfügbaren Modells innerhalb dieser Dichte unterstützen. In der NMR können vorhergesagte Kontakte weitreichende Informationen liefern, um die obere Größengrenze der Technik in analoger, aber komplementärer Weise zu experimentellen Methoden zu erweitern. Schließlich können vorhergesagte Kontakte zwischen biologisch relevanten Grenzflächen und reinen Gitterkontakten in einer endgültigen Kristallstruktur unterscheiden und haben das Potenzial, funktionell wichtige Regionen zu identifizieren und die Konsequenzen von Mutationen vorherzusagen.

1. Einführung: Kontaktvorhersagen, ihr Potenzial und ihre Grenzen

Die genaue Vorhersage von Rückstandskontakten in Proteinen ist eine seit langem bestehende Herausforderung für die wissenschaftliche Gemeinschaft. Heutzutage wird die Vorhersage von Restkontakten normalerweise mit Programmen durchgeführt, die einen oder beide von zwei Algorithmen verwenden: Evolutionäre Kopplung (EC)-Analyse und überwachtes maschinelles Lernen (SML).

EC-Methoden verwenden nur Sequenzinformationen, um die koordinierten Änderungen von Restpaaren in Proteinfamilien zu identifizieren. Diese koordinierten Veränderungen zwischen den beteiligten Resten werden typischerweise durch den evolutionären Druck angetrieben, die Struktur und Funktion des Proteins zu erhalten. Viele Jahre lang war die Vorhersage von in Kontakt stehenden Restpaaren durch Analyse des koevolutionären Musters von Aminosäuren in einer Proteinfamilie ( 1 ) durch das angewandte statistische Modell eingeschränkt. Das sogenannte lokale statistische Modell war nicht in der Lage, genaue Kontaktvorhersagen zu unterscheiden, d.h. Direkte ( EINB und BC ) kovariierende Paare von Kontaktresten, von indirektem ( EINC ) Paaren von Resten, die kovariieren, aber nicht in Kontakt stehen. Einige Jahre später, aber bis vor kurzem weitgehend vergessen, wendeten Lapedes und Mitarbeiter erstmals ein globales statistisches Modell an, um diese Hürde erfolgreich zu überwinden (Lapedes et al. , 1999). In jüngerer Zeit haben verschiedene Forschungsgruppen dieses Konzept erneut aufgegriffen und konnten durch unterschiedliche Lernverfahren desselben globalen Modells die Präzision der Kontaktvorhersagen dramatisch verbessern. Während sich einige auf das Prinzip der inversen Kovarianzmatrixschätzung (Morcos et al. , 2011 Mark et al. , 2011 Jones et al. , 2012 ) hat sich gezeigt, dass pseudo-likelihood-basierte Ansätze zu den genauesten Vorhersagen führen (Balakrishnan et al. , 2011 Ekeberg et al. , 2013 Kamisetty et al. , 2013). Diese Methoden sind jedoch stark von der Verfügbarkeit ausreichender Sequenzhomologe abhängig, um wirksam zu sein (siehe zum Beispiel Morcos et al. , 2011 Kamisetty et al. , 2013 Jones et al. , 2015 Mark et al. , 2012 Ovchinnikov, Kim et al. , 2015 Skwark et al. , 2014). Nichtsdestotrotz haben diese zusammen mit der zunehmenden Größe von Proteinsequenzdatenbanken (UniProt Consortium, 2015 ) eine genaue Kontaktvorhersage zur Realität gemacht (Marks et al. , 2012 de Juan et al. , 2013). Prominente Kontaktvorhersagemethoden und Zusatzsoftware, insbesondere solche, die als Server verfügbar sind, sind in Tabelle 1 aufgeführt.

Tabelle 1
Schlüsselmethoden der Kontaktvorhersage oder deren Anwendung als Server oder Downloads verfügbar


Abbildung 1
Eine schematische Darstellung der verschiedenen Punkte, an denen Kontaktvorhersagen, abgeleitet aus multiplen Proteinsequenz-Alignments (Mitte), im Rahmen der Strukturbestimmung (von links nach rechts) durch Röntgenkristallographie oder Kryo-EM von Nutzen sind. Anwendungen auf Lösungsstreuungsdaten und NMR-Experimente sind unten rechts gezeigt.

SML-Methoden verwenden eine Vielzahl von sequenzabhängigen und sequenzunabhängigen Informationen, um sich berührende Restpaare vorherzusagen (Cheng & Baldi, 2005 Shackelford & Karplus, 2007 González et al. , 2013 Wang & Xu, 2013 Zhang et al. , 2016 Du et al. , 2016). Diese Methoden leiten Kontakte ab, indem sie Proteinmerkmale, Sequenzprofile und gegenseitige Informationen analysieren. Obwohl im Allgemeinen EC-Methoden unterlegen, können SML-Algorithmen EC-Algorithmen für Familien mit weniger homologen Sequenzen übertreffen (Skwark et al. , 2014 Wang & Xu, 2013 Mai et al. , 2015 ).

Da die SML-Methoden gleichzeitig lernen und Restpaare vorhersagen, leiden sie an einer ähnlichen Unfähigkeit, wie bei älteren EC-Methoden, die lokale statistische Modelle verwenden, direkt und indirekt kovariable Restpaare zu unterscheiden. Um diese potenziell wertvollen Informationen zu berücksichtigen, kombinieren neuere Ansätze jedoch Methoden aus beiden Kategorien: EC und SML. Die SML-Vorhersagen können entweder als Vorstufe zu EC-Methoden verwendet werden, ein solches Beispiel ist GREMLIN (Ovchinnikov, Kinch et al. , 2015 ) oder die Ausgabe mehrerer EC-Methoden zusammen mit Sequenzprofilen können beispielsweise als Features in SML-Methoden verwendet werden MetaPSICOV (Jones et al. , 2015) und PConsC 2 (Skwark et al. , 2014). Pipelines, die verschiedene EC- und SML-Methoden kombinieren, werden oft als Metaprädiktoren bezeichnet, und kürzlich wurde ein nützlicher Vergleich der besten Methoden veröffentlicht (Wang et al. , 2017). In den meisten Fällen übertreffen Metaprädiktoren einzelne EC- oder SML-Methoden in der Genauigkeit der Kontaktvorhersage, aber die Verbesserung der Strukturvorhersage ist weniger klar. Die Verbesserung der Genauigkeit der Kontaktvorhersage macht sich besonders in Fällen bemerkbar, in denen die verfügbaren Sequenzen weniger oder weniger vielfältig sind (de Oliveira et al. , 2016 Wuyun et al. , 2016). Die wichtigsten Ressourcen für die Kontaktvorhersage sind in Tabelle 1 aufgeführt.

1.1. Die Anzahl und Vielfalt der Sequenzen, die für genaue Kontaktvorhersagen erforderlich sind

Neben den frühesten EC-Methoden, die ein globales statistisches Modell implementieren, wurden zahlreiche Richtlinien vorgeschlagen, um die minimale Größe eines multiplen Sequenz-Alignments zu approximieren, die für nützliche Kontaktvorhersagen erforderlich ist. Ursprünglich galten 1000 Sequenzhomologe als Minimum für genaue Vorhersagen (Jones et al. , 2012 Mark et al. , 2012 Andreani & Söding, 2015). In jüngerer Zeit haben Marks und Mitarbeiter einen stärker sequenzspezifischen längenabhängigen Faktor für ihre Methode empfohlen EVFold , wobei die Sequenzanzahl im Alignment das Fünffache der Proteinlänge überschreiten sollte, um gute von Anfang an Faltergebnisse (Marken et al. , 2012). Andere haben auch ähnliche Anforderungen vorgeschlagen (Kamisetty et al. , 2013 ), aber neuere Arbeiten haben diesen Schwellenwert entweder durch verbesserte Kovarianzerkennungsalgorithmen leicht gesenkt (Ovchinnikov, Kinch et al. , 2015 ) oder die Verwendung von Strukturinformationen, falls verfügbar, um eine vorhergesagte Kontaktkarte zu entschlüsseln (Jeong & Kim, 2016). Keine dieser Schätzungen erfasst jedoch die Vielfalt in einer Sammlung von Sequenzen, die auch für eine genaue Kontaktvorhersage wichtig ist, und können daher irreführend sein. Eine der neuesten Richtlinien betrachtet die Diversität in einem multiplen Sequenz-Alignment nach Clustering bei etwa 80 % Sequenzidentität: die Anzahl der effektiven Sequenzen. Obwohl sich verschiedene Gruppen in der Wahl des Sequenzidentitäts-Cutoffs unterscheiden (Morcos et al. , 2011 Jones et al. , 2015 Skwark et al. , 2014 Hopf et al. , 2012 ), legt der Gesamtkonsens nahe, dass die Anzahl der effektiven Sequenzen das effektivste Maß für die Alignment-Diversität und damit ein nützlicher Prädiktor für die Vorhersagegenauigkeit ist. Die neuesten EC-Methoden erfordern etwa 100� effektive Sequenzen, damit die Top-Kontaktvorhersagen genau sind (Jones et al. , 2015 Skwark et al. , 2014). Die Zahl der genau vorhersagbaren Kontakte steigt mit der Zahl der effektiven Sequenzen: Um robust genaue dreidimensionale Strukturmodelle zu generieren, sind etwa fünfmal mehr Sequenzen erforderlich (Ovchinnikov et al. , 2017 ).

1.2. Die Herausforderung, intramolekulare und intermolekulare Kontakte zu unterscheiden

Derzeit können die zur Vorhersage von Rest-Kontakt-Paarungen verwendeten Methoden intramolekulare und intermolekulare Kontakte nicht zuverlässig unterscheiden, aber die Trennung der beiden ist wichtig für die optimale Leistung vieler der unten genannten Methoden. Intramolekulare Restkontakte sind im Allgemeinen einfacher vorherzusagen, da ein einzelner Proteinsequenz-Alignment ausreichend ist. Wenn das Target jedoch Homo-Oligomere bildet, enthält die endgültige Kontaktvorhersage potenziell sowohl intramolekulare als auch intermolekulare Kontakte, wenn letztere für Struktur und Funktion wichtig sind und daher unter evolutionärem Druck stehen. Unter solchen Umständen kann die Interpretation der vorhergesagten Kontakte irreführend sein. Wenn gleichzeitig Strukturinformationen für die monomere oder dimere Proteinstruktur verfügbar sind, können die vorhergesagten Kontaktinformationen bei der Identifizierung potenziell neuer oligomerer Zustände durch die Identifizierung stark vorhergesagter, aber nicht erfüllter Kontaktpaare (Hopf et al. , 2012 Jana et al. , 2014 ).

Wo strukturelle Informationen zur Entflechtung intramolekularer und intermolekularer Kontakte in Homo-Oligomeren nicht verfügbar sind, können Zugänglichkeitsvorhersagen hilfreich sein: Ein intermolekularer Kontakt ist wahrscheinlicher, wenn vorhergesagt wird, dass beide eines in Frage kommenden Kontaktpaares von Resten an der molekularen Oberfläche liegen. Wird bereits in einigen Kontaktvorhersagealgorithmen verwendet, um das Ranking intramolekularer Kontakte zu unterstützen (z PConsC 2 Skwark et al. , 2014 ), die Weiterentwicklung lösungsmittelzugänglicher Oberflächenvorhersagemethoden (Heffernan et al. , 2015 ) soll die Aufteilung intramolekularer und intermolekularer Kontakte in vorhergesagten Kontaktkarten erleichtern. Für Transmembranproteine ​​werden üblicherweise Lipophilievorhersagen verwendet, um membranseitige Reste zu erkennen (Koehler Leman et al. , 2015 ), die helfen könnte, intermolekulare Kontakte in der Doppelschicht zu unterscheiden.

Bei heterooligomeren Proteinkomplexen steht die Vorhersage von Kontaktpaaren vor einer anderen Herausforderung. Obwohl die Entflechtung intramolekularer und intermolekularer Kontakte nicht erforderlich ist, ist die Generierung des multiplen Sequenzalignments für EC-Methoden eine Herausforderung, da orthologe wechselwirkende Sequenzpaare zuverlässig aus einer großen Anzahl von Spezies identifiziert werden müssen. Typischerweise werden Sequenzen aus einzelnen Alignments unter Verwendung von bakteriellen Genomkoordinaten gepaart, d.h. je näher ihre Position im Genom ist, desto wahrscheinlicher ist ihre Koexpression und physische Interaktion (Ovchinnikov et al. , 2014 Hopf et al. , 2014 Skerker et al. , 2008). Diese Information ist wichtig, da die Konservierung von Protein-Protein-Wechselwirkungen möglicherweise nicht bei allen Homologen vorhanden ist. Mit diesem Ansatz haben mehrere Studien die Anwendbarkeit von EC-Methoden auf heterooligomere Proteinkomplexe gezeigt. Hopf und Mitarbeiter sagten beispielsweise 17 von 19 Restkontakten in der Grenzfläche des DinJ–YafQ-Komplexes (Hopf et al. , 2014). Ovchinnikov und Mitarbeiter sagten zuverlässig die wenigen Kontaktrestpaare zwischen den Proteinen des 50S-Ribosomal-Untereinheitskomplexes und anderen Proteinkomplexen voraus (Ovchinnikov et al. , 2014). In jedem Fall ermöglichten die vorhergesagten Kontaktinformationen, anhand der einzelnen Komponentenstrukturen genaue Modelle der Proteinkomplexe zu bestimmen. Eine zweite, einfachere Methode wurde entwickelt, um Sequenz-Alignments für Protein-Protein-Schnittstellen-Kontaktvorhersagen zu erstellen. Diese Methode ist unabhängig vom Bakteriengenom und gleicht orthologe Sequenzpaare unter Verwendung von Genom SPRENGEN Partituren (Iserte et al. , 2015 et al. , 2016 Ochoa & Pazos, 2010). Im Allgemeinen kann diese zweite Methode zur Alignment-Generierung einen weniger genauen Satz übereinstimmender Paare für prokaryontische Proteine ​​erzeugen, hat sich jedoch bereits für Protein-Protein-Interaktionen in Eukaryonten als nützlich erwiesen (Iserte et al. , 2015 ), und neue Methoden können die Genauigkeit für diese Organismen durchaus verbessern (Gueudré et al. , 2016 Bitbol et al. , 2016). Der Leser wird auf Tabelle 1 für die wichtigsten Ressourcen in diesem Bereich verwiesen.

2. Vorhersage der Domänenstruktur des Ziels

Proteindomänen sind die Einheiten der gefalteten Proteinstruktur. Eine genaue Berücksichtigung der Domänenzusammensetzung eines Proteins als potenzieller Gegenstand der strukturellen Charakterisierung ist vor der Zielauswahl, bei der Planung der Probenvorbereitung und bei der Betrachtung von Strategien zur Proteinkristallstrukturlösung wertvoll. Genau definierte Domänengrenzen verbessern die Leistung verschiedener wichtiger bioinformatischer Methoden, wie z. von Anfang an Modellierung (siehe zum Beispiel Baker et al. , 2016) und sogar die Kontaktvorhersage selbst (Kosciolek & Jones, 2015). Das Erkennen nichttrivialer evolutionärer Zusammenhänge durch sensible Sequenzvergleiche oder (kontaktgestützte) von Anfang an Modellierung kann dem Strukturbiologen in einem frühen Stadium helfen, die inhärente Neuheit oder Nichtigkeit eines neuen mutmaßlichen Ziels zu beurteilen. Gewöhnlich werden Proteine ​​heterolog in unvollständiger Form exprimiert, insbesondere für NMR- oder röntgenkristallographische Untersuchungen. Dafür gibt es verschiedene Gründe. Zum Beispiel intrinsisch ungeordnete terminale Regionen, von denen bekannt ist, dass sie die Kristallisation behindern (Slabinski et al. , 2007 ), würde typischerweise aus einem zur Kristallisation bestimmten Protein eliminiert werden. Sehr große Proteine, deren Expression und Aufreinigung sich als schwierig erweisen dürften, werden im Allgemeinen in Abschnitten behandelt, die an Domänengrenzen beginnen und enden (siehe z. B. Zacharchenko et al. , 2015). Schließlich konzentrieren sich NMR-Untersuchungen als Methodik, die in ihrem beherrschbaren Molekulargewichtsbereich begrenzt ist, häufig auf isolierte Domänen.

Die Vorhersage von Domänengrenzen unter Verwendung von vorhergesagten Kontakten ( 1 ) basiert auf einer sehr einfachen Idee: dass native Kontakte und damit vorhergesagte Kontakte häufiger innerhalb von Domänen als zwischen Domänen vorhanden sind. Somit wäre in einer Kontaktkarte für ein Protein mit zwei gleich großen Domänen der Bereich, der vorhergesagte Kontakte zwischen Resten in der ersten Hälfte und Resten in der zweiten Hälfte enthält, im Vergleich zu den Zonen, die Intradomänen-Vorhersagen enthalten, dünn besetzt. Diese Muster sind oft bei visueller Untersuchung erkennbar und wurden von Bioinformatikern verwendet, um Zielsequenzen auf zu analysieren von Anfang an Modellieren (Ovchinnikov, Kim et al. , 2015 Bäcker et al. , 2016 ), kann aber auch quantitativ analysiert werden. Dazu werden mutmaßliche Domänengrenzen entlang der Proteinkette abgetastet, wobei stärkere Vorhersagen Minima in der Dichte der vorhergesagten Interdomänenkontakte entsprechen (Rigden, 2002). Die Idee stammt aus einer Epoche niedrigerer Vorhersagequalitäten und wurde kürzlich erneut aufgegriffen und mit einer Kernel-Smoothing-Methode implementiert (Sadowski, 2013). Ein Vergleich mit anderen Methoden der sequenzbasierten Domänengrenzenvorhersage zeigte, dass sie am besten funktioniert und auch auf Proteine ​​mit mehr als zwei Domänen anwendbar ist (Sadowski, 2013). Dass domainpred Software wäre der empfohlene Ansatz für Strukturbiologen, die daran interessiert sind, die Domänenzusammensetzung ihrer interessierenden Proteine ​​vorherzusagen, aber sie scheint derzeit nicht verfügbar zu sein. Eine ähnliche Funktionalität wurde jedoch in . zur Verfügung gestellt ConKit (Tabelle 1), die die erforderliche Liste von vorhergesagten Kontakten in einer Vielzahl von Formaten aufnehmen kann. Schließlich haben interessante neuere Arbeiten auch die Fähigkeit der Kovarianzanalyse gezeigt, mutmaßliche Faltungseinheiten in weitgehend intrinsisch ungeordneten Proteinen zu erkennen (Toth-Petroczy et al. , 2016 ).

3. Anwendungen zur Kristallstrukturbestimmung

Für die Lösung der Proteinkristallstruktur muss das Phasenproblem – die Fähigkeit, nur Intensitätsdaten direkt zu messen – mit experimentellen oder rechnerischen Mitteln überwunden werden. Die Kontaktvorhersage ist am relevantesten für den molekularen Ersatz (MR) als rechnerischer Weg zur Strukturlösung (Abb. 1). Bei der MR wird ein "Suchmodell", von dem angenommen wird, dass es sich zumindest einem Teil der unbekannten Zielstruktur nähert, in der symmetrischen Einheit positioniert, normalerweise durch sequentielle Rotations- und Translationsschritte. Diese platzierte Struktur kann dann als Quelle für ungefähre Phaseninformationen verwendet werden, was die Berechnung von anfänglichen Elektronendichtekarten ermöglicht. Bevor man sich jedoch speziell mit MR befasst, sollte noch einmal auf den Wert eines umfassenden Verständnisses der Domänenstruktur des Zielproteins für alle Phasenansätze hingewiesen werden.

3.1. Das Ziel besser charakterisieren

Anerkannte evolutionäre Beziehungen zwischen (Domänen des) Ziels und bekannten Proteinstrukturen oder -familien können die Existenz von Merkmalen, die die experimentelle Strukturlösung erleichtern, wertvoll vorhersagen. Beispielsweise können Metallbindungs-, Basenbindungs- oder Cofaktorbindungsstellen jeweils natürliche Liganden oder künstliche Analoga davon ligieren, die Atome mit nützlichen anomalen Streueigenschaften und/oder hohen Massen enthalten. Einkristall- oder Mehrkristall-Beugungsdaten eignen sich in solchen Fällen für eine Lösung durch anomale Streuung und/oder isomorphe Ersatzansätze (Dauter, 2002 Hendrickson, 2014 ). Zu den bekanntesten Methoden zum Nachweis selbst entfernter Homologien gehören HHpred (Söding et al. , 2005 https://toolkit.tuebingen.mpg.de/hhpred), Phyre (Kelley et al. , 2015 http://www.sbg.bio.ic.ac.uk/

phyre2/) und FFA S-3 D (Xu et al. , 2014 http://ffas.godziklab.org). Solche Verfahren zum Erkennen verborgener evolutionärer Beziehungen zwischen dem Ziel und bekannten Strukturen profitieren in zweierlei Hinsicht von der Kontaktvorhersage. Erstens kann das oben beschriebene verbesserte Domänen-Parsing die Empfindlichkeit von Homologie-Erkennungswerkzeugen verbessern: Bekannte Faltungen oder Familien können sicherer an Unterabschnitte des Ziels angepasst werden, die einzelne Domänen umfassen, als an eine ganze Multidomänen-Sequenz (Rigden, 2002). Zweitens könnten Faltenerkennungsmethoden in naher Zukunft in der Lage sein, vorhergesagte Kontaktinformationen direkt auszunutzen: mutmaßlich übereinstimmende Falten, die mit den vorhergesagten Kontakten für das Ziel übereinstimmen, können je nach Ausrichtung der beiden eine höhere Spielstand. Arbeiten in diesem Bereich wurden kürzlich veröffentlicht (Ovchinnikov et al. , 2017 Taylor, 2016).

3.2. Ableitung und Ranking von Suchmodellen für MR

Prognostizierte Kontakte können helfen, bessere Suchmodelle abzuleiten, indem sie Informationen über die supersekundäre, tertiäre und quartäre Struktur des Ziels geben (Abb. 1). Die vielleicht offensichtlichste Anwendung liegt in der Verwendung von Kontaktvorhersagen, um bessere Strukturmodelle zu erstellen. Strukturbioinformatiker haben vorhergesagte Kontaktinformationen schnell genutzt, um Vertreter von strukturell nicht charakterisierten Proteinfamilien zu modellieren (Ovchinnikov, Kinch et al. , 2015 Hopf et al. , 2012). Während die Ergebnisse in der Regel für sehr wertvolle funktionelle Inferenz durch Foldmatching ausreichen (Ovchinnikov, Kinch et al. , 2015 ), die insgesamt moderate Genauigkeit der endgültigen Modelle, die in einigen Fällen durch eine schlechte Stereochemie des Rückgrats verstärkt wird (Marks et al. , 2011 ), ließ die Frage nach ihrem Wert für MR offen. Um dieses Problem anzugehen, untersuchten Simkovic und Mitarbeiter kürzlich den Wert der kontaktgestützten von Anfang an Modelle im Kontext der REICHLICH Cluster-and-truncate-Suchmodellvorbereitungs-Framework (Simkovic et al. , 2016). Die Arbeit verglich nicht unterstützte Modelle, die durch die Vorhersagen der allgemeinen Methode informiert wurden PConsC 2 (Skwark et al. , 2014 ) und diejenigen, die von einer neuartigen Kombination von PConsC 2 mit einer β -blattspezifischen Methode, bbkontakte (Andreani & Söding, 2015). In einer Reihe von 21 Fällen, die Größen von 62� Resten, Auflösungen von 1.0𔃀.3 Å und alle Faltungsklassen umfassten, fanden sie mehrere Ziele, die nur mit Modellen gelöst werden konnten, die durch vorhergesagte Kontaktinformationen informiert wurden. Die Vorteile dieser Informationen waren zweifach: Die bessere Modellierung größerer Proteine ​​verlängerte die obere Größengrenze der Methode und β-reiche Proteine, die zuvor sehr selten erfolgreich waren (Bibby et al. , 2012 ), wurden häufiger erfolgreich gelöst. Eine ganz unabhängige Relevanz von prognostizierten Kontakten zu REICHLICH Die Vorbereitung des Suchmodells beruht auf der Erkenntnis, dass vorhergesagte Kontakte, ähnlich wie die Sequenzerhaltung, aus dem evolutionären Druck resultieren, biologisch wichtige Strukturmerkmale beizubehalten (siehe § 6). Somit können vorhergesagte Kontakte helfen, die Schlüsselmerkmale zu identifizieren, die zwischen einem Ziel geteilt werden, von denen bekannt ist oder vermutet wird, dass sie nur entfernt mit abgelagerten Strukturen verwandt sind. Die Fähigkeit von Kontaktvorhersagen, die Erstellung von Suchmodellen zu leiten, sogar von einzelnen Homologen, unter Verwendung von REICHLICH 's Trunkation-Ansatz wird derzeit untersucht.

Für die Tertiärstruktur schließlich weisen interessante neuere Arbeiten auf die allgemeine Fähigkeit von Kontaktvorhersagen hin, Vorhersagen über alternative Konformationen einer gegebenen Struktur zu ermöglichen (Jana et al. , 2014 Sfriso et al. , 2016). Der Grund dafür ist, dass jede biologisch wichtige Konformation zu einem evolutionären Druck auf relevante Kontakte führt, der sich als nachweisbare Kovarianz zwischen den beteiligten Positionspaaren manifestieren würde. Dieses Phänomen wurde bereits während der kontaktbasierten Modellierung beobachtet, bei der sich eine einzelne modellierte Struktur als nicht in der Lage erwies, das Muster der kovariierenden Restpaare vollständig zu erklären, da die vorhergesagten Kontakte aus zwei unterschiedlichen Konformationen resultierten (Hopf et al. , 2012). Dies eröffnet den Weg, eine einzelne Struktur eines Homologen des Templats in einen Satz mutmaßlicher Konformationen (Sfriso et al. , 2016 ) vor Gericht durch MR. Dies könnte eine erfolgreiche Strukturlösung in häufig vorkommenden Fällen ermöglichen, in denen ein Protein strukturelle Plastizität aufweist (offene und geschlossene Formen, R- und T-Zustand usw. ) jedoch liegt der Zielkristall nicht in einer durch die PDB repräsentierten Konformation vor.

Die Verfügbarkeit der bbkontakte Algorithmus (Andreani & Söding, 2015), der parallele und antiparallele β-Blatt-Vorhersagen in einer vorhergesagten Kontaktkarte sensitiv erkennen und unterscheiden kann, bietet auch einen Weg zum Suchmodell-Ranking für bibliotheksbasierte MR-Methoden ( Abb. 1 ). Zu diesen Programmen gehören ARCIMBOLDOBORGES , das eine Strukturlösung unter Verwendung von Bibliotheken wiederkehrender supersekundärer Strukturen versucht, die aus wenigen regulären Sekundärstrukturelementen bestehen, die aus einer Analyse der PDB (Sammito et al. , 2013). Diese Bibliotheken sind relativ groß, aber die Laufzeiten für die Strukturlösung könnten reduziert werden, indem dem Ziel parallele und/oder antiparallele β -Blätter zugewiesen werden und die Verarbeitung der Suchmodelle so angeordnet wird, dass diejenigen mit der richtigen Art von Strangmatching priorisiert werden. Auch Ansätze, die auf einem Screening des gesamten PDB (Keegan et al. , 2016 Stokes-Rees & Sliz, 2010) können auch Suchmodelle nach der vorhergesagten β-Blatt-Zusammensetzung des Ziels einstufen.

Die Vorhersage der Quartärstruktur des Targets kann auch für die MR wertvoll sein und ist sowohl für Homo-Oligomere als auch für Hetero-Oligomere relevant ( 1 ). Im Wesentlichen können die in der strukturellen Bioinformatik entwickelten datengesteuerten Docking-Ansätze zur Nutzung vorhergesagter Kontaktinformationen verwendet werden, um oligomere Suchmodelle abzuleiten und einzuordnen. Diese enthalten im Vergleich zu einzelnen Untereinheiten einen größeren Anteil der Streusubstanz des Targets und sollten daher bei ausreichender Genauigkeit ein verbessertes Signal-Rausch-Verhältnis und damit eine bessere Chance auf eine erfolgreiche Strukturlösung aufweisen. Ein einzelner Docking-Server, InterEvDock , das die evolutionäre Kovarianz automatisch in seine Berechnungen einbezieht, ist seit kurzem verfügbar (Yu et al. , 2016 siehe Tabelle 1). Es führt das Festkörper-Andocken von zwei Strukturen durch FRODOCK (Ramírez-Aportela et al. , 2016). Ein Pool von 10� Posen wird dann auf drei verschiedene Arten bewertet, eine davon ist eine auf Rückständen basierende Koevolutionsbewertung, die aus dem i-COMS Server (Iserte et al. , 2015 Ochoa & Pazos, 2010 Tabelle 1) und der Server meldet die Top-Ten-Konsensmodelle, die gefunden wurden, indem die Posen mit der besten Bewertung für jede der drei Bewertungen geclustert wurden. Ein Kristallograph könnte auch Ansätze reproduzieren, bei denen vorhergesagte Kontakte entweder das Andocken (Hopf et al. , 2014 ) mit SCHELLFISCH (Dominguez et al. , 2003 ) oder ordnen Sie die Ergebnisse des Andockens mit PatchDock v.1.0 (Duhovny et al. , 2002 ) und verfeinern mit Rosetta (Ovchinnikov et al. , 2014). Gegenwärtig sind die meisten Docking-Server nicht optimiert, um vorhergesagte Kontaktinformationen auszunutzen: Sie akzeptieren möglicherweise Gruppen von Resten auf jedem angedockten Protein, von dem angenommen wird, dass es sich in der Nähe der Schnittstelle befindet, akzeptieren jedoch keine gepaarten vorhergesagten Kontakte. Obwohl sich dies in naher Zukunft voraussichtlich ändern wird, müsste ein Benutzer derzeit die Ergebnisse manuell überprüfen, um festzustellen, ob hochrangige intermolekulare Kontakte in Posen von einigen leistungsstärksten Servern vorhanden sind, wie z ClusPro (Comeau et al. , 2004 ) oder auf das flexible Andocken von Proteinpartnern spezialisierte Server wie SchwarmDock (Torchala et al. , 2013). Schließlich lohnt es sich, hier die zusätzlichen Schwierigkeiten der Kontaktvorhersage zwischen zwei verschiedenen Proteinen zu wiederholen: Ein verkettetes Alignment, bei dem die Orthologe jedes einzelnen zwischen einer Reihe von Arten abgeglichen werden, ist erforderlich. Die zuverlässige Identifizierung solcher Paare ist nicht trivial. Aus diesem Grund sind einige aktuelle führende Methoden wie z GREMLIN (Ovchinnikov et al. , 2014 ) haben sich bisher auf Fälle konzentriert, in denen mikrobielle Genom-Kontextinformationen zusätzliche Unterstützung für die Orthologe-Identifikation bieten. Für Kontakte in Homo-Oligomeren gelten diese Einschränkungen natürlich nicht. Die Vorhersage dieser Anordnungen ist besonders zuverlässig in Fällen wie Membranporen, wo die Symmetrie eine zusätzliche nützliche Einschränkung beim Andocken bietet (siehe z. B. DiMaio, Leaver-Fay et al. , 2011 ).

4. Anpassen von Strukturen und Ablaufverfolgungssequenzen in Karten und Hüllkurven mit niedrigerer Auflösung

Die Ergebnisse strukturbiologischer Methoden, die auf atomare Modelle abzielen, wie Röntgenkristallographie und zunehmend Kryo-EM, hängen empfindlich von den verfügbaren Daten ab. Nur bei ultrahoher Auflösung können Röntgenstrukturen allein mit den Röntgenbeugungsdaten genau verfeinert werden, da die Daten-zu-Parameter zu niedrig sind (Rupp, 2009). Typischerweise verwendet die Verfeinerung von Kristallstrukturen zusätzliche Informationen, um die beobachteten Beugungsdaten zu ergänzen, am offensichtlichsten chemische Informationen wie Bindungsabstände, aber auch, falls verfügbar, zusätzliche Beschränkungen durch nichtkristallographische Symmetrie. Bei niedrigeren Auflösungen können sich jedoch selbst diese zusätzlichen Informationen für eine atomare Verfeinerung als unzureichend erweisen, und Rekonstruktionen können daher nur Strukturen oder Modelle für einzelne Untereinheiten oder Domänen umfassen, die innerhalb einer Karte oder Hülle mit niedriger Auflösung platziert sind, und Starrkörper-Verfeinerung. Im Bereich der Strukturinterpretation mit niedrigerer Auflösung haben Kontaktvorhersagen am meisten zu bieten, indem sie zusätzliche Beschränkungen bereitstellen, die von dem entstehenden Strukturmodell erfüllt werden sollten (Abb. 1). Diese Vorhersagen werden daher nicht nur bei Kristallstrukturen mit mittlerer bis niedriger Auflösung und Kryo-EM-Rekonstruktionen helfen, sondern auch bei der Interpretation von Hüllkurven, die aus SAXS und SANS (Svergun et al. , 2013). Anwendungen können in solche unterteilt werden, die von Vorhersagen des intramolekularen Kontakts abhängig sind, und solche, die von intermolekularen Beschränkungen abgeleitet werden.

Intramolekulare Kontakte sind hier in mehrfacher Hinsicht wertvoll, wie bereits erwähnt. Für neuartige Falten, für die Daten mit niedriger Auflösung verfügbar sind, werden Kontakte die Ableitung besserer Modelle für die spätere Einpassung in Karten oder Hüllen ermöglichen. Dies wären Fälle wie ribosomale Strukturen (siehe zum Beispiel Brown et al. , 2014 ), wo überzählige Untereinheiten modelliert werden konnten von Anfang an und unter Verwendung des oben genannten Ansatzes angepasst. In einer neueren Studie, Rosetta -erzeugt von Anfang an Modelle, die von evolutionären Beschränkungen geleitet wurden, wurden verwendet, um das Aminosäureregister, die Konnektivität der Helices und die Platzierung der Untereinheiten des Cytochroms aufzulösen bd Oxidase-Komplex in einer niedrig aufgelösten (3.1𔃂 Å) Elektronendichtekarte, abgeleitet aus schwachen experimentellen Phaseninformationen (Safarian et al. , 2016). In Fällen, in denen eine experimentelle oder modellierte Struktur nicht gut an die Karte oder Hülle angepasst werden kann, kann die Vorhersage alternativer Konformationen unter Verwendung vorhergesagter Kontakte (Sfriso et al. , 2016 ) können besser passende Kandidatenstrukturen hervorbringen.

Die Zuordnung von Sequenzregistern zu einer niedrigauflösenden, backbone-traced Struktur ist ein weiteres Anwendungsgebiet (Abb. 1). Programme wie Seeräuber (Cowtan, 2006) und ARP / Kette (Länger et al. , 2008) erkennen die Form der Seitenkettendichte und versuchen, mutmaßlich zugewiesene Reste an eine bereitgestellte Sequenz anzudocken. Unterhalb einer bestimmten Auflösung sinken jedoch die Anzahl der zugewiesenen Reste und die Zuverlässigkeit ihrer Identifizierung. An dieser Stelle können Kontaktvorhersagen hilfreich sein: Eine starke Vorhersage von einem Rest, der bereits an die Sequenz angedockt ist, zu einer anderen schlecht definierten Position kann die Sequenzregisterdefinition für eine ganze Reihe des Zielproteins verankern. Ein Beispiel für eine solche Anwendung ist die erfolgreiche Verfolgung der Proteinsequenz der a-Untereinheit von Thermophilus V/A-ATPase in einer Kryo-EM-Dichtekarte mit einer Auflösung von 6,4 Å, die zu einem vollständigen Modell der rotierenden ATPase (Schep et al. , 2016). Die Kovarianzanalyse wurde auch verwendet, um die helikalen Zuordnungen der Kristallstruktur mit einer Auflösung von 2,95 Å eines menschlichen Tetraspanins zu bestätigen (Zimmerman et al. , 2016). Es besteht daher ein Bedarf, vorhergesagte Kontaktinformationen bequem innerhalb von Strukturbau- und -verfeinerungs-Programmen verfügbar zu machen.

Wie oben erwähnt, bieten vorhergesagte intermolekulare Kontakte eine generische Möglichkeit, den wahrscheinlichsten Interaktionsmodus eines Strukturpaares zu ordnen und auszuwählen (Ovchinnikov et al. , 2014 Hopf et al. , 2014 et al. , 2016). Die naheliegendste Anwendung besteht daher darin, bei der Interpretation der Dichte für Komplexe mit mehreren Untereinheiten zu helfen. Proteine, die deutlich anisotrop sind, können oft auch bei geringerer Dichte recht zuverlässig angepasst werden, aber dreidimensionale Formen mit weniger Merkmalen passen oft gleich gut auf eine Karte oder Hülle auf mehrere Arten (Joseph et al. , 2016). Die Begriffsklärung dieser Situationen durch Sequenzerhaltung wurde kürzlich untersucht (Joseph et al. , 2016 ), aber vorhergesagte Kontakte bieten wohl ein direkteres Signal intermolekularer Interaktion und sind unabhängig von bestehenden Interaktionsinformationen (Segura et al. , 2016). Zum Beispiel im Cytochrom bd der oben erwähnten Oxidase-Arbeit wurden Kovariationsinformationen verwendet, um die intermolekularen Wechselwirkungen zu bestätigen, die sich aus der Platzierung der kovarianzunterstützten . ergeben von Anfang an Modelle (Safari et al. , 2016). In Zukunft könnten solche Informationen auf verschiedene Weise verwendet werden. Die Verwendung könnte zunächst die vorherige Erzeugung einer Reihe potentieller multimerer Strukturen mit sich bringen, die jeweils in breiter Übereinstimmung mit dem vorhergesagten Kontaktsignal sind, in der Erwartung, dass eine viel besser passen könnte als die anderen. Eine solche Bibliothek könnte auch zur direkten Anpassung an experimentelle Streuinformationen verwendet werden (siehe zum Beispiel Schindler et al. , 2016 Jiménez-Garcia et al. , 2015). Zweitens könnten mutmaßliche Passungen für eine erste Untereinheit visuell auf solche untersucht werden, die mit der Anordnung der zweiten Untereinheit kompatibel sind, um die vorhergesagten Kontakte zu erfüllen. Drittens Programme zur automatisierten Anpassung von Strukturen an die Dichte wie gamma-TEMPy (Pandurangan et al. , 2015 ) oder 3 DIANA (Segura et al. , 2016 ) könnten so entwickelt werden, dass die Zufriedenheit mit vorhergesagten Kontaktinformationen direkt in ihre Bewertungsfunktionen einbezogen wird. Spekulativer ausgedrückt können vorhergesagte Kontakte letztendlich nicht nur über die Orientierung der bekannten Untereinheiten in einem Komplex informieren, sondern auch über die Zusammensetzung eines Komplexes, Informationen, die möglicherweise nur unvollständig verfügbar sind. Ein zukünftiges Screening im Genom-Maßstab, um herauszufinden, welche Proteine ​​kovariable Restpaare mit welchen anderen teilen, und dadurch ein in silico Interaktom, ist bereits ins Auge gefasst (Hopf et al. , 2014). Solche Informationen könnten dem Strukturbiologen helfen, alle notwendigen Komponenten des stabilen, biologisch relevanten makromolekularen Komplexes zu synthetisieren, zu reinigen und zu rekonstruieren.

5. Kernspinresonanz

NMR ist eine Methode, bei der die Verwendung von Markierungsstrategien zur Bereitstellung zusätzlicher Beschränkungen, insbesondere Fernbeschränkungen, zur Führung der Faltung der Schlüssel dazu war, die Obergrenze des beherrschbaren Molekulargewichts auf größere Proteine ​​auszudehnen (Raman et al. , 2010 Lange et al. , 2012 Göbl et al. , 2014). Für RNA- und Protein–RNA-Komplexe wurden zusätzliche Beschränkungen aus EPR-Informationen abgeleitet (Duss et al. , 2014 , 2015 ) und Fluoreszenz kann auch Distanzbeschränkungen bieten (Göbl et al. , 2014). Forscher haben jedoch auch schnell den Wert vorhergesagter Kontakte erkannt, die sich aus der evolutionären Kovarianz (Tang et al. , 2015 ), die im Vergleich zu experimentellen Methoden Komplikationen bei der Markierung des Makromoleküls vermeiden (Duss et al. , 2015 ) und auf jede modifikationsbedingte Veränderung der Struktur, Dynamik oder Funktion des Targets. Die größte Anstrengung in der Gegend ist bisher EC-NMR (Seetang et al. , 2015 ), in dem CYANA wird verwendet, um Strukturensembles basierend auf NMR-Daten (NMR-Resonanzzuordnungen für 1 H– 15 N- und/oder 1 H– 13 C-Methylresonanzen und NOESY-Kreuzpeaks) und kovarianzbasierten vorhergesagten Kontakten zu generieren. Diese Ensembles werden dann in iterativer Weise verwendet, um die Eingabedaten zu überprüfen und zu bearbeiten, wobei der eine Datentyp eine interne Überprüfung des anderen bietet, wodurch falsche NOESY-Peaks und falsch-positive Kontaktvorhersagen eliminiert werden können. Das Verfahren nutzt somit auf elegante Weise die Komplementarität der beiden Datenquellen aus und erzeugt letztlich Strukturen auf Basis verfeinerter und verbesserter Eingabedatensätze. Kontaktvorhersageinformationen können ebenfalls eingespeist werden CS-Rosetta schon seit Rosetta s Sampling- und Scoring-Funktionen haben sich für die Strukturbestimmung mittels NMR (Raman et al. , 2010 van der Schot & Bonvin, 2015).

6. Strukturanalyse und Interpretation

Bei der Analyse einer verfeinerten Kristallstruktur ist es nicht immer einfach, biologisch bedeutsame Wechselwirkungen zwischen Untereinheiten von solchen intermolekularen Kontakten zu unterscheiden, die einfach aus der Bildung eines Kristallgitters resultieren (Capitani et al. , 2016). Jahrelange Forschung legt nahe, dass keine einzelne Metrik von Grenzflächen physiologisch relevante Wechselwirkungen von bloßen Kristallkontakten trennen kann (Jones & Thornton, 1996), so dass aktuelle Ansätze wie jsPISA bieten mehrere relevante Messungen wie Grenzflächenbereich, Hydrophobie und vorhergesagte Bindungsenergie (Krissinel, 2015). Kontaktvorhersagen bieten eine weitere attraktive Möglichkeit, die beiden Schnittstellenklassen zu unterscheiden (Abb. 1), da, wie eingangs erwähnt, eine evolutionäre Kovarianz über eine Schnittstelle nur dort entsteht, wo während der Evolution Druck zur Aufrechterhaltung der Wechselwirkung ausgeübt wurde. Obwohl es zu Komplikationen kommt, wenn sich beispielsweise homologe Proteine ​​wirklich in ihrem oligomeren Zustand unterscheiden, wurde bereits ein bemerkenswert erfolgreicher Einsatz von Kontaktvorhersagen zur Analyse von Kristallstrukturinhalten bei Strukturen von Protocadherin-Domänenfragmenten (Nicoludis et al. , 2015). Dort unterstützten Kontaktvorhersagen bestimmte Schnittstellen als biologisch relevant gegenüber anderen ähnlicher Größe und Leistung in Bezug auf konventionelle Metriken, in einer Weise, die auch durch die Sequenzkonservierung und die Positionen posttranslationaler Modifikationsstellen unterstützt wird.

Die strukturelle Bioinformatik bietet eine Vielzahl orthogonaler Analysen, die helfen können, die Lage funktioneller Stellen in einer gegebenen Struktur vorherzusagen (Rigden, 2017). Die Dichte des Kovarianzsignals über die Struktur hinweg, kodiert zum Beispiel als EC-Wert, der die Anzahl und die Stärke der Kontaktvorhersagen widerspiegelt, die mit jedem Rest verbunden sind, hat das Potenzial, eine nützliche Ergänzung der Liste zu sein (Abb. 1). Beispielsweise wurden in Arbeiten mit Kontaktvorhersagen zur Faltung von Transmembranproteinen Reste mit hohen Werten an bekannten Substratbindungsstellen gefunden (Hopf et al. , 2012). In ähnlicher Weise wurden in Modellen von Familien, die noch nicht strukturell experimentell charakterisiert wurden, hoch bewertete Reste an vorhergesagten katalytischen oder Cofaktor-Bindungsstellen und Auskleidungen wahrscheinlicher Poren gefunden (Hopf et al. , 2012). Neuere Arbeiten verfolgen einen Netzwerkansatz, um funktionale Sites aus Kontaktvorhersagen abzuleiten (Parente et al. , 2015). Ein Beispiel ist die Identifizierung funktioneller Reste, sowohl katalytisch als auch an Grenzflächen, in der Aldolasefamilie unter Verwendung der Eigenvektorzentralität, die Rest-Hotspots in Kontaktkarten beschreibt (Parente et al. , 2015). Ein sehr aktuelles Papier nutzt eine bekannte Struktur, um die Interpretation von Kontaktvorhersageinformationen zu unterstützen und die Vorhersage der funktionellen Sites zu ermöglichen (Jeong & Kim, 2016). Eine andere Studie verwendet Kontaktvorhersagen, um durch eine Kombination von Fragment-Docking- und EC-Methoden Wirkstoffschnittstellen von Proteinen und Proteinen zu identifizieren (Bai et al. , 2016 ), und eine weitere aktuelle Veröffentlichung demonstriert den Wert des Kovarianzsignals für die Ableitung der schädlichen oder gutartigen Natur einzelner Aminosäure-Polymorphismen (Hopf et al. , 2016). Schließlich ist es interessant, die langjährige konventionelle Sequenzkonservierung (Ashkenazy et al. , 2016 ) und die hier diskutierten neuen paarweisen Kovarianzmethoden als einfachste Fälle der Koevolutionsanalyse, eine Analyse, die leicht erweitert werden kann, um größere funktionell relevante kovariierende Gruppen zu bestimmen (Grigolon et al. , 2016 ).

7. Rosetta als vereinheitlichendes strukturelles Bioinformatik-Framework

Der Nutzen von Kontaktvorhersagen kann mit experimentellen Methoden zur Ableitung von Abstandseinschränkungen wie der chemischen Vernetzung (Belsom et al. , 2016 ), Spin-Markierung kombiniert mit paramagnetischer Elektronenresonanz (Fischer et al. , 2016 ) oder Fluoreszenz (Göbl et al. , 2014 ), die eine so wertvolle Rolle bei der integrativen Strukturaufklärung großer Komplexe gespielt haben (Webb et al. , 2011). Kürzlich durchgeführte Blindanalyse des Wertes experimenteller Vernetzungsdaten für die Vorhersage der Proteinstruktur (Belsom et al. , 2016 ) hat die Grenzen der ungleichmäßigen Abdeckung und der schlechten Definition von β -Blättern hervorgehoben. Die selektive Markierung zur Gewinnung von Distanzinformationen über große Entfernungen für die NMR großer Proteine ​​leidet auch unter ihren eigenen Komplikationen (Lange et al. , 2012 ), wenn die methylhaltigen Sondenreste ungleichmäßig verteilt sind. Obwohl die Kontaktvorhersage ihre eigenen Grenzen hat, ist sie gut positioniert, um eine komplementäre Rolle zu experimentellen Distanzbeschränkungen (Tang et al. , 2015). Die effektive Nutzung von Kontaktvorhersagen zusammen mit Quellen experimenteller Beschränkungen für die Strukturvorhersage erfordert einen erweiterbaren und vereinheitlichenden strukturellen Bioinformatik-Ansatz. Hier ist es eine Überlegung wert Rosetta genauer als ein Softwarepaket, das diesem Grundgedanken gut entspricht und eine beachtliche Erfolgsbilanz in diesem Bereich vorweisen kann.

Ansätze zur makromolekularen Strukturvorhersage wie Rosetta basieren auf der Hypothese, dass die nativen Zustände von Proteinen bei globalen Minima der freien Energie liegen, und führen eine groß angelegte Suche im Konformationsraum für die niedrigste Energiestruktur durch. Der Erfolg solcher Ansätze hängt von zwei Faktoren ab: der Genauigkeit der Energiefunktion und der Fähigkeit der Suche, auf den niedrigsten Energiezustand zu konvergieren. Aufgrund der sehr großen Zahl von Freiheitsgraden in biomolekularen Systemen ist die zweite Herausforderung, das Suchproblem, der primäre Engpass für eine genaue Vorhersage. Für alle außer den kleinsten Proteinen (weniger als 80 Aminosäuren) ist der Konformationsraum zu groß für eine genaue von Anfang an Strukturvorhersage. Wenn jedoch experimentelle Informationen verfügbar sind, können sie verwendet werden, um die Suche nach niedrigsten Energiezuständen auf den relevanten Teil der Konformationssuche zu fokussieren und die Strukturaufklärung recht komplexer Proteine ​​und biomolekularer Komplexe zu ermöglichen. Zum Beispiel die Einbindung selbst recht begrenzter Elektronendichtedaten (DiMaio, Terwilliger et al. , 2011 DiMaio et al. , 2013 ), NMR-Daten (Raman et al. , 2010 van der Schot & Bonvin, 2015 ) oder Kryo-EM-Daten (DiMaio et al. , 2015 Wang et al. , 2015 ) in Rosetta kann die Generierung von sehr genauen Modellen ermöglichen. Im Gegensatz zu herkömmlichen Strukturvorhersagemethoden bestimmen die experimentellen Daten die Struktur nicht vollständig – sondern leiten den Suchprozess – und daher werden weniger Daten benötigt. Co-Evolutionsdaten werden innerhalb von . behandelt Rosetta ebenso wie experimentelle Daten, und die Kraft von Co-Evolutionsbeschränkungen, die Suche nach Strukturen mit der niedrigsten Energie zu leiten, wurde in mehreren ziemlich genauen blinden Vorhersagen veranschaulicht (Ovchinnikov, Kim et al. , 2015 Safarian et al. , 2016). Innerhalb dieses Rahmens ist die Integration von Koevolutionsdaten mit Kryo-EM-, Röntgen- oder NMR-Daten einfach: Alle werden in Rosetta und verwendet, um die Konformationssuche zu leiten. Die Frage der Gewichtung der verschiedenen Informationsquellen (Koevolutionsdaten gegen experimentelle Daten), die die Suche leiten, können gelöst werden, indem mit verschiedenen Gewichtungen experimentiert und dasjenige ausgewählt wird, das zu Modellen mit der niedrigsten Energie führt.

8. Fazit

Wie wir gezeigt haben, bieten vorhergesagte Kontakte, die sich aus der evolutionären Kovarianz ergeben, sowohl dem experimentellen Strukturbiologen als auch dem Bioinformatiker spannende Möglichkeiten. Das Gebiet bleibt sehr aktiv und neue Ansätze (siehe zum Beispiel Yang et al. , 2016 ) ist davon auszugehen, dass sich die Leistung in naher Zukunft weiter verbessern wird. Dazu gehören Ansätze, bei denen zusätzliche Informationen genutzt werden können, um die Präzision von Kontaktvorhersagen zu verbessern (Zhang et al. , 2016 Hopf et al. , 2012 Wang & Barth, 2015 Hönigschmid & Frishman, 2016). Andere jüngste Fortschritte wurden bei der Vorhersage von interagierenden Proteinpaaren aus paralogen Familien ohne die Hilfe von Genom-Kontextinformationen erzielt, Entwicklungen, die die Reichweite der Vorhersage intermolekularer Kontakte noch weiter erhöhen dürften (Gueudré et al. , 2016 Bitbol et al. , 2016 ).

Förderinformationen

Die Finanzierung dieser Forschung wurde bereitgestellt durch: Biotechnology and Biological Sciences Research Council http://dx.doi.org/10.13039/501100000268 (Award No. BB/L008696/1).

Verweise

Adhikari, B., Bhattacharya, D., Cao, R. & Cheng, J. (2015). Proteine , 83 , 1436�. Web of Science CrossRef CAS PubMed Google Scholar
Adhikari, B., Nowotny, J., Bhattacharya, D., Hou, J. & Cheng, J. (2016). BMC Bioinformatik , 17 , 517. Google Scholar
Andreani, J. & Söding, J. (2015). Bioinformatik , 31 , 1729�. Web of Science CrossRef CAS PubMed Google Scholar
Ashkenazy, H., Abadi, S., Martz, E., Chay, O., Mayrose, I., Pupko, T. & Ben-Tal, N. (2016). Nukleinsäuren Res. 44 , W344–W350. CrossRef PubMed Google Scholar
Bai, F., Morcos, F., Cheng, R.R., Jiang, H. & Onuchic, J. N. (2016). Proz. Natl. Akad. Wissenschaft Vereinigte Staaten von Amerika , 113 , E8051–E8058. CrossRef CAS PubMed Google Scholar
Baker, J. A., Simkovic, F., Taylor, H. M. & Rigden, D. J. (2016). Proteine , 84 , 1431�. CrossRef CAS PubMed Google Scholar
Balakrishnan, S., Kamisetty, H., Carbonell, J. G., Lee, S. & Langmead, C. J. (2011). Proteine , 79 , 1061�. CrossRef CAS PubMed Google Scholar
Belsom, A., Schneider, M., Brock, O. & Rappsilber, J. (2016). Trends Biochem. Wissenschaft 41 , 564�. CrossRef CAS PubMed Google Scholar
Bibby, J., Keegan, R.M., Mayans, O., Winn, M.D. & Rigden, D.J. (2012). Acta Cryst. D 68 , 1622�. Web of Science CrossRef IUCr Journals Google Scholar
Bitbol, ​​A.F., Dwyer, R.S., Colwell, L.J. & Wingreen, N.S. (2016). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 113 , 12180�. CrossRef CAS PubMed Google Scholar
Brown, A., Amunts, A., Bai, X.-C., Sugimoto, Y., Edwards, P.C., Murshudov, G., Scheres, S.H.W. & Ramakrishnan, V. (2014). Wissenschaft , 346 , 718�. CrossRef CAS PubMed Google Scholar
Capitani, G., Duarte, J. M., Baskaran, K., Bliven, S. & Somody, J. C. (2016). Bioinformatik , 32 , 481�. CrossRef CAS PubMed Google Scholar
Cheng, J. & Baldi, P. (2005). Bioinformatik , 21 , i75–i84. CrossRef PubMed CAS Google Scholar
Comeau, S.R., Gatchell, D.W., Vajda, S. & Camacho, C.J. (2004). Bioinformatik , 20 , 45󈞞. Web of Science CrossRef PubMed CAS Google Scholar
Cowtan, K. (2006). Acta Cryst. D 62 , 1002�. Web of Science CrossRef CAS IUCr Journals Google Scholar
Dauter, Z. (2002). Curr. Meinung. Struktur. Biol. 12 , 674�. Web of Science CrossRef PubMed CAS Google Scholar
DiMaio, F., Echols, N., Headd, J. J., Terwilliger, T. C., Adams, P. D. & Baker, D. (2013). Nat. Methoden , 10 , 1102�. CrossRef CAS PubMed Google Scholar
DiMaio, F., Leaver-Fay, A., Bradley, P., Baker, D. & André, I. (2011). Plus eins , 6 , e20450. CrossRef PubMed Google Scholar
DiMaio, F., Song, Y., Li, X., Brunner, MJ, Xu, C., Conticello, V., Egelman, E., Marlovits, TC, Cheng, Y. & Baker, D. ( 2015). Nat. Methoden , 12 , 361�. CrossRef CAS PubMed Google Scholar
DiMaio, F., Terwilliger, TC, Read, RJ, Wlodawer, A., Oberdorfer, G., Wagner, U., Valkov, E., Alon, A., Fass, D., Axelrod, HL, Das, D ., Vorobiev, SM, Iwaï, H., Pokkuluri, PR & Baker, D. (2011). Natur (London) , 473 , 540�. Web of Science CrossRef CAS PubMed Google Scholar
Dominguez, C., Boelens, R. & Bonvin, A. M. J. J. (2003). Marmelade. Chem.-Nr. Soz. 125 , 1731�. Web of Science CrossRef PubMed CAS Google Scholar
Du, T., Liao, L., Wu, C. & Sun, B. (2016). Methoden , 110 , 97�. CrossRef CAS PubMed Google Scholar
Duhovny, D., Nussinov, R. & Wolfson, H.J. (2002). Algorithmen in der Bioinformatik , herausgegeben von R. Guigó & D. Gusfield, S. 185�. Berlin, Heidelberg: Springer-Verlag. https://doi.org/10.1007/3-540-45784-4_14. Google Scholar
Duss, O., Yulikov, M., Allain, F. H.-T. & Jeschke, G. (2015). Methoden Enzymol. 558 , 279�. CrossRef CAS PubMed Google Scholar
Duss, O., Yulikov, M., Jeschke, G. & Allain, F. H.-T. (2014). Nat. Komm. 5 , 3669. CrossRef PubMed Google Scholar
Ekeberg, M., Lövkvist, C., Lan, Y., Weigt, M. & Aurell, E. (2013). Phys. Rev. E , 87 , 012707. Web of Science CrossRef Google Scholar
Fischer, A. W., Bordignon, E., Bleicken, S., García-Sáez, A.J., Jeschke, G. & Meiler, J. (2016). J. Struktur. Biol. 195 , 62󈞳. CrossRef CAS PubMed Google Scholar
Gatti, L. (2015). Curr. Biotechn. 4 , 16󈞅. CAS Google Scholar
Göbl, C., Madl, T., Simon, B. & Sattler, M. (2014). Prog. Nukl. Magn. Resonanz. Spektr. 80 , 26󈞫. PubMed Google Scholar
González, A. J., Liao, L. & Wu, C. H. (2013). Bioinformatik , 29 , 1018�. PubMed Google Scholar
Grigolon, S., Franz, S. & Marsili, M. (2016). Mol.-Nr. Biosys. 12 , 2147�. CrossRef CAS PubMed Google Scholar
Gueudré, T., Baldassi, C., Zamparo, M., Weigt, M. & Pagnani, A. (2016). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 113 , 12186�. PubMed Google Scholar
Heffernan, R., Dehzangi, A., Lyons, J., Paliwal, K., Sharma, A., Wang, J., Sattar, A., Zhou, Y. & Yang, Y. (2015). Bioinformatik , 32 , 843�. CrossRef PubMed Google Scholar
Hendrickson, W. A. ​​(2014). Q. Rev. Biophys. 47 , 49󈟉. Web of Science CrossRef PubMed Google Scholar
Hönigschmid, S. & Frishman, D. (2016). J. Struktur. Biol. 194 , 112�. PubMed Google Scholar
Hopf, T. A., Colwell, L. J., Sheridan, R., Rost, B., Sander, C. & Marks, D. S. (2012). Zelle , 149 , 1607�. Web of Science CrossRef CAS PubMed Google Scholar
Hopf, T. A., Ingraham, J. I., Poelwijk, F. J., Scharfe, C. P. I., Springer, M., Sander, C. & Marks, D. S. (2016). Natur Biotechnologie. 35 , 128�. CrossRef Google Scholar
Hopf, T. A., Schärfe, C. P. I., Rodrigues, J. P. G. L. M., Green, A. G., Kohlbacher, O., Sander, C., Bonvin, A. M. J. J. & Marks, D. S. (2014). Elife , 3 , 10. CrossRef Google Scholar
Iserte, J., Simonetti, F. L., Zea, D. J., Teppa, E. & Marino-Buslje, ​​C. (2015). Nukleinsäuren Res. 43 , W320–W325. CrossRef PubMed Google Scholar
Jana, B., Morcos, F. & Onuchic, J. N. (2014). Phys. Chem.-Nr. Chem.-Nr. Phys. 16 , 6496�. CrossRef CAS PubMed Google Scholar
Jeong, C. & Kim, D. (2016). BMC Bioinformatik , 17 , 99. Google Scholar
Jiménez-García, B., Pons, C., Svergun, D.I., Bernadó, P.& Fernández-Recio, J. (2015). Nukleinsäuren Res. 43 , W356–W361. Web of Science PubMed Google Scholar
Johnson, L.S., Eddy, S.R. & Portugaly, E. (2010). BMC Bioinformatik , 11 , 431. Google Scholar
Jones, D.T., Buchan, D.W.A., Cozzetto, D. & Pontil, M. (2012). Bioinformatik , 28 , 184�. Web of Science CrossRef CAS PubMed Google Scholar
Jones, D.T., Singh, T., Kosciolek, T. & Tetchner, S. (2015). Bioinformatik , 31 , 999�. Web of Science CrossRef CAS PubMed Google Scholar
Jones, S. & Thornton, J. M. (1996). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 93 , 13󈞀. CrossRef CAS PubMed Web of Science Google Scholar
Joseph, A.P., Swapna, L.S., Rakesh, R. & Srinivasan, N. (2016). J. Struktur. Biol. 195 , 294�. CrossRef CAS PubMed Google Scholar
Juan, D. de, Pazos, F. & Valencia, A. (2013). Nat. Rev. Genet. 14 , 249�. PubMed Google Scholar
Kamisetty, H., Ovchinnikov, S. & Baker, D. (2013). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 110 , 15674�. Web of Science CrossRef CAS PubMed Google Scholar
Keegan, R., Waterman, D.G., Hopper, D.J., Coates, L., Taylor, G., Guo, J., Coker, A.R., Erskine, P.T., Wood, S.P. & Cooper, J.B. (2016). Acta Cryst. D 72 , 933�. Web of Science CrossRef IUCr Journals Google Scholar
Kelley, L. A., Mezulis, S., Yates, C. M., Wass, M. N. & Sternberg, M. J. (2015). Nat. Protokoll 10 , 845/8211858. Web of Science CrossRef CAS PubMed Google Scholar
Köhler Leman, J., Ulmschneider, M. B. & Gray, J. J. (2015). Proteine , 83 , 1󈞄. CrossRef CAS PubMed Google Scholar
Kosciolek, T. & Jones, D.T. (2015). Proteine , 84 , Zus. 1, 145�. Google Scholar
Krissinel, E. (2015). Nukleinsäuren Res. 43 , W314–W319. Web of Science CrossRef PubMed Google Scholar
Lange, OF, Rossi, P., Sgourakis, NG, Song, Y., Lee, HW, Aramini, JM, Ertekin, A., Xiao, R., Acton, TB, Montelione, GT & Baker, D. (2012). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 109 , 10873�. CrossRef CAS PubMed Google Scholar
Langer, G., Cohen, S. X., Lamzin, V. S. & Perrakis, A. (2008). Nat. Protokoll 3 , 1171�. Web of Science CrossRef PubMed CAS Google Scholar
Lapedes, A.S., Giraud, B.G., Liu, L. & Stormo, G.D. (1999). Statistik in Molekularbiologie und Genetik , S. 236�. Hayward: Institut für Mathematische Statistik. https://doi.org/10.1214/lnms/1215455556. Google Scholar
Ma, J., Wang, S., Wang, Z. & Xu, J. (2015). Bioinformatik , 31 , 3506�. Web of Science CrossRef CAS PubMed Google Scholar
Marks, D.S., Colwell, L.J., Sheridan, R., Hopf, T.A., Pagnani, A., Zecchina, R. & Sander, C. (2011). Plus eins , 6 , e28766. Web of Science CrossRef PubMed Google Scholar
Marks, D.S., Hopf, T.A. & Sander, C. (2012). Nat. Biotechn. 30 , 1072�. Web of Science CrossRef CAS PubMed Google Scholar
Morcos, F., Pagnani, A., Lunt, B., Bertolino, A., Marks, DS, Sander, C., Zecchina, R., Onuchic, JN, Hwa, T. & Weigt, M. ( 2011). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 108 , E1293–E1301. Web of Science CrossRef CAS PubMed Google Scholar
Nicoludis, J. M., Lau, S.-Y., Schärfe, C.P.I., Marks, D.S., Weihofen, W.A. & Gaudet, R. (2015). Struktur , 23 , 2087�. Web of Science CrossRef CAS PubMed Google Scholar
Ochoa, D. & Pazos, F. (2010). Bioinformatik , 26 , 1370�. CrossRef CAS PubMed Google Scholar
Oliveira, S. H. de, Shi, J. & Deane, C. M. (2016). Bioinformatik , 33 , 373�. Google Scholar
Ovchinnikov, S., Kamisetty, H. & Baker, D. (2014). Elife , 3 , e02030. CrossRef PubMed Google Scholar
Ovchinnikov, S., Kim, D.E., Wang, R.Y., Liu, Y., DiMaio, F. & Baker, D. (2015). Proteine , 84 , Zus. 1, 67󈞷. Google Scholar
Ovchinnikov, S., Kinch, L., Park, H., Liao, Y., Pei, J., Kim, D.E., Kamisetty, H., Grishin, N.V. & Baker, D. (2015). eLife , 4 , e09248. Web of Science CrossRef PubMed Google Scholar
Ovchinnikov, S., Park, H., Varghese, N., Huang, P.-S., Pavlopoulos, G. A., Kim, D. E., Kamisetty, H., Kyrpides, N. C. & Baker, D. (2017). Wissenschaft , 355 , 294�. CrossRef CAS PubMed Google Scholar
Pandurangan, A. P., Vasishtan, D., Alber, F. & Topf, M. (2015). Struktur , 23 , 2365�. CrossRef CAS PubMed Google Scholar
Parente, D.J., Ray, J.C. & Swint-Kruse, L. (2015). Proteine , 83 , 2293�. CrossRef CAS PubMed Google Scholar
Raman, S., Lange, OF, Rossi, P., Tyka, M., Wang, X., Aramini, J., Liu, G., Ramelot, TA, Eletsky, A., Szyperski, T., Kennedy, MA, Prestegard, J., Montelione, GT & Baker, D. (2010). Wissenschaft , 327 , 1014�. Web of Science CrossRef CAS PubMed Google Scholar
Ramírez-Aportela, E., López-Blanco, J.R.& Chacón, S. (2016). Bioinformatik , 32 , 2386�. PubMed Google Scholar
Remmert, M., Biegert, A., Hauser, A. & Söding, J. (2011). Nat. Methoden , 9 , 173�. CrossRef PubMed Google Scholar
Rigden, D.J. (2002). Protein Eng. 15 , 65󈞹. Web of Science CrossRef PubMed CAS Google Scholar
Rigden, D.J. (2017). Editor. Von der Proteinstruktur zur Funktion mit Bioinformatik , 2. Aufl. Heidelberg: Springer Natur. Google Scholar
Rupp, B. (2009). Biomolekulare Kristallographie: Prinzipien, Praxis und Anwendung auf die Strukturbiologie , P. 627. New York: Girlandenwissenschaft. Google Scholar
Sadowski, M.I. (2013). Proteine , 81 , 253�. Web of Science CrossRef CAS PubMed Google Scholar
Safarian, S., Rajendran, C., Müller, H., Preu, J., Langer, JD, Ovchinnikov, S., Hirose, T., Kusumoto, T., Sakamoto, J. & Michel, H. (2016). Wissenschaft , 352 , 583�. CrossRef CAS PubMed Google Scholar
Sammito, M., Millán, C., Rodríguez, DD, de Ilarduya, IM, Meindl, K., De Marino, I., Petrillo, G., Buey, RM, de Pereda, JM, Zeth, K., Sheldrick, GM & Usón, I. (2013). Nat. Methoden , 10 , 1099�. Web of Science CrossRef CAS PubMed Google Scholar
Schep, D.G., Zhao, J. & Rubinstein, J.L. (2016). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 113 , 3245�. CrossRef CAS PubMed Google Scholar
Schindler, C. E., de Vries, S. J., Sasse, A. & Zacharias, M. (2016). Struktur , 24 , 1387�. Web of Science CrossRef CAS PubMed Google Scholar
Schot, G. van der & Bonvin, A. M. J. J. (2015). J. Biomol. NMR , 62 , 497�. PubMed Google Scholar
Seemayer, S., Gruber, M. & Söding, J. (2014). Bioinformatik , 30 , 3128�. Web of Science CrossRef CAS PubMed Google Scholar
Segura, J., Sanchez-Garcia, R., Tabas-Madrid, D., Cuenca-Alba, J., Sorzano, C. O. & Carazo, J. M. (2016). Biophys. J. 110 , 766�. CrossRef CAS PubMed Google Scholar
Sfriso, P., Duran-Frigola, M., Mosca, R., Emperador, A., Aloy, P. & Orozco, M. (2016). Struktur , 24 , 116�. CrossRef CAS PubMed Google Scholar
Shackelford, G. & Karplus, K. (2007). Proteine , 69 , Zus. 8, 159�. Google Scholar
Simkovic, F., Thomas, J. M. H., Keegan, R. M., Winn, M. D., Mayans, O. & Rigden, D. J. (2016). IUCrJ , 3 , 259�. CrossRef CAS PubMed IUCr Zeitschriften Google Scholar
Simkovic, F., Thomas, J. M. & Rigden, D. J. (2017). Bioinformatik , https://doi.org/10.1093/bioinformatics/btx148. Google Scholar
Skerker, J. M., Perchuk, B. S., Siryaporn, A., Lubin, E. A., Ashenberg, O., Goulian, M. & Laub, M. T. (2008). Zelle , 133 , 1043�. Web of Science CrossRef PubMed CAS Google Scholar
Skwark, M. J., Raimondi, D., Michel, M. & Elofsson, A. (2014). PLoS-Rechner. Biol. 10 , e1003889. Web of Science CrossRef PubMed Google Scholar
Slabinski, L., Jaroszewski, L., Rychlewski, L., Wilson, I. A., Lesley, S. A. & Godzik, A. (2007). Bioinformatik , 23 , 3403�. Web of Science CrossRef PubMed CAS Google Scholar
Söding, J., Biegert, A. & Lupas, A.N. (2005). Nukleinsäuren Res. 33 , W244–W248. Web of Science PubMed Google Scholar
Stokes-Rees, I. & Sliz, P. (2010). Proz. Natl Acad. Wissenschaft Vereinigte Staaten von Amerika , 107 , 21476�. Web of Science CAS PubMed Google Scholar
Svergun, D.I., Koch, M.H.J., Timmins, P.A. & May, R.P. (2013). Kleinwinkelröntgen- und Neutronenstreuung aus Lösungen biologischer Makromoleküle. Oxford University Press. Google Scholar
Tang, Y., Huang, Y.J., Hopf, T.A., Sander, C., Marks, D.S. & Montelione, G.T. (2015). Nat. Methoden , 12 , 751�. CrossRef CAS PubMed Google Scholar
Taylor, W.R. (2016). Algorithmen Mol. Biol. 11 , 17. CrossRef PubMed Google Scholar
Torchala, M., Moal, I. H., Chaleil, R. A., Fernandez-Recio, J. & Bates, P. A. (2013). Bioinformatik , 29 , 807�. CrossRef CAS PubMed Google Scholar
Toth-Petroczy, A., Palmedo, P., Ingraham, J., Hopf, T.A., Berger, B., Sander, C. & Marks, D.S. (2016). Zelle , 167 , 158�.e12. CAS PubMed Google Scholar
UniProt-Konsortium (2015). Nukleinsäuren Res. 43 , D204–D212. Web of Science CrossRef PubMed Google Scholar
Wang, Y. & Barth, P. (2015). Nat. Komm. 6 , 7196. CrossRef PubMed Google Scholar
Wang, R. Y., Kudryashev, M., Li, X., Egelman, E. H., Basler, M., Cheng, Y., Baker, D. & DiMaio, F. (2015). Nat. Methoden , 12 , 335�. CrossRef CAS PubMed Google Scholar
Wang, S., Sun, S., Li, Z., Zhang, R. & Xu, J. (2017). PLoS-Rechner. Biol. 13 , e1005324. CrossRef PubMed Google Scholar
Wang, Z. & Xu, J. (2013). Bioinformatik , 29 , 266�. CrossRef PubMed Google Scholar
Webb, B., Lasker, K., Schneidman-Duhovny, D., Tjioe, E., Phillips, J., Kim, SJ, Velázquez-Muriel, J., Russel, D. & Sali, A (2011). Methoden Mol. Biol. 781 , 377�. CrossRef CAS PubMed Google Scholar
Wuyun, Q., Zheng, W., Peng, Z. & Yang, J. (2016). Kurze Bioinform. , https://doi.org/10.1093/bib/bbw106. Google Scholar
Xu, D., Jaroszewski, L., Li, Z. & Godzik, A. (2014). Bioinformatik , 30 , 660�. Web of Science CrossRef CAS PubMed Google Scholar
Yang, J., Jin, Q.-Y., Zhang, B. & Shen, H.-B. (2016). Bioinformatik , 32 , 2435�. CrossRef PubMed Google Scholar
Yu, J., Vavrusa, M., Andreani, J., Rey, J., Tufféry, P. & Guerois, R. (2016). Nukleinsäuren Res. 44 , W542–W549. CrossRef PubMed Google Scholar
Zacharchenko, T., von Castelmur, E., Rigden, D.J. & Mayans, O. (2015). Biochem. Soz. Übers. 43 , 850�. CrossRef CAS PubMed Google Scholar
Zhang, H., Huang, Q., Bei, Z., Wei, Y. & Floudas, C. A. (2016). Proteine , 84 , 332�. Web of Science CrossRef CAS PubMed Google Scholar
Zimmerman, B., Kelly, B., McMillan, B.J., Seegar, T.C., Dror, R.O., Kruse, A.C. & Blacklow, S.C. (2016). Zelle , 167 , 1041�. CrossRef CAS PubMed Google Scholar

Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution (CC-BY)-Lizenz vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern die ursprünglichen Autoren und die Quelle angegeben werden.


Vorhersage der Proteinfunktion aus Proteinsequenz und -struktur

Die Sequenz eines Genoms enthält die Pläne des möglichen Lebens eines Organismus, aber die Umsetzung der genetischen Information hängt von den Funktionen der Proteine ​​und Nukleinsäuren ab, die sie kodieren. Viele einzelne Proteine ​​bekannter Sequenz und Struktur stellen das Verständnis ihrer Funktion vor Herausforderungen. Insbesondere wurden eine Reihe von Genen identifiziert, die für Krankheiten verantwortlich sind, aber ihre spezifischen Funktionen sind unbekannt. Projekte zur Sequenzierung des gesamten Genoms sind eine wichtige Quelle für Proteine ​​mit unbekannter Funktion. Die Annotation eines Genoms beinhaltet die Zuweisung von Funktionen an Genprodukte, in den meisten Fällen allein auf der Grundlage der Aminosäuresequenz. Die 3D-Struktur kann die Funktionszuweisung unterstützen und motiviert die Herausforderung von Strukturgenomikprojekten, Strukturinformationen für neue, nicht charakterisierte Proteine ​​verfügbar zu machen. Die strukturbasierte Identifizierung von Homologen gelingt oft dort, wo allein auf Sequenzen basierende Methoden versagen, da die Evolution in vielen Fällen das Faltungsmuster beibehält, lange nachdem die Sequenzähnlichkeit nicht mehr nachweisbar wird. Dennoch ist die Vorhersage der Proteinfunktion aus Sequenz und Struktur ein schwieriges Problem, da homologe Proteine ​​oft unterschiedliche Funktionen haben. Viele Verfahren zur Funktionsvorhersage beruhen auf der Identifizierung einer Ähnlichkeit in Sequenz und/oder Struktur zwischen einem Protein unbekannter Funktion und einem oder mehreren gut verstandenen Proteinen. Alternative Verfahren umfassen das Ableiten von Konservierungsmustern in Mitgliedern einer funktionell nicht charakterisierten Familie, für die viele Sequenzen und Strukturen bekannt sind. Diese Schlussfolgerungen sind jedoch dürftig. Solche Methoden liefern vernünftige Vermutungen über die Funktion, sind aber alles andere als narrensicher. Es ist daher ein Glück, dass die Entwicklung von Gesamtorganismus-Ansätzen und vergleichender Genomik andere Ansätze zur Funktionsvorhersage ermöglicht, wenn die Daten verfügbar sind. Dazu gehören die Verwendung von Protein-Protein-Interaktionsmustern und Korrelationen zwischen dem Vorkommen verwandter Proteine ​​in verschiedenen Organismen als Indikatoren für funktionelle Eigenschaften. Auch wenn es möglich ist, einem Genprodukt eine bestimmte Funktion zuzuschreiben, kann das Protein mehrere Funktionen haben. Ein grundlegendes Problem besteht darin, dass Funktion in vielen Fällen ein schlecht definiertes Konzept ist. In diesem Artikel überprüfen wir den Stand der Technik bei der Funktionsvorhersage und beschreiben einige der zugrunde liegenden Schwierigkeiten und Erfolge.


Googles KI schlägt 100 andere Teams im Proteinvorhersage-Wettbewerb

Ein Team des Google-Ablegers DeepMind sagt, dass sein Netzwerk für künstliche Intelligenz (KI) einen großen Sprung gemacht hat, um das 50 Jahre alte Proteinfaltungsproblem zu lösen, nachdem es alle anderen Teams bei einer Herausforderung der Proteinstrukturvorhersage übertroffen hatte. Das Programm wurde von Forschern weltweit mit Begeisterung aufgenommen, die sagen, dass es die Biologie revolutionieren könnte, insbesondere in Bereichen wie dem Arzneimitteldesign oder der ökologischen Nachhaltigkeit.

Fantastischer wissenschaftlicher Durchbruch. Eines der größten Probleme in der Wissenschaft (Proteinfaltung) scheint von künstlicher Intelligenz geknackt worden zu sein. Große Auswirkungen auf die Medizin. Herzlichen Glückwunsch @DeepMind #AlphaFold https://t.co/qwbiJINMBh

— Jim Al-Khalili (@jimalkhalili) 30. November 2020

Der Algorithmus von Google, AlphaFold2 genannt, war der klare Gewinner der diesjährigen Critical Assessment of Structure Prediction (Casp14) Challenge – einem alle zwei Jahre stattfindenden Wettbewerb, der den Fortschritt bei der Genauigkeit der computergestützten Vorhersage der Proteinstruktur messen soll. AlphaFold2 konnte die 3D-Formen von rund zwei Dritteln der Zielproteine ​​mit einer mit Laborexperimenten vergleichbaren Genauigkeit bestimmen und übertraf damit rund 100 andere Teams deutlich.

Proteine ​​sind komplexe Moleküle, die aus Aminosäureketten bestehen, die sich in verschiedene Formen falten können. Die Vorhersage, wie die endgültige 3D-Struktur aussehen wird, ist eine Herausforderung, an der Wissenschaftler seit Jahrzehnten arbeiten. Mohammed AlQuraishi von der Columbia University, USA, der einen der konkurrierenden Algorithmen entwickelt hat, glaubt, dass die KI von DeepMind Forschern helfen könnte, die Funktionen von Proteinen zu verstehen, indem sie ihre vorhergesagten Strukturen mit Proteinen mit bekannter Funktion und Form vergleicht. Er fügt hinzu, dass das Programm zwar nicht für das Proteindesign entwickelt wurde, aber Erfahrungen mit anderen Modellen wie Rosetta deuten darauf hin, dass es möglicherweise für diesen Zweck angepasst werden kann. „Für medizinische Anwendungen, die sich auf kleine Moleküle konzentrieren, ist es wahrscheinlich noch nicht genau genug, aber es könnte bei der Entwicklung von Antikörpern für proteinbasierte Therapeutika helfen“, sagt er.

Andrei Lupas vom Max-Planck-Institut für Entwicklungsbiologie in Deutschland, der einer der Juroren bei Casp14 war, glaubt, dass hinter den Kulissen viel algorithmische Zauberei steckt. „Sie haben sich nicht allzu klar über das, was sie tun, gesagt, aber sie verbringen viel Zeit damit, die Details richtig zu machen, und dies scheint sich zu einer sehr, sehr guten Gesamtprognose zu summieren“, bemerkt er. „Meine Abteilung lieferte ein Ziel für ein Protein, das wir seit einem Jahrzehnt nicht lösen konnten. Sie haben uns ein Modell gegeben, mit dem wir die Struktur in einer halben Stunde gelöst haben!“

Bei der diesjährigen Casp-Challenge hat AlphaFold2 den GDT-Score (ein Maß zur Messung der Genauigkeit von Strukturvorhersagen) über 90 gehoben

Der Casp-Wettbewerb verwendet die Global Distance Test (GDT)-Metrik, um die Genauigkeit zu beurteilen. Alle Programme, die eine Punktzahl von etwa 90 GDT erreichen, gelten als wettbewerbsfähig mit experimentellen Methoden. AlphaFold2 erreichte über alle Ziele hinweg einen Medianwert von 92,4 GDT und ließ damit alle Konkurrenten weit hinter sich. Die Software, die auf rund 170.000 Strukturen aus der Proteindatenbank trainiert wurde, baut auf einer Vorgängerversion auf, die 2018 auf der Casp13 vorgestellt wurde.

Es gibt einen wesentlichen Unterschied zwischen den beiden Versionen, erklärt AlQuraishi. „Dieser ist durchgängig differenzierbar, was bedeutet, dass das System so optimiert ist, dass es von der Sequenz bis zur endgültigen 3D-Struktur übergeht, und alle Teile des Systems werden gemeinsam optimiert, um aus Daten zu lernen“, sagt er. „Das ursprüngliche AlphaFold hatte mehrere separate Teile, die unabhängig voneinander trainiert wurden, und nur vorhergesagte interatomare Abstände – keine 3D-Strukturen –, die verwendet wurden, um das Protein mit konventionelleren Ansätzen wie Rosetta zu falten.“ AlphaFold2 ist iterativ und erzeugt eine anfängliche 3D-Struktur, die dann über viele verfeinert wird Schritte, „damit es in der Lage ist, komplexere Muster aus den Daten zu extrahieren“, erklärt er.

Obwohl das eigene Modell von AlQuraishi nicht so gut funktionierte wie AlphaFold2, verbesserte es sich auch gegenüber der vorherigen Version. „Unsere Methode funktioniert mit einzelnen Proteinsequenzen, nicht mit homologen Proteinsequenzen wie AlphaFold2. Wir halten diesen Weg für lohnenswert, da er das Design von Proteinen ermöglichen könnte, die sich stark von natürlich vorkommenden unterscheiden, und möglicherweise empfindlicher auf Veränderungen einzelner Sequenzen, zum Beispiel Mutationen, reagieren.“

DeepMind will den Algorithmus nun weiter verbessern, um herauszufinden, wie Proteine ​​Komplexe bilden oder mit kleinen Molekülen interagieren.


Die Bioinformatik ist zu einer wichtigen Technik geworden, die in vielen Bereichen der Biologie angewendet wird, beispielsweise in der Genetik, Genomik, Systembiologie und Strukturbiologie. Es spielt eine zentrale Rolle bei der Analyse der Gen- und Proteinexpression und -regulation. Ein Ziel der Bioinformatik ist die Vorhersage der Proteinstruktur, die in der Biotechnologie und im Wirkstoffdesign von großer Bedeutung ist. In der Strukturbiologie findet die Bioinformatik breite Anwendung in der Simulation und Modellierung von DNA, RNA, Proteinen sowie biomolekularen Wechselwirkungen.

(Nationales Knochenmarkspenderprogramm)

Ausrichtung der Proteinsequenz
Der Vergleich von Proteinaminosäuresequenzen innerhalb einer Spezies oder zwischen verschiedenen Spezies kann Ähnlichkeiten zwischen Proteinfunktionen und Beziehungen zwischen Spezies aufdecken. Mehrere Sequenz-Alignment-Tools wie Clustal W, Clustal X, T-Coffee, MAFFT werden häufig verwendet. Diese Werkzeuge helfen oft bei der Identifizierung konservierter Regionen, die in Verbindung mit strukturellen und mechanistischen Informationen verwendet werden können.

Vorhersage der Proteinstruktur

Proteinstrukturvorhersage ist eine weitere Reihe von Techniken in der Bioinformatik, die darauf abzielen, die Faltung, lokale Sekundär- und Tertiärstruktur von Proteinen allein auf der Grundlage ihrer Aminosäuresequenzen vorherzusagen. Die besten modernen Methoden der Sekundärstrukturvorhersage in Proteinen erreichen eine Genauigkeit von etwa 80%. PSIPRED und JPRED sind zwei der beliebtesten Programme, die auf neuronalen Netzen zur Vorhersage der Sekundärstruktur von Proteinen basieren, ein weiteres bemerkenswertes Programm ist die GOR-Methode, die bei der Vorhersage von Alpha-Helices erfolgreicher ist als Beta-Faltblättern. Andere häufig verwendete Softwaretools für die Vorhersage der Sekundärstruktur von Proteinen und die Vorhersage von Transmembranhelix und Signalpeptiden umfassen: SPIDER2 (das bisher umfassendste und genaueste Vorhersagetool), s2D, Meta-PP, HMMTOP, SignalP usw. Wir bieten die Vorhersage der Proteindomänenstruktur Dienstleistungen, einschließlich Sekundärstrukturvorhersage, Tertiärstrukturbestimmung und Bindungsstellenanalyse von Proteinen unter Verwendung vieler bioinformatischer Werkzeuge.

(University College London)

Kreative Biostruktur zielt darauf ab, computergestützte Ansätze in unsere Strukturstudien von Proteinen zu integrieren. Unsere leitenden Bioinformatiker werden Kunden bei der Proteinsequenzanalyse, der Vorhersage der Proteinstruktur und der Simulation der Protein-Ligand-Interaktion unterstützen. Bitte erkundigen Sie sich online, was wir für Sie tun können!


Neuer Deep-Learning-Ansatz sagt Proteinstruktur aus Aminosäuresequenz voraus

Die Aminosäure Selenocystein, 3D-Kugeln-Modell. Bildnachweis: YassineMrabet/CC BY 3.0/Wikipedia

Nahezu jeder grundlegende biologische Prozess, der für das Leben notwendig ist, wird von Proteinen ausgeführt. Sie schaffen und erhalten die Form von Zellen und Geweben bilden die Enzyme, die lebenserhaltende chemische Reaktionen katalysieren, agieren als molekulare Fabriken, Transporter und Motoren dienen sowohl als Signal als auch als Empfänger für die zelluläre Kommunikation und vieles mehr.

Proteine, die aus langen Aminosäureketten bestehen, erfüllen diese unzähligen Aufgaben, indem sie sich selbst zu präzisen 3-D-Strukturen falten, die bestimmen, wie sie mit anderen Molekülen interagieren. Da die Form eines Proteins seine Funktion und das Ausmaß seiner Dysfunktion bei Krankheiten bestimmt, sind Bemühungen zur Aufklärung von Proteinstrukturen von zentraler Bedeutung für die gesamte Molekularbiologie – und insbesondere für die therapeutische Wissenschaft und die Entwicklung lebensrettender und lebensverändernder Medikamente.

In den letzten Jahren haben Computermethoden bedeutende Fortschritte bei der Vorhersage der Faltung von Proteinen auf der Grundlage der Kenntnis ihrer Aminosäuresequenz gemacht. Bei vollständiger Umsetzung haben diese Methoden das Potenzial, praktisch alle Facetten der biomedizinischen Forschung zu verändern. Derzeitige Ansätze sind jedoch in Umfang und Umfang der Proteine, die bestimmt werden können, begrenzt.

Jetzt hat ein Wissenschaftler der Harvard Medical School eine Form der künstlichen Intelligenz, die als Deep Learning bekannt ist, verwendet, um die 3-D-Struktur eines jeden Proteins basierend auf seiner Aminosäuresequenz effektiv vorherzusagen.

Online-Berichterstattung in Zellsysteme Am 17. April beschreibt der Systembiologe Mohammed AlQuraishi einen neuen Ansatz zur rechnerischen Bestimmung der Proteinstruktur – mit einer Genauigkeit, die mit aktuellen Methoden vergleichbar ist, aber mit Geschwindigkeiten von mehr als einer Million Mal schneller.

„Die Proteinfaltung war im letzten halben Jahrhundert eines der wichtigsten Probleme für Biochemiker, und dieser Ansatz stellt einen grundlegend neuen Weg dar, dieser Herausforderung zu begegnen“, sagte AlQuraishi, Dozent für Systembiologie am Blavatnik-Institut an der HMS und Fellow in das Labor für Systempharmakologie. "Wir haben jetzt eine ganz neue Perspektive, um die Proteinfaltung zu erforschen, und ich denke, wir haben gerade erst begonnen, an der Oberfläche zu kratzen."

Obwohl sehr erfolgreich, sind Prozesse, die physikalische Werkzeuge zur Identifizierung von Proteinstrukturen verwenden, teuer und zeitaufwändig, selbst mit modernen Techniken wie der Kryo-Elektronenmikroskopie. Daher sind die meisten Proteinstrukturen – und die Auswirkungen von krankheitsverursachenden Mutationen auf diese Strukturen – noch weitgehend unbekannt.

Computermethoden, die berechnen, wie sich Proteine ​​falten, können die Kosten und den Zeitaufwand für die Strukturbestimmung drastisch reduzieren. Aber das Problem ist schwierig und bleibt nach fast vier Jahrzehnten intensiver Bemühungen ungelöst.

Proteine ​​werden aus einer Bibliothek von 20 verschiedenen Aminosäuren aufgebaut. Diese wirken wie Buchstaben in einem Alphabet, die sich zu Wörtern, Sätzen und Absätzen zu einer astronomischen Zahl möglicher Texte zusammenfügen. Im Gegensatz zu Alphabetbuchstaben sind Aminosäuren jedoch physikalische Objekte, die im 3-D-Raum positioniert sind. Häufig befinden sich Abschnitte eines Proteins in enger räumlicher Nähe, sind jedoch sequenziell durch große Abstände getrennt, da seine Aminosäureketten Schleifen, Spiralen, Blätter und Verdrillungen bilden.

"Das Überzeugende an dem Problem ist, dass es ziemlich einfach zu sagen ist: Nehmen Sie eine Sequenz und finden Sie die Form", sagte AlQuraishi. „Ein Protein beginnt als unstrukturierter String, der eine 3-D-Form annehmen muss, und die möglichen Formen, in die sich ein String falten kann, sind riesig. Viele Proteine ​​sind Tausende von Aminosäuren lang, und die Komplexität übersteigt schnell die menschliche Intuition oder sogar die leistungsstärksten Computer."

Um dieser Herausforderung zu begegnen, nutzen Wissenschaftler die Tatsache, dass Aminosäuren auf der Grundlage der Gesetze der Physik miteinander interagieren und energetisch günstige Zustände suchen, wie eine Kugel, die bergab rollt, um sich am Boden eines Tals niederzulassen.

Die fortschrittlichsten Algorithmen berechnen die Proteinstruktur, indem sie auf Supercomputern laufen – oder im Fall von Projekten wie [email protected] und [email protected] durch Crowdsourcing-Rechenleistung – um die komplexe Physik der Aminosäure-Wechselwirkungen durch Brute-Force zu simulieren. Um den massiven Rechenaufwand zu reduzieren, verlassen sich diese Projekte darauf, neue Sequenzen auf vordefinierte Templates abzubilden, bei denen es sich um Proteinstrukturen handelt, die zuvor experimentell bestimmt wurden.

Andere Projekte wie AlphaFold von Google haben in letzter Zeit für enorme Aufregung gesorgt, indem sie Fortschritte in der künstlichen Intelligenz nutzten, um die Struktur eines Proteins vorherzusagen. Dazu parsen diese Ansätze enorme Mengen an Genomdaten, die den Bauplan für Proteinsequenzen enthalten. Sie suchen nach Sequenzen über viele Arten hinweg, die sich wahrscheinlich gemeinsam entwickelt haben, und verwenden solche Sequenzen als Indikatoren für die räumliche Nähe, um den Aufbau von Strukturen zu leiten.

Diese KI-Ansätze sagen jedoch keine Strukturen vorher, die ausschließlich auf der Aminosäuresequenz eines Proteins basieren. Somit haben sie eine begrenzte Wirksamkeit für Proteine, für die es kein Vorwissen gibt, evolutionär einzigartige Proteine ​​oder neue, vom Menschen entworfene Proteine.

Um einen neuen Ansatz zu entwickeln, wandte AlQuraishi sogenanntes End-to-End-differenzierbares Deep Learning an. Dieser Zweig der künstlichen Intelligenz hat die Rechenleistung und die Zeit, die zur Lösung von Problemen wie der Bild- und Spracherkennung benötigt werden, drastisch reduziert und Anwendungen wie Siri von Apple und Google Translate ermöglicht.

Im Wesentlichen beinhaltet differenzierbares Lernen eine einzige, enorme mathematische Funktion – eine viel ausgefeiltere Version einer High-School-Rechnungsgleichung –, die als neuronales Netzwerk angeordnet ist, wobei jede Komponente des Netzwerks Informationen vorwärts und rückwärts einspeist.

Diese Funktion kann sich in unvorstellbarer Komplexität immer wieder selbst abstimmen und anpassen, um genau zu „lernen“, wie eine Proteinsequenz mathematisch zu ihrer Struktur zusammenhängt.

AlQuraishi hat ein Deep-Learning-Modell entwickelt, das als rekurrentes geometrisches Netzwerk bezeichnet wird und sich auf die Schlüsselmerkmale der Proteinfaltung konzentriert. Doch bevor es neue Vorhersagen treffen kann, muss es mit zuvor bestimmten Sequenzen und Strukturen trainiert werden.

Für jede Aminosäure sagt das Modell den wahrscheinlichsten Winkel der chemischen Bindungen voraus, die die Aminosäure mit ihren Nachbarn verbinden. Es sagt auch den Rotationswinkel um diese Bindungen voraus, was beeinflusst, wie jeder lokale Abschnitt eines Proteins geometrisch zur gesamten Struktur in Beziehung steht.

Dies wird wiederholt durchgeführt, wobei jede Berechnung durch die relativen Positionen jeder anderen Aminosäure informiert und verfeinert wird. Sobald die gesamte Struktur fertiggestellt ist, überprüft das Modell die Genauigkeit seiner Vorhersage, indem es sie mit der "Ground-Truth"-Struktur des Proteins vergleicht.

Dieser gesamte Prozess wird für Tausende von bekannten Proteinen wiederholt, wobei das Modell mit jeder Iteration lernt und seine Genauigkeit verbessert.

Nachdem sein Modell trainiert war, testete AlQuraishi seine Vorhersagekraft. Er verglich seine Leistung mit anderen Methoden aus mehreren letzten Jahren des Critical Assessment of Protein Structure Prediction – einem jährlichen Experiment, das Computermethoden auf ihre Fähigkeit testet, Vorhersagen unter Verwendung von Proteinstrukturen zu treffen, die bestimmt, aber nicht veröffentlicht wurden.

Er stellte fest, dass das neue Modell alle anderen Methoden bei der Vorhersage von Proteinstrukturen übertraf, für die es keine bereits existierenden Templates gibt, einschließlich Methoden, die koevolutionäre Daten verwenden. Es übertraf auch alle außer den besten Methoden, wenn bereits vorhandene Vorlagen verfügbar waren, um Vorhersagen zu treffen.

Obwohl diese Genauigkeitsgewinne relativ gering sind, stellt AlQuraishi fest, dass Verbesserungen am oberen Ende dieser Tests schwierig zu erreichen sind. Und weil diese Methode einen völlig neuen Ansatz zur Proteinfaltung darstellt, kann sie bestehende sowohl rechnerische als auch physikalische Methoden ergänzen, um ein viel breiteres Spektrum an Strukturen als bisher möglich zu bestimmen.

Auffallend ist, dass das neue Modell seine Vorhersagen um sechs bis sieben Größenordnungen schneller durchführt als bestehende Rechenmethoden. Das Trainieren des Modells kann Monate dauern, aber sobald es trainiert ist, können Vorhersagen in Millisekunden im Vergleich zu Stunden bis Tagen mit anderen Ansätzen getroffen werden. Diese dramatische Verbesserung ist teilweise auf die einzige mathematische Funktion zurückzuführen, auf der sie basiert, die statt Millionen nur einige tausend Zeilen Computercode erfordert.

Die schnelle Geschwindigkeit der Vorhersagen dieses Modells ermöglicht neue Anwendungen, die zuvor langsam oder schwer zu erreichen waren, sagte AlQuraishi, wie beispielsweise die Vorhersage, wie Proteine ​​ihre Form ändern, wenn sie mit anderen Molekülen interagieren.

"Deep-Learning-Ansätze, nicht nur meine, werden in ihrer Vorhersagekraft und Popularität weiter zunehmen, da sie ein minimales, einfaches Paradigma darstellen, das neue Ideen leichter integrieren kann als aktuelle komplexe Modelle", fügte er hinzu.

AlQuraishi sagte, das neue Modell sei nicht sofort einsatzbereit, beispielsweise in der Wirkstoffforschung oder -entwicklung, da seine Genauigkeit derzeit bei etwa 6 Angström liegt – immer noch in einiger Entfernung von den 1 bis 2 Angström, die erforderlich sind, um die vollständige Atomstruktur von a . aufzulösen Protein. Aber es gebe viele Möglichkeiten, den Ansatz zu optimieren, einschließlich der weiteren Integration von Regeln aus Chemie und Physik.

„Die genaue und effiziente Vorhersage der Proteinfaltung ist ein heiliger Gral für dieses Gebiet, und ich hoffe und erwarte, dass dieser Ansatz in Kombination mit all den anderen bemerkenswerten Methoden, die entwickelt wurden, dies in naher Zukunft tun können. “, sagte AlQuraishi. "Wir könnten das bald lösen, und ich glaube, das hätte vor fünf Jahren niemand gesagt. Es ist sehr aufregend und gleichzeitig auch irgendwie schockierend."

Um anderen bei der Methodenentwicklung zu helfen, hat AlQuraishi seine Software und Ergebnisse über die Software-Sharing-Plattform GitHub frei verfügbar gemacht.

„Ein bemerkenswertes Merkmal von AlQuraishis Arbeit ist, dass ein einzelner Forschungsstipendiat, eingebettet in das reichhaltige Forschungsökosystem der Harvard Medical School und der Bostoner biomedizinischen Gemeinschaft, mit Unternehmen wie Google in einem der heißesten Gebiete der Informatik konkurrieren kann“, sagte Peter Sorger, HMS Otto Krayer Professor für Systempharmakologie am Blavatnik-Institut der HMS, Direktor des Labors für Systempharmakologie der HMS und akademischer Mentor von AlQuraishi.

"Es ist unklug, die disruptive Wirkung von brillanten Kollegen wie AlQuraishi zu unterschätzen, die mit Open-Source-Software im öffentlichen Bereich arbeiten", sagte Sorger.


Vorlesung 13: Vorhersage der Proteinstruktur

Laden Sie das Video von iTunes U oder dem Internetarchiv herunter.

Beschreibung: Diese Vorlesung zur Vorhersage der Proteinstruktur behandelt die Verfeinerung einer teilweise korrekten Struktur. Zu den Methoden gehören Energieminimierung, Molekulardynamik und simuliertes Tempern. Er geht zu Methoden zur Vorhersage der Struktur aus einer Aminosäuresequenz über.

Lehrer: Prof. Ernest Fraenkel

Vorlesung 1: Einführung in .

Vorlesung 2: Lokale Ausrichtung .

Vorlesung 3: Globale Ausrichtung.

Vorlesung 4: Vergleichendes Geno.

Vorlesung 5: Bibliothekskomplexe.

Vorlesung 6: Genom-Assembly

Lektion 7: ChIP-seq-Analyse.

Vorlesung 8: RNA-Sequenz Ana.

Vorlesung 9: Modellierung und Dis.

Vorlesung 10: Markov und Hidd.

Vorlesung 11: RNA Sekundär S.

Lektion 12: Einführung in .

Vorlesung 13: Vorhersage von Prot.

Vorlesung 14: Vorhersage von Prot.

Vorlesung 15: Genregulation.

Vorlesung 16: Protein Interac.

Vorlesung 17: Logikmodellierung .

Vorlesung 18: Analyse von Chr.

Vorlesung 19: Qua entdecken.

Vorlesung 20: Humangenetik.

Vorlesung 21: Synthetische Biolo.

Vorlesung 22: Kausalität, Natu.

Der folgende Inhalt wird unter einer Creative Commons-Lizenz bereitgestellt. Ihre Unterstützung wird MIT OpenCourseWare helfen, weiterhin hochwertige Bildungsressourcen kostenlos anzubieten. Um zu spenden oder zusätzliche Materialien aus Hunderten von MIT-Kursen anzuzeigen, besuchen Sie MIT OpenCourseWare unter ocw.mit.edu.

PROFESSOR: Willkommen zurück, alle zusammen. Ich hoffe, du hattest eine gute Pause. Hoffentlich erinnern Sie sich auch ein wenig an das, was wir letztes Mal gemacht haben.

Wenn Sie sich erinnern, haben wir das letzte Mal eine Einführung in die Proteinstruktur gegeben. Wir haben ein wenig über einige der Probleme bei der Vorhersage der Proteinstruktur gesprochen. Darauf gehen wir nun genauer ein.

Und beim letzten Mal hatten wir das Strukturvorhersageproblem in einige Teilprobleme zerlegt. Es gab also ein Problem der Sekundärstrukturvorhersage, das wir letztes Mal ein wenig diskutiert haben. Und denken Sie daran, dass die frühen Algorithmen, die in den 70er Jahren entwickelt wurden, eine Genauigkeit von etwa 60 % erreichen, und jahrzehntelange Forschung hat dies nur geringfügig verbessert. Aber wir werden sehen, dass einige der Arbeiten zur Erkennung von Hauptstrukturen und zur Vorhersage neuer dreidimensionaler Strukturen in den letzten Jahren wirklich sehr dramatisch vorangekommen sind.

Die andere Sache, an die Sie sich hoffentlich erinnern werden, ist, dass wir diese Dichotomie zwischen zwei Ansätzen zur Energetik der Proteinstruktur hatten. Wir hatten den Ansatz des Physikers und wir den Ansatz des Statistikers, oder? Was waren nun einige der Hauptunterschiede zwischen diesen beiden Ansätzen?

Möchte jemand freiwillig einen Unterschied zwischen dem statistischen Ansatz zur Parametrisierung der Energie einer Struktur erklären? Wir versuchen also, eine Gleichung aufzustellen, die Koordinaten in Energie umwandelt, oder? Und was waren einige der Unterschiede zwischen dem physikalischen Ansatz und dem statistischen Ansatz? Irgendwelche Freiwilligen? Jawohl.

PUBLIKUM: Ich denke, der statistische Ansatz hat die Phi- und Psi-Winkel nicht verändert, oder? Es hat nur andere Variablen geändert.

PROFESSOR: Sie sind also in der Nähe. Rechts. Also die Statistik – oder vielleicht hast du sogar das Richtige gesagt. Der statistische Ansatz hält also viele Teile des Proteins starr, während der physikalische Ansatz es allen Atomen erlaubt, sich unabhängig zu bewegen. Einer der Hauptunterschiede besteht also darin, dass sich im physikalischen Ansatz zwei miteinander verbundene Atome immer noch aufgrund einer Federfunktion auseinander bewegen. Es ist eine sehr steife Feder, aber die Atome bewegen sich unabhängig voneinander.

Beim statistischen Ansatz legen wir nur den Abstand zwischen ihnen fest. Ähnlich können sich diese Winkel bei einem tetraedrisch koordinierten Atom im physikalischen Ansatz verformen. Im statistischen Ansatz sind sie fest. Rechts? Im statistischen Ansatz haben wir also mehr oder weniger feste Geometrie. Beim physikalischen Ansatz bewegt sich jedes Atom unabhängig.

Erinnert sich noch jemand an einen weiteren wichtigen Unterschied? Woher kommen die Energiefunktionen? Freiwillige? Gut.

Im physikalischen Ansatz werden sie alle so weit wie möglich von physikalischen Prinzipien abgeleitet, wie Sie sich vorstellen können. Während wir beim statistischen Ansatz versuchen, das nachzubilden, was wir in der Natur sehen, auch wenn wir keine gute physikalische Grundlage dafür haben.

Dies ist also am dramatischsten, wenn man versucht, die freien Solvatationsenergien vorherzusagen. Rechts? Wie viel kostet es Sie, wenn Sie ein hydrophobes Atom in eine polare Umgebung bringen? Rechts? Im physikalischen Ansatz muss man also tatsächlich Wassermoleküle haben. Sie müssen mit Materie interagieren. Das stellt sich als wirklich, wirklich schwierig heraus.

Beim statistischen Ansatz kommen wir zu einer Näherung. Wie viel lösungsmittelzugängliche Oberfläche hat das polare Atom, wenn es frei ist? Wann ist es in der Proteinstruktur? Und dann skalieren wir die Übertragungsenergien um diesen Betrag.

OK, das sind dann die Hauptunterschiede. Hier muss man vorsichtig sein. Wir haben also eine feste Geometrie, dies ist der statistische Ansatz. Wir verwenden oft diskrete Rotamer. Erinnern? Die Seitenkettenwinkel können im Prinzip frei rotieren. Aber es wurden nur wenige Bestätigungen typischerweise beobachtet, daher beschränken wir uns oft auf die am häufigsten beobachteten Kombinationen der Psi-Winkel.

Und dann haben wir das statistische Potenzial, das von der Häufigkeit abhängt, mit der wir Dinge in der Datenbank beobachten. Und das könnte die Frequenz sein, mit der wir bestimmte Atome in genauen Abständen beobachten. Es könnte der Bruchteil der Zeit sein, in dem etwas Lösungsmittel zugänglich ist oder nicht.

Und die andere Sache, über die wir letztes Mal ein bisschen gesprochen haben, war dieses Gedankenproblem. Wenn ich eine Proteinsequenz habe und zwei potentielle Strukturen habe, wie könnte ich diese potentiellen Energien nutzen – egal ob sie aus dem physikalischen Ansatz oder aus dem statistischen Ansatz stammen – wie könnte ich diese potentiellen Energien nutzen, um zu entscheiden, welche der zwei Strukturen ist richtig?

Eine Möglichkeit ist also, dass ich zwei Strukturen habe. Einer von ihnen ist wirklich die Struktur und der andere nicht. Rechts? Ihr teuflischer Laborkollege kennt die Struktur, weigert sich aber, es Ihnen zu sagen. Was würde ich in diesem Fall also tun? Ich weiß, dass eine dieser Strukturen richtig ist. Ich weiß nicht welcher. Wie könnte ich die potentielle Energiefunktion verwenden, um zu entscheiden, welche richtig ist? Was gilt für die richtige Struktur?

PROFESSOR: Es wird weniger Energie haben. Ist das also ausreichend? Kein Recht? Hier müssen wir uns einer Feinheit stellen.

Wenn ich also einfach meine Proteinsequenz auf eine dieser beiden Strukturen stecke und die freie Energie berechne, gibt es keine Garantie dafür, dass die richtige eine niedrigere freie Energie hat. Wieso den? Welche Entscheidung muss ich treffen, wenn ich eine Proteinsequenz auf eine Rückgratstruktur lege?

PUBLIKUM: Wie man die Seitenkette ausrichtet.

PROFESSOR: Genau. Ich muss entscheiden, wie ich die Seitenketten ausrichten soll. Wenn ich die Seitenketten falsch ausrichte, überlappen sich die Seitenketten buchstäblich. Das wird unglaublich viel Energie haben, oder? Es gibt also keine Garantie dafür, dass Sie mit der richtigen Struktur die minimale freie Energie erhalten, bis Sie alle Seitenketten richtig platziert haben.

Okay, aber das ist der einfache Fall. Nun, das ist der Fall, in dem Sie diesen teuflischen Freund haben, der die richtige Struktur kennt. Aber natürlich kennen wir beim allgemeinen Domänenerkennungsproblem nicht die richtige Struktur. Wir haben Homologe. Wir haben also eine Sequenz, und wir glauben, dass sie entweder zu Protein A oder zu Protein B homolog ist, und ich möchte entscheiden, welche richtig ist. In beiden Fällen ist die Struktur also falsch. Es ist diese Frage, wie falsch es ist, oder?

Jetzt wird das Problem tatsächlich schwieriger, weil ich nicht nur die richtigen Sidechain-Bestätigungen benötige, sondern auch die richtige Backbone-Bestätigung. Es wird vielleicht einer dieser Strukturen nahe kommen, aber es wird nie identisch sein.

Beide Situationen sind also Beispiele, in denen eine Art Verfeinerung einer anfänglichen Ausgangsstruktur vorgenommen werden muss. Und was wir im nächsten Teil der Vorlesung besprechen werden, sind alternative Strategien zur Verfeinerung einer teilweise korrekten Struktur.

Und wir werden uns drei Strategien ansehen. Die einfachste Methode heißt Energieminimierung. Dann werden wir uns die Molekulardynamik und das simulierte Glühen ansehen.

Energieminimierung beginnt also mit diesem Prinzip, über das wir das letzte Mal gesprochen haben, als ich mich erinnere, dass es hier auftauchte, dass eine stabile Struktur ein Minimum an freier Energie sein muss. Rechts? Denn wenn dies nicht der Fall ist, wirken Kräfte auf die Atome, die sie von dieser Struktur zu einer anderen Struktur verdrängen.

Nun, die Tatsache, dass es sich um ein Minimum an freier Energie handelt, garantiert nicht, dass es sich um das Minimum an freier Energie handelt. Es ist also möglich, dass es andere energetische Minima gibt. Rechts? Die Proteinstruktur ist, wenn sie stabil ist, zumindest ein lokales energetisches Minimum. Es kann auch das globale Minimum der freien Energie sein. Darauf wissen wir einfach keine Antwort.

In den frühen Tagen des Proteinstruktur-Bereichs war dies ein großer Diskussionspunkt, ob sich Proteine ​​spontan falten können. Wenn sie es taten, bedeutete dies, dass sie zumindest scheinbar globale Minima für freie Energie waren. Chris Anfinsen erhielt tatsächlich den Nobelpreis für den Nachweis, dass sich einige Proteine ​​außerhalb der Zelle unabhängig falten können. Zumindest einige Proteine ​​hatten also alle strukturellen Informationen, die in ihrer Sequenz enthalten waren, oder? Und das scheint zu implizieren, dass es ein globales Minimum an freier Energie gibt.

Aber wir wissen jetzt, dass es andere Proteine ​​gibt, bei denen die am häufigsten beobachtete Struktur nur ein lokales Minimum der freien Energie aufweist. Und es hat sehr hohe energetische Barrieren, die es verhindern, tatsächlich das globale Minimum an freier Energie zu erreichen. Aber unabhängig vom Fall, wenn wir eine anfängliche Startstruktur haben, könnten wir versuchen, das nächste lokale Minimum der freien Energie zu finden, und vielleicht ist dies die stabile Struktur.

In unserem Kontext sprachen wir also über das Packen der Seitenketten auf der Oberfläche des Proteins, von dem wir glauben, dass es die richtige Struktur sein könnte. Stellen Sie sich also vor, dass dies die wahre Struktur ist und wir die Seitenkette haben und die gestrichelten grünen Linien Wasserstoffbrücken darstellen. Es bildet eine Reihe von Wasserstoffbrücken aus diesem Stickstoff und diesem Sauerstoff zu Teilen des restlichen Proteins.

Jetzt erhalten wir die grobe Rückgratstruktur. Wir knallen in unsere Seitenketten. Wir werden nicht unbedingt – tatsächlich fast nie – zufällig entscheiden, ob wir die richtige Bestätigung haben, um all diese Wasserstoffbrückenbindungen aufzunehmen. Wir beginnen also mit einer Struktur, die so aussieht, bei der sie gedreht ist, sodass Sie, anstatt sowohl den Stickstoff als auch den Sauerstoff zu sehen, nur das Profil sehen können.

Die Frage ist also, ob wir von eins zu kommen können, indem wir den energetischen Minima folgen. Das ist also die Frage. Wie würden wir dabei vorgehen?

Nun, wir haben diese Funktion, die uns die potentielle Energie für jede XYZ-Koordinate des Atoms angibt. Darüber haben wir letztes Mal gesprochen, und Sie können zurückgehen und sich Ihre Notizen für diese beiden Ansätze ansehen. Wie könnten wir also dieses Minimum an freier Energie minimieren? Nun, es unterscheidet sich nicht von anderen Funktionen, die wir minimieren möchten, oder? Wir nehmen die erste Ableitung. Wir suchen nach Stellen, an denen die erste Ableitung Null ist.

Der einzige Unterschied besteht darin, dass wir nicht analytisch aufschreiben können, wie diese Funktion aussieht, und Richtungen und Orte im Raum wählen können, die die Minima sind. Wir müssen also einen Ansatz verfolgen, der eine Reihe von Störungen in einer Struktur aufweist, die versucht, die freie Energie systematisch zu verbessern.

Das einfachste Verständnis ist dieser Gradientenabstiegsansatz, der besagt, dass ich einige Anfangskoordinaten habe, die ich wähle und einen Schritt in Richtung der ersten Ableitung der Funktion mache. Wie sieht das also aus?

Hier sind also zwei Möglichkeiten. Ich habe diese Funktion. Wenn ich bei x gleich 2 beginne, wird mich dies minus einige Epsilon, ein kleiner Wert mal der ersten Ableitung, nach links zeigen. Und ich gehe Schritte nach links, bis diese Funktion, f prime, die erste Ableitung, Null ist. Dann höre ich auf mich zu bewegen. Also bewege ich mich von meiner Anfangskoordinate jedes Mal ein wenig nach links, bis ich das Minimum erreicht habe. Und wenn ich rechts anfange, gehe ich jedes Mal etwas weiter nach rechts, bis die erste Ableitung Null ist.

Das sieht also ziemlich gut aus. Es kann jedoch viele Schritte erfordern. Und es ist nicht wirklich garantiert, dass es hervorragende Konvergenzeigenschaften hat. Aufgrund der Anzahl der Schritte, die Sie möglicherweise ausführen müssen, kann dies ziemlich lange dauern. Das ist also die erste Ableitung in einem einfachen eindimensionalen Fall. Wir haben es mit einem mehrdimensionalen Vektor zu tun, also verwenden wir anstelle der ersten Ableitung den Gradienten, der eine Menge partieller erster Ableitungen ist.

Und ich denke, es ist nützlich, hier darauf hinzuweisen, dass die Kraft natürlich negativ vom Gradienten der potentiellen Energie ist. Wenn wir also einen Gradientenabstieg machen, können Sie es sich aus physikalischer Perspektive so vorstellen, als würden Sie sich immer in Richtung der Kraft bewegen. Ich habe also eine gewisse Struktur. Es ist nicht die wahre einheimische Struktur, aber ich mache schrittweise Schritte in Richtung der Truppe und bewege mich auf einige lokale Minima zu.

Und wir haben dies im Fall einer kontinuierlichen Energie getan, aber Sie können dies tatsächlich auch für diskrete tun.

Nun, der kritische Punkt war, dass Sie nicht garantiert zur richtigen energetischen Struktur gelangen. In dem Fall, dass ich Ihnen zuvor gezeigt habe, wo wir die Sidechain-Seitenkette hatten, wenn Sie die Minimierung dort tatsächlich durchführen, endet die Seitenkette tatsächlich um 180 Grad gedreht, wo sie sein sollte. Es eliminiert also alle sterischen Kollisionen, nimmt jedoch nicht alle Wasserstoffbrückenbindungen auf. Dies ist also ein Beispiel für ein lokales energetisches Minima, das nicht das globale energetische Minima ist.

Haben Sie Fragen dazu? Jawohl.

PUBLIKUM: Woher kommen all diese n-dimensionalen Gleichungen?

PROFESSOR: Woher kommt was?

PUBLIKUM: Die n-dimensionalen Gleichungen.

PROFESSOR: Das sind also die Gleichungen für die Energie in Bezug auf jedes einzelne Atom im Protein, wenn Sie die Atome bewegen lassen, oder in Bezug auf jede drehbare Bindung, wenn Sie nur Bindungen drehen lassen.

Die Frage war also, woher die mehrdimensionalen Gleichungen kommen. Andere Fragen? OK.

Alles klar, das ist also der einfachste Ansatz. Minimieren Sie buchstäblich die Energie. Aber wir haben gesagt, dass es das Problem hat, dass es nicht garantiert ist, das globale Minimum an freier Energie zu finden.

Ein anderer Ansatz ist die Molekulardynamik. Dies versucht also tatsächlich zu simulieren, was in einer Proteinstruktur in vitro vor sich geht, indem die Kraft in jedem Atom und die Geschwindigkeit simuliert werden. Bisher gab es kein Maß für die Geschwindigkeit. Rechts? Alle Atome waren statisch. Wir haben uns den Gradienten der Energie angeschaut und bewegen uns durch eine beliebige Stufenfunktion in Richtung der Kraft.

Jetzt haben wir tatsächlich Geschwindigkeiten, die mit allen Atomen verbunden sind. Sie werden sich im Weltraum bewegen. Und wir haben die Koordinate zu jedem Zeitpunkt, zu dem t durch die Koordinaten der vorherigen Zeit bestimmt wird, t von i minus 1 plus einer Geschwindigkeit mal dem Zeitschritt. Und die Geschwindigkeiten werden durch die Kräfte bestimmt, die durch den Gradienten der potentiellen Energie bestimmt werden. Rechts?

Wir beginnen also immer mit dieser potentiellen Energiefunktion, die entweder aus dem physikalischen Ansatz oder dem statistischen Ansatz stammt. Das gibt uns Geschwindigkeiten und schließlich die Koordinaten.

Also beginnen wir mit dem Protein. Es gibt einige ernsthafte Fragen, wie man die Atome ins Gleichgewicht bringt. Sie beginnen also mit einer völlig statischen Struktur. Sie wollen Kräfte darauf anwenden. Es gibt einige Feinheiten, wie man das macht, aber dann simuliert man tatsächlich die Bewegung aller Atome.

Und um Ihnen nur ein Gefühl dafür zu geben, wie das aussieht, zeige ich Ihnen einen kurzen Film. Dies ist also die Simulation der Faltung einer Proteinstruktur. Und das Rückgrat wird meistens hervorgehoben. Die meisten Seitenketten werden nicht gezeigt. Eigentlich fett, aber man sieht die Strichmännchen. Und langsam akkumuliert es seine dreidimensionale Struktur.

PROFESSOR: OK, ich denke, Sie haben die Idee hier. Oh, es lässt mich nicht aufgeben. Ok, los geht's.

OK, das sind also die Gleichungen, die die Bewegung in einem solchen Beispiel bestimmen. Der Vorteil davon ist, dass wir tatsächlich die Proteinfaltung simulieren. Wenn wir es also richtig machen, sollten wir immer die richtige Antwort bekommen. In der Realität passiert das natürlich nicht.

Das wahrscheinlich größte Problem ist nur die Rechengeschwindigkeit. Also diese Simulationen – sogar sehr, sehr kurze wie die, die ich Ihnen gezeigt habe – wie lange braucht ein Protein, um sich in vitro zu falten? Eine lange Faltung kann eine Millisekunde dauern und für ein sehr kleines Protein wie dieses um Größenordnungen schneller sein. Aber das tatsächlich zu berechnen, könnte viele, viele, viele Tage dauern. Es werden also viele Rechenressourcen benötigt.

Wenn wir auch die Solvatation genau darstellen wollen – die Wechselwirkung des Proteins mit Wasser, die den hydrophoben Kollaps verursacht, wie wir gesehen haben – dann müsste man in diesen Simulationen tatsächlich Wasser haben. Und jedes Wassermolekül fügt viele Freiheitsgrade hinzu, was auch den Rechenaufwand erhöht.

All diese Dinge bestimmen also den Konvergenzradius. Wie weit kann man von der wahren Struktur entfernt sein und trotzdem dort ankommen? Bei sehr kleinen Proteinen wie diesem können Sie mit vielen Rechenressourcen von einem ungefalteten Protein in den gefalteten Zustand gelangen. Wir werden einige wichtige Fortschritte sehen, die es uns ermöglichen, dies zu umgehen, aber in den meisten Fällen können wir nur relativ lokale Änderungen vornehmen.

Das bringt uns zu unserem dritten Ansatz zur Verfeinerung von Proteinstrukturen, der als simuliertes Annealing bezeichnet wird. Und die Inspiration für diesen Namen kommt von der Metallurgie und wie man die beste Atomstruktur in einem Metall erhält. Ich weiß nicht, ob einer von euch jemals Metallbearbeitung gemacht hat. Jeder?

Oh, OK, nun eine Person. Das ist besser als in den meisten Jahren. Das habe ich nicht, aber ich verstehe, dass in der Metallurgie - und Sie können mich korrigieren, wenn ich falsch liege -, dass Sie durch wiederholtes Erhöhen und Senken der Temperatur bessere Metallstrukturen erhalten können. Ist das einigermaßen genau? OK. Sie können bei Interesse mit einem Ihrer Kommilitonen sprechen, um weitere Details zu erfahren.

Diese ähnliche Idee wird also in diesem Wettbewerbsansatz verwendet.Wir werden versuchen, die wahrscheinlichste Bestätigung von Atomen zu finden, indem wir versuchen, aus einigen lokalen Minima herauszukommen, indem wir die Energie des Systems erhöhen und dann die Temperaturen ändern oder sie gemäß einem Heiz- und Kühlplan erhöhen und senken, um zu erhalten die Atome in ihre wahrscheinlichste Konformation, die stabilste Konformation.

Und das geht auf diese Idee zurück, die wir mit den lokalen Minima begonnen haben. Wenn wir nur Energieminimierung betreiben, werden wir nicht von diesem Minimum zu diesem Minimum kommen können, weil diese energetischen Barrieren im Weg sind. Wir müssen also die Energie des Systems erhöhen, um diese energetischen Barrieren zu überwinden, bevor wir das globale Minimum der freien Energie erreichen können.

Aber wenn wir uns die ganze Zeit nur bei sehr hohen Temperaturen bewegen, werden wir den gesamten energetischen Raum abtasten, aber es wird lange dauern. Wir werden auch viele Bestätigungen mit geringer Wahrscheinlichkeit testen. Dieser Ansatz ermöglicht es uns also, das Bedürfnis nach Geschwindigkeit und die Notwendigkeit, bei hohen Temperaturen zu sein, um einige dieser Hindernisse zu überwinden, in Einklang zu bringen.

Eine Sache, die ich hier hervorheben möchte, ist, dass wir eine physikalische Analogie zu diesem metallurgischen Prozess gemacht haben. Wir sprechen davon, die Temperatur des Systems zu erhöhen und die Atome sich unter Kräften entwickeln zu lassen, aber es soll in keiner Weise simulieren, was bei der Proteinfaltung vor sich geht. Die Molekulardynamik würde also versuchen zu sagen, dass dies tatsächlich mit diesem Protein passiert, wenn es sich in Wasser faltet.

Beim simulierten Glühen wird eine hohe Temperatur verwendet, um Räume zu durchsuchen, und dann eine niedrige Temperatur. Aber diese Temperaturen sind viel, viel höher, als das Protein jemals erfahren würde, also ist es keine Simulation. Es ist eine Suchstrategie.

OK, also der Schlüssel dazu – und den vollständigen Algorithmus erzähle ich Ihnen gleich – aber in verschiedenen Schritten des Algorithmus versuchen wir, Entscheidungen darüber zu treffen, wie wir von unserem aktuellen Koordinatensatz zu einer Alternative wechseln Satz von Koordinaten. Nun, diesen neuen Satz von Koordinaten werden wir Testzustand nennen. Und wir werden entscheiden, ob der neue Zustand mehr oder weniger wahrscheinlich ist als der aktuelle. Rechts?

Wenn es weniger Energie hat, was wird es dann sein? Es wird wahrscheinlicher, oder? In diesem Algorithmus akzeptieren wir also immer die Zustände, deren freie Energie niedriger ist als unser aktueller Zustand.

Was passiert, wenn der Zustand an freier Energie höher ist als unser aktueller Zustand? Es stellt sich also heraus, dass wir es wahrscheinlich akzeptieren werden. Manchmal wird es energetisch aufsteigen und manchmal nicht, und das wird uns erlauben, einige dieser energetischen Barrieren zu überwinden und zu versuchen, in neue energetische Zustände zu gelangen, die einer reinen Minimierung nicht zugänglich wären.

Die Form davon ist also die Boltzmann-Gleichung, oder? Die Wahrscheinlichkeit eines Testzustands im Vergleich zur Wahrscheinlichkeit eines Referenzzustands ist das Verhältnis dieser beiden Boltzmann-Gleichungen – die Energie des Testzustands zur Energie des aktuellen Zustands. Es ist also die Energiedifferenz von e zum Minus gegenüber KT. Und wir werden gleich darauf zurückkommen, wo dieser Temperaturbegriff herkommt.

OK, also hier ist der vollständige Algorithmus. Wir werden entweder für eine feste Anzahl von Schritten iterieren oder bis zur Konvergenz. Wir werden sehen, dass wir nicht immer zusammenlaufen. Wir haben eine erste Bestätigung. Unsere aktuelle Bestätigung wird der Zustand n sein, und dass wir aus den potentiellen Energiefunktionen, die wir in der letzten Sitzung diskutiert haben, als Energie berechnen können.

Wir werden zufällig einen Nachbarstaat auswählen. Was bedeutet also Nachbar? Wenn ich dies also in Bezug auf XYZ-Koordinaten definiere, werde ich für jedes Atom, das ich habe einen Satz von XYZ-Koordinaten, einige davon um einen kleinen Betrag ändern. Rechts? Wenn ich sie alle um große Beträge verändere, habe ich eine ganz andere Struktur. Also werde ich kleine Störungen machen. Und wenn ich das mit festen Rückgratwinkeln mache und nur die Seitenketten drehe, was wäre dann ein Nachbarstaat?

Irgendwelche Gedanken? Was wäre ein Nachbarstaat? Jeder? Ändern Sie ein paar der Seitenkettenwinkel, oder? Wir wollen die Struktur also nicht global verändern. Wir wollen eine gewisse Kontinuität zwischen dem aktuellen Zustand und dem nächsten Zustand.

Also wählen wir in diesem Sinne einen angrenzenden Zustand, also den Zustandsraum. Und dann sind hier die Regeln. Wenn der neue Zustand eine niedrigere Energie hat als der aktuelle Zustand, akzeptieren wir einfach den neuen Zustand. Wenn nicht, wird es hier interessant. Dann akzeptieren wir diese höhere Energie mit einer Wahrscheinlichkeit, die mit der Differenz der Energien verbunden ist. Wenn der Unterschied also sehr, sehr groß ist, besteht eine geringe Wahrscheinlichkeit, dass er akzeptiert wird. Wenn die Unterschiede etwas höher sind, ist die Wahrscheinlichkeit höher, dass wir sie akzeptieren. Wenn wir es ablehnen, fallen wir einfach auf unseren aktuellen Status zurück und suchen nach einem neuen Teststatus. IN ORDNUNG? Haben Sie Fragen, wie wir das machen?

PUBLIKUM: In welcher Entfernung suchen wir nach Nachbarn?

PROFESSOR: Das ist die Kunst dieses Prozesses, also habe ich Ihnen eine klare Antwort gegeben. Unterschiedliche Ansätze verwenden unterschiedliche Schwellenwerte. Weitere Fragen?

OK, also das Wichtigste, was ich Ihnen klar machen möchte, ist dieser Unterschied zwischen dem Minimierungsansatz und dem simulierten Glühansatz. Die Minimierung kann nur vom Zustand eins zum lokalen Minimum der freien Energie gehen, während das simulierte Tempern das Potenzial hat, viel weiter zu gehen und möglicherweise das globale Minimum der freien Energie zu erreichen. Aber es ist nicht garantiert, es zu finden.

OK, nehmen wir an, wir beginnen in Staat eins und unser Nachbarstaat war Staat zwei. Also würden wir das mit 100%iger Wahrscheinlichkeit akzeptieren, oder? Weil es weniger Energie hat. Nehmen wir an, der Nachbarstaat entpuppt sich als Staat drei. das hat eine höhere Energie, daher besteht die Wahrscheinlichkeit, dass wir es akzeptieren, basierend auf der Differenz zwischen der Energie von Zustand zwei und Zustand drei. In ähnlicher Weise von Zustand drei zu Zustand vier, so dass wir zu Zustand zwei zurückfallen können. Wir könnten aufsteigen. Und dann kommen wir so mit Summenwahrscheinlichkeit irgendwann über den Buckel. Es ist die Summe jedes dieser Schritte. IN ORDNUNG?

OK, wenn dies also unsere Funktion ist, um zu entscheiden, ob wir einen neuen Zustand akzeptieren, wie beeinflusst die Temperatur unsere Entscheidungen? Was passiert, wenn die Temperatur sehr, sehr hoch ist, wenn Sie sich diese Gleichung ansehen? Es ist also minus e zum Delta. Die Differenz der Energie über kT. Wenn t also sehr, sehr groß ist, was passiert dann mit diesem Exponenten?

Es geht gegen Null. Also wird e zu minus Null ungefähr 1 sein, oder? Bei sehr hohen Temperaturen nehmen wir also fast immer den Hochenergiezustand ein. Das ist es, was uns erlaubt, diese energetischen Hügel zu erklimmen. Wenn ich beim simulierten Glühen eine sehr hohe Temperatur habe, überschreite ich diese Barrieren immer.

Was passiert also umgekehrt, wenn ich die Temperatur sehr niedrig stelle? Dann gibt es eine sehr, sehr geringe Wahrscheinlichkeit, diese Änderungen zu akzeptieren, oder? Wenn ich also eine sehr niedrige Temperatur habe – eine Temperatur von ungefähr null –, dann werde ich nie bergauf gehen. Es geht fast nie bergauf. Wir haben also viel Kontrolle darüber, wie viel Raum dieser Algorithmus erforscht, indem wir die Temperatur einstellen.

Dies ist also wieder ein bisschen simuliertes Glühen - entscheiden Sie genau, welchen Glühplan Sie verwenden möchten, welches Temperaturprogramm Sie verwenden. Fängst du hoch an und gehst buchstäblich nach unten? Verwenden Sie eine andere, kompliziertere Funktion, um die Temperatur zu bestimmen? Wir werden nicht genau darauf eingehen, wie Sie diese auswählen. [INAUDIBLE] Sie können einige dieser Dinge anhand der Referenzen in den Notizen nachverfolgen.

Wir haben also diese Wahl. Aber die Grundidee ist, dass wir bei höheren Temperaturen beginnen. Wir werden den größten Teil des Raums erkunden. Und dann, wenn wir die Temperatur senken, erstarren wir in den wahrscheinlichsten Bestätigungen.

Nun gibt es nichts, was das simulierte Annealing auf die Proteinstruktur einschränkt. Dieser Ansatz ist eigentlich recht allgemein. Es heißt Metropolis Hastings-Algorithmus. Es wird oft in Fällen verwendet, in denen überhaupt keine Energie vorhanden ist, und es wird rein probabilistisch gedacht.

Wenn ich also eine Wahrscheinlichkeitsfunktion habe – eine gewisse Wahrscheinlichkeit, in einem Zustand S zu sein – kann ich zufällig einen Nachbarzustand auswählen. Dann kann ich ein Akzeptanzverhältnis berechnen, das die Wahrscheinlichkeit eines Zustands-S-Tests gegenüber der Wahrscheinlichkeit eines aktuellen Zustands ist.

Dies haben wir in Bezug auf die Boltzmann-Gleichung getan, aber wenn ich eine andere Formulierung für die Wahrscheinlichkeiten verwende, verwende ich einfach diese. Und dann, genau wie in unserem Proteinfaltungsbeispiel, akzeptieren wir den neuen Zustand, wenn dieses Akzeptanzverhältnis größer als 1 ist. Wenn es kleiner als 1 ist, akzeptieren wir es mit einer probabilistischen Aussage.

Dies ist also ein sehr allgemeiner Ansatz. Ich denke, Sie könnten es in Ihren Problemsätzen sehen. Wir haben dies sicherlich bei früheren Prüfungen getan. Wir haben Sie gebeten, diesen Algorithmus auf andere probabilistische Einstellungen anzuwenden. Es ist also eine sehr, sehr allgemeine Methode, die Stichprobe in einer probabilistischen Landschaft zu durchsuchen.

OK, wir haben also diese drei verschiedenen Ansätze gesehen, beginnend mit einer ungefähren Struktur und dem Versuch, zur richtigen Struktur zu gelangen. Wir haben eine Energieminimierung, die sich in Richtung der lokalen Bestätigung bewegt. Es ist also im Vergleich zu den anderen beiden sehr schnell, aber es ist auf lokale Änderungen beschränkt. Wir haben eine Molekulardynamik, die tatsächlich versucht, den biologischen Prozess zu simulieren. Konnotativ sehr intensiv.

Und dann haben wir das Tempern simuliert, das versucht, die Wurzel zu einigen dieser globalen Minima der freien Energie zu verkürzen, indem wir die Temperatur erhöhen, bei dieser sehr hohen Temperatur vorgeben, damit wir den gesamten Raum abtasten können, und dann abkühlt, um eine hohe Wahrscheinlichkeit einzufangen Bestätigung.

Haben Sie Fragen zu einem dieser drei Ansätze? OK.

In Ordnung, also werde ich jetzt einige der Ansätze durchgehen, die bereits verwendet wurden, um zu versuchen, Proteinstrukturen zu lösen. Wir begannen mit einer Sequenz. Wir möchten herausfinden, was die Struktur ist. Und dieser Bereich hat einen enormen Fortschritt gemacht, denn 1995 hat sich eine Gruppe zusammengetan und eine objektive Methode entwickelt, um zu beurteilen, ob diese Methoden funktionieren.

Viele Leute haben also Methoden zur Vorhersage der Proteinstruktur vorgeschlagen, und was die CASP-Gruppe 1995 tat, war, dass sie sagte, wir werden Strukturen von Kristallographen und NMR-Spektroskopen sammeln, die sie noch nicht veröffentlicht haben, aber sie wissen, dass sie wahrscheinlich sein werden im Zeitrahmen dieses Projekts zu bekommen. Wir werden diese Sequenzen an die Modellierer senden.

Die Modellierer werden versuchen, die Struktur vorherzusagen, und am Ende des Wettbewerbs werden wir zu den Kristallographen und Spektroskopikern zurückkehren und sagen: OK, geben Sie uns eine Struktur und jetzt vergleichen wir die vorhergesagten Antworten mit den echten. Niemand weiß also, was die Antwort ist, bis alle Einsendungen da sind, und dann kann man objektiv sehen, welcher der Ansätze am besten war.

Und einer der Ansätze, der sich durchweg sehr gut bewährt hat und den wir uns genauer ansehen werden, ist dieser Ansatz namens Rosetta. So können Sie sich die Details online anschauen. Sie teilen dieses Modellierungsproblem in zwei Typen auf. Es gibt solche, für die Sie ein vernünftiges Homologiemodell entwickeln können. Dies kann eine sehr, sehr geringe Sequenzhomologie sein, aber es gibt etwas in der Datenbank mit bekannter Struktur, das ähnlich wie die Abfrage sequenziert ist. Und dann solche, bei denen es komplett de novo ist.

Wie also gehen sie bei der Vorhersage dieser Strukturen vor? Wenn also Homologie vorliegt, können Sie sich vorstellen, dass Sie als Erstes Ihre Sequenz an der Sequenz des Proteins mit bekannter Struktur ausrichten möchten. Nun, wenn es eine hohe Homologie ist, ist dies kein schwieriges Problem, oder? Wir müssen nur ein paar Anpassungen vornehmen. Aber wir kommen an Stellen – die sogenannte Twilight Zone –, an denen die Wahrscheinlichkeit hoch ist, dass Sie sich irren, dass Ihre Sequenzausrichtungen an der völlig falschen Struktur liegen könnten. Und da wird es interessant.

Sie haben also eine hohe Sequenzähnlichkeit – mehr als 50 % Sequenzähnlichkeit, die als relativ einfache Probleme angesehen werden. Diese mittleren Probleme sind 20 % bis 50 % Sequenzähnlichkeit. Und dann ähnliche Probleme mit sehr niedrigen Sequenzen - weniger als 20% Sequenzähnlichkeit.

OK, Sie haben diese Kursmethoden für das Sequenz-Alignment bereits gesehen, also müssen wir nicht näher darauf eingehen. Es gibt jedoch viele verschiedene spezifische Ansätze, um diese Ausrichtungen durchzuführen. Sie können alles tun, von der Explosion bis hin zu hochentwickelten Markov-Modellen, um herauszufinden, was Ihrer Proteinstruktur am ähnlichsten ist.

Und eines der wichtigsten Dinge, die Rosetta herausfand, war, sich nicht auf eine einzelne Methode auszurichten, sondern eine Reihe verschiedener Ausrichtungsansätze auszuprobieren und dann viele der verschiedenen Ausrichtungen zu verfolgen. Und dann bekommen wir das Problem, wie man die Modelle verfeinert, worüber wir bereits zu sprechen begonnen haben.

Im allgemeinen Verfeinerungsverfahren wenden sie also, wenn Sie ein Protein haben, das relativ in gutem Zustand ist, zufällige Störungen auf den Torsionswinkel des Rückgrats an. Dies ist also wieder der statistische Ansatz, der nicht jedem Atom erlaubt, sich zu bewegen. Sie drehen nur eine bestimmte Anzahl der drehbaren Seitenketten. Wir haben also die feinen Psi-Winkel im Rückgrat und einige der Seitenkanäle.

Sie führen eine sogenannte Rotamer-Optimierung der Seitenkette durch. Was bedeutet das? Denken Sie daran, dass wir den Seitenketten erlauben könnten, sich frei zu drehen, aber sehr, sehr wenige dieser Drehungen werden häufig beobachtet. Daher werden wir als diese drei Optionen unter den bestmöglichen Rotameren Rotationsisomere auswählen. Und wenn wir dann aus diesen hochwahrscheinlichen eine nahezu optimale Seitenkettenbestätigung gefunden haben, erlauben wir eine kontinuierlichere Optimierung der Seitenketten.

Wenn Sie also eine Vorlage mit sehr, sehr hoher Sequenzhomologie haben, müssen Sie am größten Teil der Struktur nicht viel arbeiten. Rechts? Das meiste wird richtig sein. Wir werden uns also auf die Stellen konzentrieren, an denen die Ausrichtung schlecht ist. Das scheint ziemlich intuitiv zu sein.

Die Dinge werden etwas interessanter, wenn Sie diese Ähnlichkeitsvorlagen für mittlere Sequenzen haben. Hier könnte also sogar Ihre grundlegende Ausrichtung nicht richtig sein. Sie fahren also tatsächlich mit mehreren Ausrichtungen fort und führen sie durch den Verfeinerungsprozess.

Und wie entscheiden Sie dann, welches das Beste ist? Sie verwenden die potentielle Energiefunktion. Rechts? Sie haben also schon eine ganze Reihe von Startbestätigungen erhalten. Wir haben sie durch dieses Raffinerieverfahren geführt. Sie glauben jetzt, dass diese Energien die Wahrscheinlichkeit darstellen, dass die Struktur korrekt ist, also werden Sie basierend auf der Energie auswählen, welche dieser Bestätigungen verwendet werden sollen.

OK, in diesen mittleren Sequenzähnlichkeits-Templates bearbeitet die Verfeinerung nicht die gesamte Proteinstruktur, sondern konzentriert sich auf eine bestimmte Region. Also Orte, an denen es Lücken, Einfügungen und Streichungen im Alignment gibt. Rechts? Ihre Ausrichtung ist also unsicher, also müssen Sie die Struktur verfeinern. Orte, die in den Ausgangsmodellen Schleifen waren, sodass sie nicht stark eingeschränkt waren.

Es ist also plausibel, dass sie sich in der Ausgangsstruktur von einigen homologen Proteinen und in der Endstruktur unterscheiden. Und dann Regionen, in denen die Sequenzerhaltung gering ist. Selbst wenn es eine einigermaßen gute Ausrichtung gibt, besteht eine gewisse Wahrscheinlichkeit, dass sich die Dinge während der Evolution geändert haben.

Nun, wenn sie eine Verfeinerung machen, wie machen sie das? An diesen Stellen, die wir gerade umrissen haben, stören sie nicht einfach alle Winkel. Aber tatsächlich nehmen sie ein Segment des Proteins, und die genaue Länge dieser Segmente hat sich im Laufe der Verfeinerung des Rosetta-Algorithmus geändert. Aber sagen Sie etwas in der Größenordnung von drei bis sechs Aminosäuren. Und Sie suchen in der Datenbank nach Proteinen mit bekannter Struktur, die die gleiche Aminosäuresequenz enthalten.

Es könnte also eine völlig unabhängige Proteinstruktur sein, aber Sie entwickeln eine Peptidbibliothek für all diese kurzen Sequenzen für all die verschiedenen möglichen Strukturen, die sie übernommen haben. Sie wissen also, dass dies zumindest Strukturen sind, die mit dieser lokalen Sequenz übereinstimmen, obwohl sie für dieses einzelne Protein möglicherweise völlig falsch sind. Sie tauchen also all diese alternativen möglichen Strukturen ein.

Okay, wir ersetzen die Torsionswinkel durch die von Peptiden mit bekannter Struktur und führen dann eine lokale Optimierung durch, indem wir die Arten von Minimierungsalgorithmen verwenden, über die wir gerade gesprochen haben, um zu sehen, ob es eine Struktur gibt, die ungefähr mit dem kleinen Peptid kompatibel ist, das Sie genommen haben aus der Datenbank, die auch mit dem Rest der Struktur übereinstimmt. Und nachdem Sie das getan haben, führen Sie eine globale Verfeinerung durch.

Fragen zu diesem Ansatz?

Okay, funktioniert das? Einer der besten Teilnehmer in diesem CASP-Wettbewerb. Hier sind also Beispiele, bei denen die native Struktur blau ist. Das beste Modell, das sie produzierten, war in Rot, und das beste Templat – das ist das homologe Protein – ist in Grün. Und man sieht, dass sie bemerkenswert gut übereinstimmen. IN ORDNUNG?

Dies ist also sehr beeindruckend, insbesondere im Vergleich zu einigen der anderen Algorithmen. Aber auch hier konzentriert es sich auf Proteine, bei denen es zumindest eine anständige Homologie gibt.

Wenn Sie sich hier das Zentrum dieser Proteine ​​ansehen, können Sie sehen, dass die ursprüngliche Struktur, glaube ich, blau ist und ihr Modell rot. Sie können sehen, dass sie auch die Sidechain-Bestätigungen mehr oder weniger korrekt erhalten, was ziemlich bemerkenswert ist.

Wirklich interessant wird es nun, wenn sie an diesen Proteinen arbeiten, die sehr niedrige Sequenzhomologien aufweisen. Wir sprechen also von einer Sequenzähnlichkeit von 20 % oder weniger. Oft haben Sie also global den falschen Fold – eine Sequenzähnlichkeit von 20 %.

Was machen sie also hier? Sie beginnen damit, dass sie sagen: OK, wir haben keine Garantie dafür, dass unsere Vorlagen auch nur im Entferntesten korrekt sind. Sie werden also mit vielen Vorlagen beginnen und diese alle parallel verfeinern, in der Hoffnung, dass einige von ihnen direkt am anderen Ende herauskommen.

Und das nennt man aggressivere Verfeinerungsstrategien. Wo haben wir also unsere Verfeinerungsenergien konzentriert? Wir haben uns auf Orte konzentriert, die schlecht eingeschränkt waren, entweder durch die Evolution oder Regionen der Struktur, die nicht gut eingeschränkt waren, oder auf Orte, an denen die Ausrichtung nicht gut war.

Hier greifen sie tatsächlich auch die relativ klar definierten Sekundärstrukturelemente auf. Und so ermöglichen sie etwas, das in allen Templaten eine klare Alpha-Helix war, einen Teil der Struktur zu ändern, indem Peptide aus der Datenbank genommen werden, die andere Strukturen haben. IN ORDNUNG?

Sie gehen also sehr, sehr aggressiv an die Verfeinerung heran. Sie bauen die Sekundärstrukturelemente sowie diese Lücken, Insertionen, Schleifen und Regionen mit geringer Sequenzerhaltung neu auf. Und das wirklich Bemerkenswerte finde ich, dass dieser Ansatz auch funktioniert. Es funktioniert nicht ganz so gut, aber hier ist ein Vergleich einer nativen Struktur und des besten Modells nebeneinander.

Dies ist also die verborgene Struktur, die nur dem Kristallographen oder Spektroskopiker bekannt war, der sich bereit erklärte, an diesem CASP-Wettbewerb teilzunehmen. Und hier ist das Modell, das sie blind eingereicht haben, ohne zu wissen, was es war. Und man sieht immer wieder, dass es eine ziemlich gute globale Ähnlichkeit zwischen den vorgeschlagenen und den tatsächlichen Strukturen gibt.Nicht immer. Ich meine, hier ist ein Beispiel, bei dem die guten Teile hervorgehoben und die weniger guten Teile weiß dargestellt werden, sodass man sie kaum sehen kann.

PROFESSOR: Aber trotzdem, gib ihnen das. Geben Sie ihnen ihren Kredit. Es ist eine bemerkenswert gute Vereinbarung.

Wir haben uns nun Fälle angesehen, in denen eine sehr hohe Sequenzähnlichkeit, eine mittlere Sequenzähnlichkeit und eine geringe Sequenzähnlichkeit vorhanden sind. Aber die schwierigste Kategorie sind diejenigen, bei denen es in der Strukturdatenbank tatsächlich nichts gibt, das ein nachweisbares Homolog zu dem interessierenden Protein ist.

Also, wie machst du das? Das ist der de novo-Fall. In diesem Fall verfolgen sie die folgende Strategie. Sie führen eine Monte-Carlo-Suche nach Rückgratwinkeln durch. Sie nehmen also speziell kurze Regionen – und dies ist wiederum die genaue Länge. Änderungen in verschiedenen Versionen des Algorithmus, aber es sind entweder drei bis neun Aminosäuren im Rückgrat.

Sie finden ähnliche Peptide in der Datenbank bekannter Struktur. Sie entnehmen die Backbone-Bestätigungen aus der Datenbank. Sie stellen die Winkel so ein, dass sie diesen entsprechen. Und dann verwenden sie diese Metropolis-Kriterien, die wir beim simulierten Glühen untersucht haben. Rechts? Die relative Wahrscheinlichkeit der Zustände, bestimmt durch die Boltzmann-Energie, zu entscheiden, ob sie akzeptiert werden oder nicht.

Wenn es eine niedrigere Energie ist, was passiert dann? Akzeptieren Sie? Akzeptieren Sie nicht?

PROFESSOR: Sie akzeptieren. Und wenn es eine hohe Energie ist, wie entscheiden Sie sich?

PROFESSOR: [UNHÖRBAR], Wahrscheinlichkeit. Sehr gut.

OK, sie machen also eine feste Anzahl von Monte-Carlo-Schritten – 36.000. Und dann wiederholen sie diesen gesamten Prozess, um 2.000 endgültige Strukturen zu erhalten. IN ORDNUNG? Weil sie wirklich sehr, sehr geringes Vertrauen in eine einzelne dieser Strukturen haben.

OK, Sie haben jetzt 2.000 Strukturen, aber Sie dürfen eine einreichen. Also, was machst du? Also gruppieren sie sie, um zu sehen, ob sich gemeinsame Muster ergeben, verfeinern dann die Cluster und reichen sie als potenzielle Lösung für dieses Problem ein.

OK, Fragen zum Rosetta-Ansatz? Jawohl.

PUBLIKUM: Können Sie noch einmal erwähnen, warum der kurze Bereich von drei bis neun Aminosäuren und ob [unverständlich].

PROFESSOR: Die Frage ist also, was ist die Motivation, diese kurzen Regionen aus der Strukturdatenbank zu nehmen? Letztendlich ist dies eine Modellierungsentscheidung, die sie getroffen haben und die gut zu funktionieren scheint. Es ist also eine empirische Entscheidung. Aber was hat sie möglicherweise motiviert, könnten Sie sich fragen, oder?

Der Gedanke war also schon lange auf diesem Gebiet, und es ist, glaube ich, immer noch unbewiesen, dass bestimmte Sequenzen eine gewisse Neigung zu bestimmten Strukturen haben. Wir sahen in den Algorithmen zur Vorhersage der Sekundärstruktur, dass es bestimmte Aminosäuren gab, die in Alpha-Helixen viel häufiger vorkamen.

Es könnte also sein, dass es bestimmte Strukturen gibt, die bei kurzen Peptiden sehr wahrscheinlich auftreten, und andere, die fast nie vorkommen. Wenn Sie also eine ausreichend große Datenbank mit Proteinstrukturen hätten, wäre dies ein sinnvoller Sampling-Ansatz. Hätten Sie nun in der Praxis mit einem anderen Ansatz eine gute Antwort erhalten können? Wir wissen es nicht. Das hat tatsächlich gut funktioniert. Es gibt also keine wirkliche theoretische Rechtfertigung dafür, außer dieser groben Beobachtung, dass es einen gewissen Informationsgehalt gibt, der lokal ist, und dann eine Menge Informationsgehalt, der global ist.

PUBLIKUM: Wenn Sie also einen De-novo-Ansatz durchführen, ist es im Allgemeinen so, dass Sie eine Reihe verschiedener Cluster als Antwort finden, während Sie beim Homologie-Ansatz sicherer sind, was die Strukturantwort angeht?

PROFESSOR: Die Frage war also, wenn Sie einen de novo-Ansatz verfolgen, ist es im Allgemeinen so, dass Sie viele einzelne oder Cluster von Strukturen haben, während Sie dies in der Homologie eher nicht tun. Und ja, das ist richtig. In der de novo gibt es also häufig mehrere Lösungen, die für Sie gleichermaßen plausibel erscheinen, während die Homologie Sie tendenziell in bestimmte Klassen treibt.

Gute Fragen. Weitere Fragen?

Alles klar, das war CASP. Einer war im Jahr 1995, das scheint eine Äon her zu sein. Wie haben sich die Dinge im Laufe der letzten oder zwei Jahrzehnte verbessert?

Es gab also kürzlich ein interessantes Papier, das sich nur mit den Unterschieden zwischen CASP 10, einem der neuesten, und CASP 5 befasste. Sie erscheinen alle zwei Jahre, also ein Jahrzehnt. Wie haben sich die Dinge in den letzten zehn Jahren bei dieser Herausforderung verbessert oder nicht?

In diesem Diagramm ist die y-Achse also der Prozentsatz der Residuen, die modelliert wurden und nicht in der Vorlage enthalten waren. IN ORDNUNG? Also habe ich eine Vorlage. Ein Teil der Aminosäuren hat keine Übereinstimmung in der Matrize.

Wie viele davon bekomme ich richtig? In Abhängigkeit von der Zielschwierigkeit haben sie ihre eigene Definition für die Zielschwierigkeit. Sie können im aktuellen Papier nachsehen, was im CASP-Wettbewerb enthalten ist, aber es ist eine Kombination aus Struktur- und Sequenzdaten. Nehmen wir also einfach an, dass sie hier einige vernünftige Entscheidungen getroffen haben. Sie haben sich tatsächlich viel Mühe gegeben, ein Bewertungskriterium zu erarbeiten.

Jeder Punkt in diesem Diagramm repräsentiert eine übermittelte Struktur. Die CASP5, vor einem Jahrzehnt, sind die Dreiecke. CASP 9, vor zwei Jahren, waren die Quadrate, und CASP10 sind die Kreise. Und dann haben sie Trendlinien für CASP9 und CASP10, die hier gezeigt werden – diese beiden Linien.

Und Sie können sehen, dass sie bei den einfacheren Strukturen besser und bei den härteren Strukturen schlechter abschneiden, was Sie erwarten würden, während CASP5 bei allen ziemlich flach war und selbst bei den einfachen Strukturen wie diesen ungefähr gleich gut abgeschnitten hat diejenigen, die auf den harten Strukturen tun.

In Bezug auf den Anteil des Proteins, für den sie keine Vorlage haben, für die sie richtig arbeiten können, schneiden sie in den späteren CASPs viel, viel besser ab als ein Jahrzehnt zuvor. Das ist also irgendwie ermutigend. Leider ist die Geschichte nicht immer so einfach.

Dieses Diagramm ist also wieder die Zielschwierigkeit auf der x-Achse. Die y-Achse wird als Global Distance Test bezeichnet und ist ein Modell der Genauigkeit. Es ist der Prozentsatz der Kohlenstoff-Alpha-Atome in den Vorhersagen, die nahe bei der wahren Struktur liegen – und sie haben eine genaue Definition von nahe, die Sie nachschlagen können.

Für ein perfektes Modell wäre es also hier oben im Bereich von 90% bis 100%, und dann wären zufällige Modelle hier unten. Sie können sehen, dass viele von ihnen fast zufällig sind. Aber wichtiger sind hier die Trendlinien. Die Trendlinie für CASP10, die neueste in diesem Bericht, ist also schwarz. Und für CASP5 ist es dieses Gelbe, das sich nicht so stark vom Schwarzen unterscheidet.

Dies zeigt also, dass sich die tatsächliche Vorhersagegenauigkeit im Laufe eines Jahrzehnts insgesamt nicht so stark verbessert hat. Es ist ein bisschen schockierend. Also versuchten sie in diesem Papier herauszufinden, warum das so ist? Ich meine, der Prozentsatz der Aminosäuren, die Sie richtig erhalten, steigt, aber die Gesamtgenauigkeit nicht.

Und so behaupten sie, dass es sein könnte, dass die Zielschwierigkeit nicht wirklich ein faires Maß ist, da viele der eingereichten Proteine ​​​​in einem anderen Sinne tatsächlich viel härter sind, da sie zunächst keine Einzeldomänenproteine ​​​​sind. In CASP5 waren viele davon Proteine ​​mit unabhängigen Strukturen.

Zur Zeit von CASP10 sind viele der eingereichten Proteine ​​insofern interessantere strukturelle Probleme, als ihre Faltung von Wechselwirkungen mit vielen anderen Dingen abhängt. Vielleicht sind alle Informationen, die Sie benötigen, nicht vollständig in der Sequenz des Peptids zusammengesetzt, das Ihnen zum Testen gegeben wurde, sondern hängt mehr von den Interaktionen dieses Peptids mit seinen Partnern ab.

Das waren also Homologiemodelle. Dies sind die freien Modellierungsergebnisse. Beim freien Modellieren gibt es also keine Homologie zu beachten, sodass sie außer der Länge keine Schwierigkeit haben. Sie verwenden wieder diesen globalen Entfernungstest. Also hier oben sind perfekte Modelle. Hier unten sind fast zufällige Modelle. CASP10 ist rot. CASP5, ein Jahrzehnt zuvor, ist grün. Und Sie können sehen, dass die Trendlinien sehr, sehr ähnlich sind. Und CASP9, hier die gestrichelte Linie, sieht fast identisch mit CASP5 aus.

Das ist also wiederum nicht sehr ermutigend. Es heißt, dass die Genauigkeit der Modelle in den letzten zehn Jahren nicht sehr gut angenommen wurde. Und dann weisen sie darauf hin, dass es interessant ist, wenn man sich auf die kurzen Strukturen konzentriert. In CASP5, also den Dreiecken, lag nur eines davon über 60%. CASP9, sie hatten 5 von 11 waren ziemlich gut. Aber dann kommt man bei CASP10 an und jetzt sind nur noch drei größer als 60%. Es schwankt also sehr stark.

De novo zu modellieren ist also immer noch ein sehr, sehr schwieriges Problem. Und sie haben eine ganze Reihe von Theorien, warum das so sein könnte. Sie schlugen, wie ich bereits sagte, vor, dass die Modelle, die sie zu lösen versuchen, auf eine nicht leicht zu beurteilende Weise schwieriger geworden sind.

Viele der Proteine, die vorher kein Homolog hatten, tun dies bereits jetzt, denn es gab ein Jahrzehnt der strukturellen Arbeit, um fehlende Domänenstrukturen zu füllen. Und dass diese Ziele tendenziell mehr Unregelmäßigkeiten aufweisen. Tendenz, Teil größerer Proteine ​​zu sein. Auch hier gibt es nicht genügend Informationen in der Reihenfolge, die Sie erhalten, um die vollständige Vorhersage zu treffen.

Was wir bisher gesehen haben, war der Rosetta-Ansatz zur Lösung von Proteinstrukturen. Und es ist wirklich, alles darauf zu werfen. Jeder Trick, den Sie haben. Schauen wir uns die Datenbanken an. Nehmen wir homologe Proteine. Rechts? Wir haben also diese hohen, mittleren und niedrigen Homologe. Und selbst wenn wir ein Homolog machen, beschränken wir uns nicht auf diese Proteinstruktur.

Aber für bestimmte Teile gehen wir in die Datenbank und finden die Strukturen von Peptiden der Länge drei bis neun. Ziehen Sie diese aus dem [? Betas. ?] Stecken Sie diese ein. Unsere potentiellen Energiefunktionen sind Grab-Bag-Informationen, von denen einige starke physikalische Prinzipien haben, andere nur kurvenangepasst sind, um sicherzustellen, dass wir die Hydrophoben drinnen und die Hydrophilen draußen halten.

Also werfen wir alle Informationen, die wir haben, auf das Problem, während unser Physiker diesen Ansatz verachtet. Er sagt, nein, nein. Wir gehen das rein nach dem Buch vor. Alle unsere Gleichungen werden eine physikalische Grundlage haben. Wir werden nicht mit Homologiemodellen beginnen. Wir werden versuchen, die Simulation zu machen, von der ich Ihnen einen kleinen Film gezeigt habe, für jedes einzelne Protein, dessen Struktur wir kennen möchten.

Warum ist das Problem nun schwer? Das liegt daran, dass diese potentiellen Energielandschaften unglaublich komplex sind. Rechts? Sie sind sehr robust. Der Versuch, von einer beliebigen aktuellen Position zu einer anderen zu gelangen, erfordert viele, viele Minima.

Der Grund dafür ist also in erster Linie ein Problem mit der Rechenleistung. Es gibt einfach nicht genug Computerleistung, um all diese Probleme zu lösen. Eine Gruppe, DE Shaw, sagte also: Nun, wir können das lösen, indem wir einfach viel Geld ausgeben, das sie glücklicherweise hatten.

Also entwarfen sie Hardware, die einzelne Komponenten der potentiellen Energiefunktion tatsächlich in Hardware und nicht in Software löst. Sie haben also einen Chip, den sie Anton nennen, der tatsächlich Teile davon enthält, die die elektrostatische Funktion, die Van-der-Waals-Funktion, lösen.

In diesen Chips und nicht in der Software arbeiten Sie also so schnell wie möglich, um die Energieterme zu lösen. Und das ermöglicht Ihnen, viel, viel mehr Platz zu probieren. Führen Sie Ihre Simulationen viel, viel länger in Echtzeit aus.

Und das gelingt ihnen bemerkenswert gut. Hier sind also einige Bilder aus einem ihrer Papiere - vor ein paar Jahren - mit den vorhergesagten und den tatsächlichen Strukturen. Ich erinnere mich nicht einmal, welche Farbe welche ist, aber Sie können sehen, dass es nicht viel ausmacht. Sie bringen sie auf eine sehr, sehr hohe Auflösung herunter.

Was fällt Ihnen nun an all diesen Strukturen auf?

PROFESSOR: Sie sind klein, nicht wahr? Das hat also offensichtlich einen Grund. Das ist, wenn Sie in angemessener Rechenzeit arbeiten können, selbst mit einem High-End-Computing, das einen speziellen Zweck hat. Wir sind also immer noch nicht in einem Zustand, in dem sie jede beliebige Struktur falten können.

Was fällt Ihnen sonst noch an ihnen auf? Ja, hinten.

PUBLIKUM: Sie haben sehr gut definierte Sekundärstrukturen.

PROFESSOR: Sie haben sehr gut definierte Sekundärstrukturen. Und sie sind vor allem was?

PROFESSOR: Alpha-Helix, richtig. Und es stellt sich heraus, dass in einer Alpha-Helix lokal viel mehr Informationen kodiert sind als in einem Beta-Blatt, was davon abhängt, auf was dieses Stück Protein stößt. Rechts? Während wir in der Alpha-Helix gesehen haben, dass Sie mit sehr groben Algorithmen eine Genauigkeit von 60 % erreichen können, richtig?

Wir werden mit diesen physikalischen Ansätzen also am besten arbeiten, wenn wir kleine Proteine ​​haben, die größtenteils alpha-helikal sind. Aber in späteren Papieren – nun, hier ist sogar ein Beispiel. Hier ist eine, die eine bestimmte Menge an Beta-Sheet hat. Und die Strukturen werden mit der Zeit größer. Es ist also kein inhärentes Problem. Es ist nur eine Frage, wie schnell die Hardware heute im Vergleich zu morgen ist.

Okay, ein dritter Ansatz. Wir hatten also den statistischen Ansatz. Wir haben den physikalischen Ansatz. Der dritte Ansatz, auf den ich nicht näher eingehen werde, den Sie aber buchstäblich selbst ausprobieren können, ist ein Spiel, bei dem wir Menschen haben, die versuchen, die richtige Struktur zu identifizieren, genau wie Menschen bei anderen Arten von Mustererkennungsproblemen sehr gut tun.

Sie können also dieses Videospiel ausprobieren, bei dem Sie Strukturen erhalten, die Sie lösen müssen, und sagen: oh, soll ich das spiralförmig machen? Soll ich diese Seitenkette drehen? Probieren Sie es also aus. Einfach Google FoldIT, und Sie können herausfinden, ob Sie der beste Spieler sein und die Hardware schlagen können.

Gut. Bisher haben wir über die Aufklärung der Strukturen einzelner Proteine ​​gesprochen. Wir haben gesehen, dass es in diesem Bereich einige Erfolge gibt. Es hat sich in mancher Hinsicht stark verbessert. Zwischen CASP1 und CASP5 hat es meiner Meinung nach große Verbesserungen gegeben. Zwischen CASP5 und CASP10 sind die Probleme vielleicht hart geworden. Vielleicht gab es keine Verbesserungen. Das überlassen wir anderen.

Was ich am Ende dieser Vorlesung und am Anfang der nächsten Vorlesung gerne betrachten möchte, sind Probleme von Proteinen, die miteinander interagieren, und können wir diese Interaktionen vorhersagen? Und das führt uns dann zu noch größeren System- und Netzwerkproblemen.

Also werden wir dies auf drei separate Vorhersageprobleme herunterbrechen. Die erste davon ist die Vorhersage der Wirkung einer Punktmutation auf die Stabilität eines bekannten Komplexes. In gewisser Weise denken Sie vielleicht, dass dies ein einfaches Problem ist. Ich habe zwei Proteine. Ich kenne ihre Struktur. Ich weiß, sie ziehen sich zusammen. Ich möchte vorhersagen, ob eine Mutation diese Interaktion stabilisiert oder sie auseinanderfallen lässt. Das ist das erste der Probleme.

Wir können versuchen, die Struktur bestimmter Komplexe vorherzusagen, und wir können dann versuchen, dies zu verallgemeinern und jedes Protein vorherzusagen, das mit jedem anderen Protein interagiert. Wir werden sehen, wie wir bei all diesen abschneiden.

Also gehen wir auf eines dieser Wettbewerbspapiere ein, die sehr gut darin sind, die Felder zu bewerten. Dieses Wettbewerbspapier befasste sich mit dem, was ich das einfache Problem nenne. Sie haben also zwei Proteine ​​bekannter Struktur. Die Autoren des Papiers, die die Herausforderung herausgegeben haben, kannten die Antwort auf die Auswirkung jeder möglichen Mutation an einer ganzen Reihe von Positionen entlang dieser Proteine ​​auf die – nun ja, eine Annäherung an die freie Bindungsenergie.

Also haben sie die Konkurrenten herausgefordert, es herauszufinden, wir geben Ihnen die Struktur, wir nennen Ihnen alle Positionen, die wir mutiert haben, und Sie sagen uns, ob diese Mutationen den Komplex stabiler oder weniger stabil gemacht haben. Genauer gesagt hatten sie zwei separate Proteinstrukturen.

Sie mutierten 53 Positionen in einer. 45 Positionen in einem anderen. Sie haben die freie Bindungsenergie nicht für jeden möglichen Komplex direkt gemessen, aber sie verwendeten einen Hochdurchsatz-Assay. Wir werden nicht ins Detail gehen, aber es sollte mehr oder weniger mit der freien Energie nachgeführt werden. Dinge, die hier stabilere Direktoren zu sein scheinen, sind also wahrscheinlich niedrigere freie Energiekomplexe.

OK, wie würden Sie also versuchen, das Problem zu lösen? Wenn Sie also diese potenziellen Energiefunktionen verwenden, die wir bereits gesehen haben, könnten Sie versuchen, die Mutation in die Struktur einzufügen. Und was müsste man dann tun, um die Energie zu bewerten? Bevor Sie die Energie bewerten.

Ich habe also eine bekannte Struktur. Ich sage, Position 23, ich mutiere von Phenylalanin zu Alanin. Ich sage Alanin zu Phenylalanin. Machen Sie es ein wenig interessanter. IN ORDNUNG? Also hänge ich jetzt an dieser großen Seitenkette fest. Was muss ich also tun, bevor ich die Strukturenergie auswerten kann?

PUBLIKUM: Stellen Sie sicher, dass es keine Zusammenstöße gibt.

PROFESSOR: Stellen Sie sicher, dass es keine Zusammenstöße gibt, oder? Ich muss also eine dieser Methoden zur Optimierung der Seitenkettenbestätigung durchführen, die wir bereits beschrieben haben, und kann dann anhand der freien Energie entscheiden, ob es eine Verbesserung oder eine Verschlimmerung ist.

Okay, also mal sehen, wie sie sich machen. Hier also ein Lösungsbeispiel. Der Einreicher, die Person, die den Algorithmus für die Vorhersage hat, entscheidet über einen Grenzwert in seiner Energiefunktion, ob er glaubt, dass dies die Dinge verbessert oder verschlimmert. Also entscheiden sie sich für die Farbe. Jeder dieser Punkte steht für eine andere Mutation.

Auf der y-Achse ist die tatsächliche Bindungsänderung, die beobachtete Bindungsänderung, dargestellt. Dinge über Null sind also eine verbesserte Bindung. Unter Null sind schlechtere Bindungen. Und hier sind die Vorhersagen auf der Einreicherskala. Und hier sagte der Einreicher, dass alles in Rot schlechter und alles Grün besser sein sollte. Und Sie können sehen, dass es einen Trend gibt. Sie sind ziemlich gut darin, all diese roten Jungs als schlecht vorherzusagen, aber sie schneiden bei den neutralen eindeutig nicht so gut ab, und sicherlich nicht so gut bei den verbesserten.

Ist das nun einer der besseren Einreicher oder einer der schlechtesten? Sie würden hoffen, dass dies einer der schlechtesten ist, aber tatsächlich ist dies einer der Top-Einreicher. Tatsächlich betrachtet nicht nur der Top-Einreicher, sondern auch der Top-Einreicher Mutationen, die sich direkt an der Schnittstelle befinden, an der Sie denken, dass sie am besten abschneiden würden, oder?

Wenn es also eine Mutation auf der Rückseite des Proteins gibt, gibt es weniger strukturelle Informationen darüber, was das im Komplex tun wird. Es könnte einige überraschende Ergebnisse geben. Aber hier handelt es sich um Aminosäuremutationen direkt an der Schnittstelle.

Hier ist also ein Beispiel für den Top-Performer. Dies ist die Grafik, die ich Ihnen gerade gezeigt habe und die sich nur auf die [? Reste ?] der Schnittstelle und alle Seiten. Und hier ist eine durchschnittliche Gruppe. Und Sie können sehen, dass es den durchschnittlichen Gruppen wirklich ziemlich schlecht geht. Dieser blaue Cluster, der fast vollständig unter Null liegt, sollte also neutral sein. Und diese grünen sollten verbessert werden, und sie sind fast vollständig unter Null. Dies ist keine ermutigende Geschichte.

Wie beurteilen wir also objektiv, ob es ihnen wirklich gut geht? Wir haben also eine Art Basismaß. Welche Art von Basisalgorithmus können Sie verwenden, um vorherzusagen, ob eine Mutation diese Schnittstelle verbessert oder beeinträchtigt? Alle ihre Algorithmen werden also eine Art Energiefunktion verwenden. Was haben wir bereits in früheren Teilen dieses Kurses gesehen, das wir verwenden könnten?

Nun, wir könnten die Substitutionsmatrizen verwenden, oder? Wir haben die BLOSUM-Substitutionsmatrix, die uns sagt, wie überrascht wir sein sollten, wenn wir eine Evolution sehen, dass Aminosäure A zu Aminosäure B wird. In diesem Fall könnten wir also die BLOSUM-Matrix verwenden. Das gibt uns für jede Mutation eine Punktzahl. Sie reicht von minus 4 bis 11. Und wir können jede Mutation basierend auf der BLOSUM-Matrix für die Substitution einstufen und sagen, OK, bei einem Wert in diesem Bereich sollten die Dinge besser oder schlechter werden.

Hier ist also ein Bereich unter dem Kurvendiagramm, in dem wir die falsch-positiven und wahr-positiven Raten aufgetragen haben, während ich meinen Schwellenwert für diese BLOSUM-Matrix ändere. Also berechne ich, was die Mutations-BLOSUM-Matrix ist, und dann sage ich, OK, ist ein Wert von 11 schlecht oder ist er gut? Ist ein Wert von 10 schlecht oder gut? Dafür steht diese Kurve. Wenn ich diese Schwelle variiere, wie viele mache ich richtig und wie viele liege ich falsch?

Wenn ich die Entscheidungen nach dem Zufallsprinzip treffe, erhalte ich ungefähr gleich richtig positive und falsch positive Ergebnisse. Sie schneiden bei der Zufallsauswahl mit dieser Matrix etwas besser ab. Nun ist der beste Algorithmus zur Vorhersage, der Energien verwendet, nur unwesentlich besser. Dies ist also der beste Algorithmus zur Vorhersage. Dies ist dieser Basisalgorithmus, der nur die BLOSUM-Matrix verwendet. Sie können sehen, dass die grüne Kurve, die nützliche Mutationen vorhersagt, wirklich schwer ist. Sie machen nicht viel besser als zufällig. Und für die schädlichen Mutationen schneiden sie etwas besser ab.

Wir könnten diese Diagramme also für jeden einzelnen der Algorithmen erstellen, aber etwas einfacher ist es, einfach die Fläche unter der Kurve zu berechnen. Wie viel Fläche also? Wenn ich perfekt wäre, würde ich 100 % wahre positive Ergebnisse und keine falschen positiven Ergebnisse erhalten, oder? Meine Linie würde also gerade nach oben und quer verlaufen und der Bereich unter der Kurve wäre eins.

Und wenn es mir schrecklich geht, bekomme ich keine True Positives und alle False Positives. Ich wäre Flatline und mein Bereich wäre Null. Die Fläche unter der Kurve, die zwischen null und eins normalisiert ist, gibt mir also ein Gefühl dafür, wie gut diese Algorithmen abschneiden.

Dieses Diagramm – konzentrieren Sie sich zuerst auf die schwarzen Punkte – zeigt bei jedem dieser Algorithmen den Bereich unter der Kurve für nützliche und schädliche Mutationen. Vorteilhaft auf der x-Achse, schädliche Mutationen auf der y-Achse. Die BLOSUM-Matrix ist da.

Gute Algorithmen sollten also darüber und rechts stehen. Sie sollten eine bessere Fläche unter der Kurve haben. Und Sie können sehen, dass der perfekte Algorithmus hier ganz oben gewesen wäre. Keiner der schwarzen Punkte ist auch nur im Entferntesten nahe. Die G21, über die wir gleich noch sprechen werden, ist etwas besser als die BLOSUM-Matrix, aber nicht viel.

Jetzt werde ich die zweite Runde im Detail ignorieren, weil dies ein Fall ist, in dem die Leute in der ersten Runde nicht so gut waren, also gingen sie raus und gaben ihnen einige der Informationen über Mutationen an allen Positionen. Und das ändert wirklich die Natur des Problems, denn dann hat man eine enorme Menge an Informationen darüber, welche Positionen wichtig sind und wie viel diese Mutationen bewirken. Also ignorieren wir die zweite Runde, die meiner Meinung nach eine zu großzügige Art ist, diese Algorithmen zu vergleichen.

OK, was haben die Autoren dieses Papiers beobachtet? Sie beobachteten, dass die besten Algorithmen nur geringfügig besser abschneiden als die Zufallsauswahl. Also dreimal besser. Und dass es ein besonderes Problem zu geben schien, wenn man Mutationen betrachtete, die die Polarpositionen beeinflussen.

Eines der Dinge, die meiner Meinung nach besonders interessant und ziemlich relevant waren, wenn wir über diese Dinge in einem thermodynamischen Kontext nachdenken, ist, dass die Algorithmen, die besser waren – keiner von ihnen konnte wirklich als wirklich gut angesehen werden – aber die Algorithmen, die es taten Besser konzentrierte sich nicht nur auf den energetischen Wechsel zwischen der Bildung des nativen Komplexes hier und der Bildung dieses mutierten Komplexes, der durch den Stern angezeigt wird. Sie konzentrierten sich aber auch auf den Einfluss der Mutation auf die Stabilität des mutierten Proteins.

Es besteht also nicht nur ein Gleichgewicht zwischen den freien Proteinen und dem Komplex, sondern auch zwischen den freien Proteinen, die gefaltet sind, und den freien Proteinen, die entfaltet sind. Und einige dieser Mutationen beeinflussen die Energie des gefalteten Zustands, und so treiben sie die Dinge nach links, ins Entfaltete. Und wenn Sie das nicht einbeziehen, dann geraten Sie tatsächlich in Schwierigkeiten.

Und ich habe hier einen Link zu einigen Vorlesungsnotizen aus einem anderen Kurs gesetzt, den ich unterrichte, wo Sie einige Details und ausgefeiltere Ansätze nachschlagen können, die tatsächlich viele der entfalteten Zustände berücksichtigen.

Daher ist der beste Ansatz – der beste einer schlechten Partie – die Auswirkungen von Mutationen auf die Stabilität zu berücksichtigen. Sie modellieren auch Packung, Elektrostapel und Solvatation. Aber die eigentlichen Algorithmen, die sie verwendeten, waren ein ganzer Mischmasch von Ansätzen. Es schien also kein gemeinsames Muster in dem, was sie taten, aufzutauchen, und ich dachte, ich würde Sie durch eines davon führen, um zu sehen, was sie tatsächlich taten.

Der beste Ansatz war also dieser maschinelle Lernansatz, G21. So haben sie das Problem gelöst. Zunächst durchforsteten sie die Literatur und fanden 930 Fälle, in denen sie eine Mutation mit einer Energieänderung in Verbindung bringen konnten. Diese hatten nichts mit den betrachteten Proteinen zu tun. Es waren völlig unterschiedliche Strukturen. Aber es waren Fälle, in denen sie tatsächlich energetische Informationen für jede Mutation hatten.

Dann gehen wir durch und versuchen, vorherzusagen, wie sich die Struktur des Proteins ändern wird, indem wir den Algorithmus eines anderen, FoldX, verwenden. Und jetzt beschreiben sie jede Mutante nicht nur mit einer einzigen Energie – wir haben uns zum Beispiel auf PyRosetta konzentriert, das Sie im Prozess verwenden werden –, sondern sie hatten tatsächlich 85 verschiedene Funktionen aus einer ganzen Reihe verschiedener Programme.

Sie sind also ziemlich agnostisch. Sie sagen, wir wissen nicht, welche dieser Energiefunktionen die beste ist, also lassen wir das maschinelle Lernen entscheiden. Jede einzelne Mutation, die ihnen als Problem präsentiert wird, hat also 85 verschiedene Parameter, ob sie Dinge verbessert oder nicht.

Und dann hatten sie ihre Datenbank mit 930 Mutationen. Für jeden von ihnen hatten sie 85 Parameter. Das sind also Trenddaten für Etiketten. Sie wissen, ob es besser oder schlechter wird. Sie verlassen sich nicht einmal auf eine einzige Methode des maschinellen Lernens. Diese verwendeten tatsächlich fünf verschiedene Ansätze.

Wir werden Bayes'sche Netze später in diesem Kurs besprechen. Die meisten dieser anderen werden wir überhaupt nicht behandeln, aber sie verwendeten viele verschiedene Rechenansätze, um zu entscheiden, wie man von diesen 85 Parametern zu einer Vorhersage darüber gelangt, ob sich die Strukturen verbessert haben oder nicht.

Das zeigt also tatsächlich die Komplexität dieses scheinbar einfachen Problems, oder? Hier ist ein Fall, in dem ich zwei Proteine ​​bekannter Struktur habe. Ich mache sehr spezifische Punktmutationen, und trotzdem bin ich nur geringfügig besser als zufällig. Und sogar mit den besten maschinellen Lerntechniken. Es gibt also eindeutig eine Menge in der Proteinstruktur, die wir in diesen Energiefunktionen noch nicht parametrisiert haben.

Vielleicht sind einige dieser anderen Probleme tatsächlich nicht so schwer, wie wir dachten. Anstatt zu versuchen, die energetische Veränderung für eine einzelne Mutation an einer Grenzfläche sehr genau zu bestimmen, sollten wir vielleicht eher versuchen, eher grobe Parameter vorherzusagen, bei denen zwei Proteine ​​miteinander interagieren. Damit beschäftigen wir uns im nächsten Teil des Kurses. Wir werden uns ansehen, ob wir Strukturdaten verwenden können, um vorherzusagen, welche zwei Proteine ​​interagieren werden.

Hier haben wir also ein Problem, nämlich ein Docking-Problem. Ich habe zwei Proteine. Angenommen, sie haben eine bekannte Struktur, aber ich habe sie noch nie miteinander interagieren sehen. Wie kommen sie also zusammen? Welche Seiten der Proteine ​​interagieren miteinander? Das nennt man Docking-Problem.

Und wenn ich versuchen wollte, systematisch herauszufinden, ob Protein A und Protein B miteinander interagieren, müsste ich alle möglichen Bestätigungen durchsuchen, oder? Dann könnte ich die Energiefunktionen verwenden, um vorherzusagen, welche die niedrigste Energie hat. Aber es wäre tatsächlich eine rechentechnisch sehr ineffiziente Art, Dinge zu tun.

Wir konnten uns also vorstellen, dass wir dieses Problem lösen wollten. Für jeden potentiellen Partner konnten wir alle relativen Positionen und Orientierungen auswerten. Wenn sie dann zusammenkommen, können wir uns nicht nur darauf verlassen, sondern, wie wir jetzt schon mehrmals gesehen haben, müssen wir lokale Bestätigungsänderungen vornehmen, um zu sehen, wie sie für jedes mögliche Andocken zusammenpassen. Und wenn wir das getan haben, können wir sagen, OK, welche davon hat die niedrigste Wechselwirkungsenergie?

Das wird offensichtlich zu rechenintensiv sein, um es in großem Maßstab zu tun. Es könnte sehr gut funktionieren, wenn Sie ein bestimmtes Paar oder Proteine ​​​​haben, die Sie studieren müssen. Aber wenn wir bei einem großen Verkauf alle möglichen Interaktionen vorhersagen wollten, würden wir nicht wirklich weit kommen. Was die Leute normalerweise tun, ist, andere Arten von Informationen zu verwenden, um den Suchraum zu reduzieren. Und was wir im nächsten Vortrag sehen werden, sind verschiedene Wege, dieses Problem anzugehen.

Eine Frage, die wir uns nun stellen sollten, lautet: Welche Rolle wird die strukturelle Homologie spielen? Sollte ich erwarten, dass zwei beliebige Proteine, die miteinander interagieren, sagen wir, dass Protein A und ich seine Interaktoren kennen. Also habe ich A dafür bekannt, mit B zu interagieren. Richtig? Also ich kenne diese Schnittstelle.

Und jetzt habe ich Protein C, und ich bin mir nicht sicher, ob es interagiert oder nicht. Sollte ich erwarten, dass die Schnittstelle von C, die A berührt, mit der Schnittstelle von B übereinstimmt? Sollen diese homolog sein? Und wenn nicht genau homolog, gibt es dann Eigenschaften, die wir erwarten können und die zwischen ihnen ähnlich sein sollten?

Wir können also unterschiedliche Ansätze verfolgen. Und es gibt sicherlich Fälle, in denen Sie Proteine ​​haben, die mit einem gemeinsamen Ziel interagieren, die keine allgemeine Strukturähnlichkeit miteinander haben, aber lokale strukturelle Ähnlichkeit aufweisen. Hier ist also ein Beispiel für subtilisn, das in Hellgrau angezeigt wird, und Teile davon, die mit dem Ziel interagieren, werden in Rot angezeigt.

Hier sind also zwei Proteine, die relativ strukturell homolog sind – sie interagieren in derselben Region. Das ist nicht allzu überraschend. Aber hier ist ein Subtilisn-Inhibitor, der keine globale strukturelle Ähnlichkeit mit diesen beiden Proteinen hat, und dennoch sind seine Wechselwirkungen mit Subtilisn ziemlich ähnlich.

Wir könnten also erwarten, dass C und B, selbst wenn sie global nicht ähnlich aussehen, diese lokale Ähnlichkeit aufweisen.

OK, eigentlich denke ich, dass wir Ihre Prüfungen gerne zurücknehmen würden. Also höre ich vielleicht hier auf. Die Klausuren geben wir in der Klasse zurück und holen dann an dieser Stelle in der nächsten Vorlesung wieder ab.


Deep-Learning-Techniken haben die Vorhersage der Proteinstruktur und das Proteindesign erheblich beeinflusst

Der jüngste Einsatz von Deep Learning hat die Genauigkeit der nicht-homologen Proteinstrukturmodellierung dramatisch verbessert.

Das Problem der Proteinstrukturvorhersage wurde durch die Verwendung neuronaler End-to-End-Netzwerke weitgehend auf der Faltungsebene gelöst.

In neuronalen Netzen gespeicherte Informationen zur Vorhersage der Proteinstruktur können zum Design neuer Proteine ​​verwendet werden.

Es sind weitere Arbeiten erforderlich, um Deep-Learning-Techniken zu erweitern, um die komplexe Proteinstruktur zu modellieren und funktionelle Proteine ​​zu entwerfen.

Proteinstrukturvorhersage und -design können als zwei inverse Prozesse betrachtet werden, die von demselben Faltungsprinzip gesteuert werden. Obwohl der Fortschritt in den letzten zwei Jahrzehnten stagnierte, hat die jüngste Anwendung tiefer neuronaler Netze auf die Vorhersage räumlicher Beschränkungen und das Ende-zu-Ende-Modelltraining die Genauigkeit der Proteinstrukturvorhersage erheblich verbessert und das Problem auf der Faltungsebene für einzelne Domänenproteine. Auch das Gebiet des Proteindesigns hat eine dramatische Verbesserung erfahren, wo bemerkenswerte Beispiele gezeigt haben, dass in neuronalen Netzwerkmodellen gespeicherte Informationen verwendet werden können, um das funktionelle Proteindesign voranzutreiben. Daher stellt die Einbeziehung von Deep-Learning-Techniken in verschiedene Schritte der Proteinfaltung und Designansätze eine spannende Zukunftsrichtung dar und sollte weiterhin einen transformativen Einfluss auf beide Bereiche haben.


Werkzeuge für maschinelles Lernen, die in der Biologie verwendet werden

Zellprofiler: Vor einigen Jahren maß Software zur biologischen Bildanalyse nur einzelne Parameter aus einer Gruppe von Bildern. Als im Jahr 2005 eine Computerbiologin Anne Carpenter vom MIT und Harvard eine Software namens CellProfiler veröffentlichte, um quantitativ individuelle Merkmale wie die Anzahl der fluoreszierenden Zellen im Mikroskopiebereich zu messen. Derzeit kann CellProfiler jedoch Tausende von Funktionen durch die Implementierung von Deep-Learning-Techniken erzeugen.

TiefeVariante: Die Anwendung von Deep Learning wird häufig in Tools zum Mining von Genomdaten verwendet. Wahrlich, Life Science und Google haben ein auf Deep Learning basierendes Tool namens DeepVariant entwickelt, das im Vergleich zu herkömmlichen Tools eine gängige Art von genetischer Variation genauer vorhersagt.

Atomweise: Ein weiteres Feld ist die Wirkstoffforschung, zu dem Deep Learning einen wesentlichen Beitrag leistet. Ein in San Francisco ansässiges Biotech-Unternehmen namens Atomwise hat einen Algorithmus entwickelt, der dabei hilft, Moleküle in 3D-Pixel umzuwandeln. Diese Darstellung hilft, die 3D-Struktur von Proteinen und kleinen Molekülen mit atomarer Präzision zu erfassen. Dann kann der Algorithmus mithilfe dieser Funktionen kleine Moleküle vorhersagen, die möglicherweise mit einem bestimmten Protein interagieren [12].

Es gibt verschiedene Arten von Deep-Learning-Methoden wie Deep Neural Network (DNN), Recurrent Neural Network (RNN), Convolution Neural Network (CNN), Deep Autoencoder (DA), Deep Boltzman Machine (DBM), Deep Belief Network (DBN) und Deep Residual Network (DRN) etc. Im Bereich der Biologie werden einige Methoden wie DNN, RNN, CNN, DA und DBM am häufigsten verwendet [13]. Die Übersetzung biologischer Daten zur Validierung von Biomarkern, die den Krankheitszustand aufdecken, ist eine Schlüsselaufgabe in der Biomedizin. DNN spielt eine bedeutende Rolle bei der Identifizierung potenzieller Biomarker aus Genom- und Proteomdaten. Auch in der Wirkstoffforschung spielt Deep Learning eine wichtige Rolle [14].

CNN wurde das kürzlich entwickelte Rechenwerkzeug DeepCpG verwendet, um DNA-Methylierungszustände in einzelnen Zellen vorherzusagen. Bei der DNA-Methylierung sind Methylgruppen mit dem DNA-Molekül verbunden und verändern die Funktionen des DNA-Moleküls, indem sie Sequenzänderungen verursachen. DeepCpG wird auch für die Vorhersage bekannter Motive verwendet, die für die Methylierungsvariabilität verantwortlich sind. DeepCpG prognostizierte ein genaueres Ergebnis im Vergleich zu anderen Methoden bei der Auswertung mit fünf verschiedenen Arten von Methylierungsdaten. DNA-Methylierung ist ein am häufigsten untersuchter epigenetischer Marker [15].

TensorFlow ist ein Deep-Learning-Framework, das von Google-Forschern entwickelt wurde. TensorFlow ist eine kürzlich entwickelte Software, die das DNN-Design und -Training beschleunigt. Es ist in mehreren Verbesserungen wie grafischer Visualisierung und Zeitkomplikation implementiert. Die Hauptverbesserung von TensorFlow besteht darin, dass es mit unterstützenden Tools namens TensorBoard verfügbar ist, die zur Visualisierung des Trainingsfortschritts des Modells verwendet werden. Es kann ein komplexes Modell visualisieren [16].

Zusammenfassend lässt sich sagen, dass KI und maschinelles Lernen die Art und Weise verändern, wie Biologen forschen, sie interpretieren und zur Lösung von Problemen anwenden. Da die Wissenschaft zunehmend interdisziplinär wächst, ist es nur unvermeidlich, dass die Biologie weiterhin Anleihen beim maschinellen Lernen macht, oder besser noch, maschinelles Lernen wird den Weg weisen.

Müssen Sie einen Berater für maschinelles Lernen für ein Projekt einstellen? Lassen Sie sich von freiberuflichen Experten auf Kolabtree beraten. Es ist kostenlos, Ihr Projekt zu veröffentlichen und Angebote zu erhalten!

Wissen: Der Autor möchte Herrn Arvind Yadav für die Unterstützung bei diesem Blogbeitrag danken.

Referenzen und weiterführende Literatur:

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C.K. (2016). Eine Übersicht über maschinelle Lerntechniken. Internationale Zeitschrift für aktuelle und innovative Trends in Informatik und Kommunikation, 4(3), 395-399.
  7. Jordan, M.I., &. Mitchell, T.M. (2015). Maschinelles Lernen: Trends, Perspektiven und Perspektiven. Wissenschaft, 349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). Eine Literaturübersicht über überwachte maschinelle Lernalgorithmen und Boosting-Prozesse. Internationale Zeitschrift für Computeranwendungen, 169(8), 32-35.
  9. Forsberg, F., & Alvarez Gonzalez, P. (2018). Unüberwachtes maschinelles Lernen: Eine Untersuchung von Clustering-Algorithmen in einem kleinen Datensatz.
  10. Gosavi, A. (2009). Verstärkungslernen: Eine Tutorial-Umfrage und die jüngsten Fortschritte. INFORMS Zeitschrift für Informatik, 21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., &. Stegle, O. (2016). Deep Learning für die Computerbiologie. Molekulare Systembiologie, 12(7), 878.
  12. Webb, S. (2018). Deep Learning für Biologie. Natur. 2018 554 (7693): 555-557.
  13. Mahmud, M., Kaiser, M.S., Hussain, A., & Vassanelli, S. (2018). Anwendungen von Deep Learning und Reinforcement Learning auf biologische Daten. IEEE-Transaktionen auf neuronalen Netzen und lernenden Systemen, 29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016). Anwendungen von Deep Learning in der Biomedizin. Molekulare Pharmazie, 13(5), 1445-1454.
  15. Angermueller, C., Lee, H.J., Reik, W., &. Stegle, O. (2017). DeepCpG: Genaue Vorhersage von DNA-Methylierungszuständen einzelner Zellen mithilfe von Deep Learning. Genombiologie, 18(1), 67.
  16. Rampasek, L., &. Goldenberg, A. (2016). Tensorflow: Das Tor der Biologie zum Deep Learning?. Zellsysteme, 2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al., (2018) “Skalierbares und genaues Deep Learning mit elektronischen Patientenakten“, npj Digitale Medizin, 1(1)

Kolabtree hilft Unternehmen weltweit, Experten bei Bedarf einzustellen. Unsere Freelancer haben Unternehmen dabei geholfen, Forschungsarbeiten zu veröffentlichen, Produkte zu entwickeln, Daten zu analysieren und mehr. Es dauert nur eine Minute, um uns mitzuteilen, was Sie tun müssen, und erhalten Sie kostenlos Angebote von Experten.