Proteinstrukturvorhersage

Die Proteinstrukturvorhersage umfasst alle Methoden, rein rechnerisch aus der Aminosäuresequenz eines Proteins die dreidimensionale Struktur des gefalteten Moleküls zu ermitteln. Sie ist eines der wichtigen Ziele der Bioinformatik und der theoretischen Chemie. Sie ergibt sich aus der praktischen Schwierigkeit, die atomare Struktur eines Proteins in der Natur mit physikalischen Methoden zu messen. Insbesondere für die genauen Atompositionen innerhalb der Tertiärstruktur besteht großer Bedarf; sie bilden die Grundlage für das Arzneistoffdesign und andere Methoden der Biotechnologie.

Die bisher entwickelten Methoden der Proteinstrukturvorhersage bauen auf der Kenntnis der Primärstruktur auf, um so die Sekundärstruktur und/oder die Tertiärstruktur zu postulieren. Ein weiteres Detailproblem ist die Ermittlung der Quartärstruktur aus vorliegenden Tertiärstrukturdaten. Implementationen der dabei entwickelten Algorithmen stehen großteils im Quelltext oder als Webserver zur Verfügung; ein Sonderfall sind die Künstliche-Intelligenz-Systeme der Firma DeepMind, über deren Struktur und Eigenschaften zwar Veröffentlichungen gemacht werden, die aber nicht vollständig offengelegt werden. Aufgrund der enormen Bedeutung einer endgültigen Lösung des Problems hat sich mit CASP seit 1994 ein zweijährlicher Wettbewerb für den Vergleich der besten Lösungsmethoden etabliert. 2018 und 2020 wurde der Wettbewerb von den DeepMind-Produkten AlphaFold bzw. AlphaFold2 gewonnen, wobei die Vorhersageergebnisse 2020 so gut waren, dass erstmals davon gesprochen wurde, dass das Problem als prinzipiell gelöst betrachtet werden könne.[1] 2021 veröffentlichten Forscher dann über 350.000 3D-Modelle gefalteter Proteine, die mit dieser KI vorhergesagt wurden. Darunter sind 98,5 % der ~20.000 Proteine des menschlichen Körpers. Bei etwa einem Drittel der Vorhersagen besteht eine hohe Wahrscheinlichkeit, dass diese akkurat sind.[2]

Motivation

Die Ermittlung der natürlichen Proteinstruktur mit physikalischen Methoden ist zwar für viele, aber bei weitem nicht alle, Proteine möglich und mit hohen Kosten und zeitlichem Aufwand verbunden. Bis 2012 konnten mithilfe von NMR und Röntgenstrukturanalyse die Strukturen von etwa 50.000 verschiedenen Proteinen ermittelt werden (diese Zahl reduziert sich auf 30.000, wenn Proteine mit mehr als 10 Prozent Sequenzunterschied betrachtet werden). Im Jahr 2020 waren schon 100.000 Strukturen bzw. Strukturteile bekannt und in Datenbanken erfasst. Dem stehen schätzungsweise mehr als 30 Millionen Proteinsequenzen gegenüber. Für eine zuverlässige rein rechnerische Methode zur Bestimmung der Proteinstruktur aus der Aminosäuresequenz ergibt sich daher großer Bedarf. Die vorauszusehende Beschleunigung der Sequenzierung ganzer Genome, ja sogar ganzer ökologischer Metagenome, vergrößert die Diskrepanz zwischen bekannten Primär- und Tertiärstrukturen und damit eine Dringlichkeit der Lösung des Problems zusätzlich.[3]

Sekundärstrukturbetrachtungen

Die Sekundärstrukturvorhersage ist eine Sammlung bioinformatischer Techniken, die darauf abzielen, die Sekundärstruktur von Proteinen und RNA mithilfe ihrer Primärstruktur vorherzusagen (Aminosäuren beziehungsweise Nukleotide). Bei Proteinen, um die es im Folgenden ausschließlich geht, besteht die Vorhersage darin, bestimmte Abschnitte der Aminosäuresequenz als wahrscheinliche α-Helix, β-Faltblatt, β-Schleife oder als strukturlos zu markieren. Ein Erfolg wird ermittelt, indem die Voraussage mit dem Resultat des DSSP-Algorithmus verglichen wird, der auf die tatsächliche Struktur angewandt wird. Über diese allgemeinen Strukturmotive hinaus gibt es außerdem Algorithmen zur Erkennung spezieller wohldefinierter Strukturmotive wie Transmembranhelices oder Coiled-Coils.[4]

2012 erreichten die besten Methoden der Sekundärstrukturvorhersage etwa 80 Prozent Genauigkeit, was ihre Benutzung bei der Faltungserkennung, der Ab-Initio-Strukturvorhersage und beim Sequenz-Alignment erlaubt. Die Entwicklung der Genauigkeit von Sekundärstrukturvorhersage-Methoden wird durch wöchentliche Benchmarks wie LiveBench und EVA dokumentiert.[5]

Tertiärstrukturbetrachtungen

Da eine völlige Neuberechnung (ab initio) der Proteinstruktur mittels rein physikalisch-energetischer und quantenchemischer Methoden selbst für kleine Proteine zu aufwändig ist, haben sich Algorithmen zur Strukturvorhersage durchgesetzt, die entweder auf eine Klassifikation einzelner Teile der Aminosäurensequenz oder auf vorhergesagte Contact Maps zurückgreifen und erst in einem zweiten Schritt die endgültigen Atompositionen berechnen.

Strukturklassen/Domänen

Verschiedene statistische Methoden haben sich zur Klassifizierung unbekannter Proteine herausgebildet. Die erfolgreichsten verwenden Hidden Markov Models, die auch bei der Lösung des Problems der Spracherkennung erfolgreich sind. Die entsprechenden Zuordnungen können von Strukturbiologie-Datenbanken wie Pfam und InterPro heruntergeladen werden. Ist bereits eine Proteinstruktur innerhalb einer Klasse bekannt, können die Strukturen weiterer Mitglieder durch vergleichende Vorhersage berechnet werden. Im andern Fall steht mit der Vorhersage der Contact Map einer Strukturklasse eine neue Methode zur Verfügung, die nicht mehr auf physikalische Strukturbestimmung angewiesen ist.[6][7][8][9]

Vorhersage aus evolutionärer Information

Mit der Verfügbarkeit großer Mengen genomischer Sequenzen wird es möglich, die Koevolution von Aminosäuren in Proteinfamilien zu untersuchen. Man kann annehmen, dass sich im Lauf der Evolution innerhalb einer strukturell konservierten Proteinfamilie die dreidimensionale Struktur der Proteine nicht wesentlich ändert. Die Faltung des Proteins ergibt sich dabei durch die Wechselwirkungen zwischen den einzelnen Aminosäuren. Verändert sich durch eine Mutation eine der Aminosäuren im Protein, kann sich die Stabilität des Proteins verringern und muss durch kompensatorische (korrelierte) Mutationen wiederhergestellt werden.

Mehrere statistische Methoden existieren, evolutionär gekoppelte Positionen innerhalb einer strukturell klassifizierten Proteinfamilie zu ermitteln, wobei als Input das multiple Sequenzalignment der jeweiligen Familie dient. Frühe Methoden bedienten sich dazu lokaler statistischer Modelle, die immer nur zwei Aminosäurepositionen in der Sequenz gleichzeitig betrachten, was zu unzureichender Vorhersagegenauigkeit aufgrund transitiver Effekte führt.[10] Beispiele hierfür sind die McLachlan Based Substitution correlation (McBASC),[11] observed versus expected frequencies of residue pairs (OMES),[12] statistische Kopplungsanalyse (statistical coupling analysis, SCA) sowie Methoden basierend auf gegenseitiger Information (Mutual Information, MI).[13]

Erst durch die Verwendung globaler statistischer Ansätze wie der Maximum-Entropie-Methode (inverses Potts-Modell) oder partiellen Korrelationen wurde es möglich, die kausale Koevolution zwischen Aminosäuren von indirekten, transitiven Effekten zu unterscheiden.[14][15][16][17][18] Neben der Überlegenheit globaler Modelle zur Kontaktvorhersage wurde im Jahr 2011 erstmals gezeigt, dass die vorhergesagten Aminosäurekontakte verwendet werden können, um 3D-Proteinstrukturen allein aus Sequenzinformation vorherzusagen.[14] Dabei werden weder verwandte Strukturen oder Fragmente verwendet, und die Berechnungen können selbst für Proteine mit mehreren hundert Aminosäuren innerhalb weniger Stunden auf einem normalen Rechner durchgeführt werden.[14][19] Darauffolgende Publikationen zeigten, dass auch Transmembranproteine mit beträchtlicher Genauigkeit vorhergesagt werden können.[20][21]

Ab-initio-Vorhersage

Jede naive (mit Vorwissen unbelastete) Proteinstruktur-Vorhersagemethode muss in der Lage sein, die astronomische Größe des zu durchsuchenden Raums möglicher Strukturen zu durchmessen. Zur Veranschaulichung dient das Levinthal-Paradox. Ab-initio (auch: de-novo)-Methoden beruhen dabei lediglich auf der Anwendung physikalischer Prinzipien (Quantenchemie) auf die bekannte Primärstruktur, um eine Simulation des Faltungsvorgangs zu erreichen. Andere Methoden gehen von den möglichen Strukturen aus und versuchen, eine geeignete Bewertungsfunktion, die meist die Berechnung der freien Enthalpie enthält, zu optimieren (Anfinsen-Dogma). Solche Berechnungen erfordern nach wie vor einen Supercomputer und können nur für die kleinsten Proteine durchgeführt werden. Die Idee, durch verteiltes Rechnen Rechenkraft für die ab-initio-Vorhersage zur Verfügung zu stellen, führte zur Realisierung der Projekte Folding@home, Human Proteome Folding Project und Rosetta@home. Trotz der erforderlichen Rechenkraft ist ab-initio ein aktives Gebiet der Forschung.[22]

Vergleichende Vorhersage

Vergleichendes Proteinmodelling verwendet bekannte (physikalisch gemessene) Strukturen als Startpunkt oder Vorlage. Das funktioniert in den Fällen, in denen ein homologes Protein mit bekannter Struktur existiert. Da sich die Proteinstrukturen nicht beliebig entwickelt haben, sondern stets mit einer biologischen Funktion assoziiert sind, können Proteine zu Gruppen zusammengefasst werden, die sowohl strukturell homolog als auch funktionell einheitlich sind, wobei die Zugehörigkeit zu einer solchen Gruppe leicht mittels maschinellem Lernen (HMM) auffindbar ist (s. o.). Auf der anderen Seite bemühen sich Strukturbiologen, mindestens zu jeder dieser Proteingruppen ein repräsentatives Protein physikalisch zu vermessen, so dass im Idealfall alle restlichen Proteinstrukturen mittels Vergleich vorhergesagt werden könnten.

Homologie-Modelling

Bei der vergleichenden Vorhersage hat sich mittlerweile das Homologie-Modelling durchgesetzt: Auf bekannte Proteinstrukturen (Template) wird die zu untersuchende Aminosäuresequenz mittels Peptidbindung übertragen und die resultierenden Raumerfüllungen untersucht. Daraus kann abgeleitet werden, welche Struktur die untersuchte Sequenz einnimmt in Abhängigkeit von der Template-Struktur.[23]

Vorausgesetzt ist, dass Template und Probesequenz zu einer gemeinsamen Strukturfaltung geeignet sind und aneinander ausgerichtet werden können, denn das Sequenzalignment stellt beim vergleichenden Modelling das Hauptproblem dar. Ohne Zweifel gelingen mit sehr ähnlichen Sequenzen die besten Resultate.[24][22]

Vorhersage aus Contact Maps

Die Einteilung von Proteinen in strukturelle Gruppen erlaubt die Vorhersage einer Contact Map für diese Gruppe durch Berechnung gekoppelter Positionen im Alignment (s. o.). Auf der anderen Seite erhalten Strukturbiologen auch bei der physikalischen Vermessung der Proteinstruktur mittels NMR zunächst eine Contact Map. Es haben sich daher schon früh Algorithmen entwickelt, um von einer Contact Map Rückschlüsse auf die Protein-Tertiärstruktur zu erhalten. Damit ist es nun prinzipiell möglich, zuverlässig aus beliebigen Sequenzen die Proteinstruktur vorherzusagen, solange eine große Menge an Sequenzen von Proteinen gleicher Gruppierung zur Verfügung steht, um gekoppelte Positionen, und damit eine Contact Map zu ermitteln. Mit dem zunehmenden Tempo der Sequenzierung stehen bereits genug Bakteriengenome (nahezu 10.000) zur Verfügung, um die Methode erfolgreich auf diese anzuwenden, und beispielsweise auch Membranproteine zu modellieren. Aber auch die Anzahl eukaryotischer Sequenzen ist in manchen Fällen ausreichend, und die Situation entspannt sich diesbezüglich zusehend.[25][26]

Vorhersage der Seitenkettengeometrie

Das exakte Einpassen der Aminosäure-Seitenketten stellt ein eigenes Problem innerhalb der Proteinstrukturvorhersage dar. Dabei wird das Proteinrückgrat als starr vorausgesetzt und die möglichen Konformationen (Rotamere) der einzelnen Seitenketten so verändert, dass die Gesamtenergie minimiert wird. Methoden, die speziell die Seitenkettenvorhersage durchführen, sind beispielsweise die Sackgassen-Eliminierung (DEE) und self-consistent mean field (SCMF). Beide Methoden benutzen Rotamer-Bibliotheken, in denen erfahrungsgemäß günstige Konformationen mit Detaildaten verzeichnet sind. Diese Bibliotheken können rückgratunabhängig, sekundärstrukturabhängig oder rückgratabhängig indiziert sein.[27][28][29][30]

Die Seitenkettenvorhersage ist besonders bei der Bestimmung des hydrophoben Proteinkerns nützlich, wo die Seitenketten am engsten gepackt sind; sie ist weniger geeignet für die flexibleren Oberflächenabschnitte, wo die Anzahl möglicher Rotamere wesentlich ansteigt.[31][32]

Quartärstrukturbetrachtungen

In den Fällen, in welchen aufgrund von Laborergebnissen bekannt ist, dass ein Protein mit einem anderen oder gleichen einen Proteinkomplex bildet, und ebenso die Tertiärstruktur(en) vorliegen, kann mithilfe von Docking-Software herausgefunden werden, wie die Proteine im Komplex zueinander orientiert sind (Quartärstruktur). Darüber hinaus stehen mit den genomischen Contact Maps Daten zur Verfügung, die Rückschlüsse über Berührungspositionen zulassen, da diese funktionell gekoppelt sind. Dies gilt gleichermaßen für Protein-Protein-Interaktionen, wobei hier Berührungspositionen von Genpaaren derselben Spezies betrachtet werden. Erste Anwendungen auf Toxin-Antitoxin-Systeme und andere Signalnetzwerke in Bakterien wurden bereits vorgestellt.[33][17]

Literatur

  • G. L. Butterfoss, B. Yoo u. a.: De novo structure prediction and experimental characterization of folded peptoid oligomers. PNAS, Band 109, 2012, S. 14320–14325, doi:10.1073/pnas.1209945109.

Einzelnachweise

  1. heise online: Deepmind: KI schafft Durchbruch bei der Proteinfaltung. Abgerufen am 6. Dezember 2020.
  2. DeepMind's AI predicts structures for a vast trove of proteins In: Nature, 22. Juli 2021. Abgerufen am 1. August 2021 (englisch). 
  3. RCSB: Redundancy in the Protein Data Bank
  4. Mount DM (2004). Bioinformatics: Sequence and Genome Analysis. 2. Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1.
  5. Leong Lee, Leopold, J.L.; Frank, R.L.: Protein Secondary Structure Prediction Using BLAST and Exhaustive RT-RICO, the Search for Optimal Segment Length and Threshold. In: IEEE Xplore Digital Library. Mai 2012 (englisch, ieee.org).
  6. Chen C, Zhou X, Tian Y, Zou X, Cai P: Predicting protein structural class with pseudo-amino acid composition and support vector machine fusion network. In: Anal. Biochem. 357. Jahrgang, Nr. 1, Oktober 2006, S. 116–21, doi:10.1016/j.ab.2006.07.022, PMID 16920060 (englisch).
  7. Chen C, Tian YX, Zou XY, Cai PX, Mo JY: Using pseudo-amino acid composition and support vector machine to predict protein structural class. In: J. Theor. Biol. 243. Jahrgang, Nr. 3, Dezember 2006, S. 444–448, doi:10.1016/j.jtbi.2006.06.025, PMID 16908032 (englisch).
  8. Lin H, Li QZ: Using pseudo amino acid composition to predict protein structural class: approached by incorporating 400 dipeptide components. In: J Comput Chem. 28. Jahrgang, Nr. 9, Juli 2007, S. 1463–6, doi:10.1002/jcc.20554, PMID 17330882 (englisch).
  9. Xiao X, Wang P, Chou KC: Predicting protein structural classes with pseudo amino acid composition: an approach using geometric moments of cellular automaton image. In: J. Theor. Biol. 254. Jahrgang, Nr. 3, Oktober 2008, S. 691–696, doi:10.1016/j.jtbi.2008.06.016, PMID 18634802 (englisch).
  10. B. G. Giraud, John M. Heumann, Alan S. Lapedes: Superadditive correlation. In: Physical Review E. Band 59, 5 Pt A, Mai 1999, S. 4983–4991, PMID 11969452.
  11. Ulrike Göbel, Chris Sander, Reinhard Schneider, Alfonso Valencia: Correlated mutations and residue contacts in proteins. In: Proteins. Band 18, Nr. 4, April 1994, S. 309–317, doi:10.1002/prot.340180402.
  12. Itamar Kass, Amnon Horovitz: Mapping pathways of allosteric communication in GroEL by analysis of correlated mutations. In: Proteins. Band 48, Nr. 4, September 2002, S. 611–617, doi:10.1002/prot.10180.
  13. Wollenberg, K. R. and Atchley, W. R. (2000): Separation of phylogenetic and functional associations in biological sequences by using the parametric bootstrap. In: Proc. Natl Acad. Sci. USA, 97, 3288–3291, doi:10.1073/pnas.97.7.3288, JSTOR:121884.
  14. a b c Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani, Riccardo Zecchina, Chris Sander: Protein 3D Structure Computed from Evolutionary Sequence Variation. In: PLOS ONE. Band 6, Nr. 12, Dezember 2011, S. e28766, doi:10.1371/journal.pone.0028766, PMID 22163331 (freier Volltext).
  15. Alan Lapedes, Bertrand Giraud, Christopher Jarzynski: Using Sequence Alignments to Predict Protein Structure and Stability With High Accuracy. In: arXiv. Juli 2012, arxiv:1207.2484v1.
  16. Lukas Burger, Erik van Nimwegen: Disentangling Direct from Indirect Co-Evolution of Residues in Protein Alignments. In: PLOS Computational Biology. Band 6, Nr. 1, Januar 2010, S. e1000633, doi:10.1371/journal.pcbi.1000633, PMID 20052271 (freier Volltext).
  17. a b F. Morcos, A. Pagnani, B. Lunt, A. Bertolino, D. S. Marks, C. Sander, R. Zecchina, J. N. Onuchic, T. Hwa, M. Weigt: Direct-coupling analysis of residue coevolution captures native contacts across many protein families. PNAS Band 108, Nummer 49, Dezember 2011, S. E1293–E1301. doi:10.1073/pnas.1111471108. PMID 22106262. PMC 3241805 (freier Volltext).
  18. David T. Jones, Daniel W. A. Buchan, Domenico Cozzetto, Massimiliano Pontil: PSICOV: precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments. In: Bioinformatics. Band 28, Nr. 2, Januar 2012, S. 184–190, doi:10.1093/bioinformatics/btr638 (freier Volltext).
  19. Debora S. Marks, Thomas A. Hopf, Chris Sander: Protein structure prediction from sequence variation. In: Nature Biotechnology. Band 30, Nr. 11, November 2012, S. 1072–1080, doi:10.1038/nbt.2419, PMID 23138306 (freier Volltext).
  20. Thomas A. Hopf, Lucy J. Colwell, Robert Sheridan, Burkhard Rost, Chris Sander, Debora S. Marks: 3D structures of membrane proteins from genomic sequencing. In: Cell. Band 149, Nr. 7, Juni 2012, S. 1607–1621, doi:10.1016/j.cell.2012.04.012, PMC 3641781 (freier Volltext).
  21. Nugent T., Jones D.T. (2012): Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis. PNAS, Band 109, Nr. 24, S. E1540–E1547, doi:10.1073/pnas.1120036109.
  22. a b Zhang Y: Progress and challenges in protein structure prediction. In: Curr Opin Struct Biol. 18. Jahrgang, Nr. 3, 2008, S. 342–348, doi:10.1016/j.sbi.2008.02.004, PMID 18436442, PMC 2680823 (freier Volltext) – (englisch).
  23. X. Qu, R. Swanson, R. Day, J. Tsai: A guide to template based structure prediction. Current Protein & Peptide Science, Band 10, Nummer 3, Juni 2009, S. 270–285 doi:10.2174/138920309788452182
  24. Zhang Y and Skolnick J: The protein structure prediction problem could be solved using the current PDB library. In: Proc Natl Acad Sci USA. 102. Jahrgang, Nr. 4, 2005, S. 1029–1034, doi:10.1073/pnas.0407152101, PMID 15653774, PMC 545829 (freier Volltext) – (englisch).
  25. A. Kolinski, J. Skolnick: Reduced models of proteins and their applications Polymer, Band 45, Nr. 2, Jan 2004, S. 511–524.
  26. J. I. Sulkowska, F. Morcos, M. Weigt et al.: Genomics-aided structure prediction. PNAS, Band 109, 2012, S. 10340–10345, doi:10.1073/pnas.1207864109.
  27. Dunbrack, RL: Rotamer Libraries in the 21st Century. In: Curr. Opin. Struct. Biol. 12. Jahrgang, Nr. 4, 2002, S. 431–440, doi:10.1016/S0959-440X(02)00344-5, PMID 12163064 (englisch).
  28. Lovell SC, Word JM, Richardson JS, Richardson DC: The penultimate rotamer library. In: Proteins: Struc. Func. Genet. 40. Jahrgang, 2000, S. 389–408, doi:10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2 (englisch).
  29. Richardson Rotamer Libraries (Memento vom 10. Juni 2010 im Internet Archive)
  30. Shapovalov MV, Dunbrack, RL: A smoothed backbone-dependent rotamer library for proteins derived from adaptive kernel density estimates and regressions. In: Structure (Cell Press). 19. Jahrgang, Nr. 6, 2011, S. 844–858, doi:10.1016/j.str.2011.03.019, PMID 21645855, PMC 3118414 (freier Volltext) – (englisch).
  31. Voigt CA, Gordon DB, Mayo SL: Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design. In: J Mol Biol. 299. Jahrgang, Nr. 3, 2000, S. 789–803, doi:10.1006/jmbi.2000.3758, PMID 10835284 (englisch).
  32. Krivov GG, Shapovalov MV, Dunbrack, RL: Improved prediction of protein side-chain conformations with SCWRL4. In: Proteins. 77. Jahrgang, Nr. 3, 2009, S. 778–795, doi:10.1002/prot.22488, PMID 19603484, PMC 2885146 (freier Volltext) – (englisch).
  33. A. Procaccini, B. Lunt, H. Szurmant, T. Hwa, M. Weigt: Dissecting the specificity of protein-protein interaction in bacterial two-component signaling: orphans and crosstalks. In: PloS one. Band 6, Nummer 5, 2011, S. e19729. doi:10.1371/journal.pone.0019729. PMID 21573011. PMC 3090404 (freier Volltext).

Server/Software zur Vorhersage