Information

Vergleichende Evolutionsstudie: Ist ein Aminosäure- oder Nukleotidvergleich sinnvoller?

Vergleichende Evolutionsstudie: Ist ein Aminosäure- oder Nukleotidvergleich sinnvoller?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich bin ein Gymnasiast und lerne derzeit über das Studium der evolutionären Beziehung in der Biologie.

Mein Lehrer sagte, dass eine vergleichende Untersuchung von Aminosäuresequenzen nützlicher ist als eine vergleichende Untersuchung von Nukleotidsequenzen, da der genetische Code von Natur aus degeneriert ist – mehrere Codons können für dieselbe Aminosäure kodieren.

Allerdings verstehe ich die Logik einfach nicht.

Da mehrere Codons für dieselbe Aminosäure kodieren können, betrachte ich (als Mathematiker) die Umwandlung einer Nukleotidsequenz in eine Aminosäuresequenz als nicht-injektive Funktion und damit als Informationsverlust.

(Analogie: Betrachten Sie die Funktion $f(x)=x^2$. Stellen Sie sich vor, Sie haben eine Nummer und stecken sie ein $f(x)$ bekommen $1$ als Ausgabe. Sie würden nie wissen, ob die Originalnummer ist $1$ oder $-1$.)

Daher komme ich zum genau gegenteiligen Schluss. Ist meine Schlussfolgerung richtig oder nicht und warum?


Jeder hat seinen eigenen Nutzen, abhängig von dem Zeitrahmen, den Sie betrachten. Für evolutionäre Studien benötigen Sie Variation, aber nicht so viel Variation, dass eine Substitution an derselben Position eine vorherige Substitution überschreibt. Wenn Sie also tiefe Spaltungen über Hunderte von Millionen von Jahren betrachten, kann es sein, dass Aminosäuren zuverlässiger sind. Aber Sie haben Recht, da sie funktionell wichtiger sind als stille Substitutionen (Nukleotidänderungen, die die Aminosäure nicht verändern), es möglich ist, dass Aminosäuren unabhängig voneinander im selben Zustand konvergieren. Nukleotide tun dies auch. Beide erfordern statistische Modelle (maximale Wahrscheinlichkeit), die die Möglichkeit mehrerer Änderungen am selben Standort berücksichtigen. Wenn Sie sich die jüngsten evolutionären Spaltungen ansehen, gibt es möglicherweise nicht genügend (oder keine) Aminosäureveränderungen zum Vergleich, daher wären in diesem Fall Nukleotide besser. Sie würden die Kontinentaldrift nicht mit einer Stoppuhr oder einem 100-Meter-Spur mit radiometrischer Datierung messen.


Die Antwort

Es ist richtig, dass das Produkt der konzeptionellen Übersetzung einer Nukleotidsequenz in eine Aminosäuresequenz zum Verlust bestimmter Informationen führt, die in ersterer vorhanden sind. Ein offensichtliches Beispiel ist, dass die Aminosäuresequenzen desselben Proteins bei zwei Individuen identisch sein können, aber es kann Leise Mutationen in der DNA, und diese können bei der Rückverfolgung der Abstammung hilfreich sein. Der eine Teil von Crick's Zentrales Dogma worüber es kein Argument geben kann, ist, dass man nicht vom Protein zur DNA gehen kann, weil die Information für die Nukleotidsequenz im Protein nicht vorhanden ist, mit oder ohne den genetischen Code.

Jedoch…

Eine Aminosäuresequenz enthält Informationen, die in dem Gen, von dem sie stammt, nicht vorhanden ist, wenn wir die Sequenz nur als mathematische Folge von Symbolen betrachten. Und mit 20 statt 4 Buchstaben hat diese neue Information eine andere (und größere) Komplexität. Der Fehler ist eine unausgesprochene Annahme, dass die Information des genetischen Codes in der Nukleotidsequenz enthalten ist. Es ist nicht. Ja, wenn wir die Information des genetischen Codes haben, dann hat die Nukleotidsequenz auch die Information der Aminosäuresequenz, aber das ist nicht die praktische Frage.

So (das Plakat adressieren) In den meisten praktischen Fällen hat Ihr Schullehrer recht. Ich bin kein Mathematiker, daher kann ich nicht sicher sein, was der Fehler Ihrer Argumentation ist. Vielleicht ist es die Tatsache, dass nur ein Teil der Informationen im Sequenzvergleich verwendet werden kann, vielleicht die Tatsache, dass Sie in Ihrer nicht-injektiven Funktion drei Symbole aus einer Menge von vier sprechen, um ein Symbol aus einer Menge von 20 zu erzeugen, oder vielleicht ist es die Biologie. Das ist etwas, das Sie erarbeiten müssen. Aber wenn Ihre Schlussfolgerungen falsch sind (was sie sind), muss Ihre Logik fehlerhaft sein)

Die strittige Frage

Die praktische Frage es geht um:

Was besser geeignet ist, um die evolutionäre Verwandtschaft zweier Organismen zu bestimmen - ein paarweiser Vergleich der Aminosäuresequenzen eines funktionell ähnlichen Proteins (z.B. Cytochrom C) oder der Nukleotidsequenzen des entsprechenden Gens?

Die allgemeine Antworten ist:

Es hängt von der Verwandtschaft der Organismen ab, aber außer bei sehr enger Verwandtschaft (z. B. Mensch und Neandertaler) oder bestimmten speziellen Problemen ist die Antwort wahrscheinlich: die Aminosäuresequenzen.

Wie kann das sein?

In Bezug auf die evolutionäre Distanz zwischen Organismen ist es notwendig, die unterschiedlichen Mutationsraten von Nukleotiden und Aminosäuren zu berücksichtigen und die Beschränkungen hinsichtlich der Wahrscheinlichkeit des Auftretens von Mutationen zu berücksichtigen. Wenn die Mutationsrate zu hoch ist, wird es einen Zeitunterschied geben, nach dem es schwierig oder unmöglich wird, ihre evolutionäre Divergenz genau zu berechnen und schließlich sogar eine Beziehung zwischen ihnen zu erkennen.

Nukleotide mutieren schneller als Aminosäuren, und in der Praxis ist der Vergleich von Nukleotidsequenzen weniger nützlich als der Vergleich von Aminosäuresequenzen über längere Zeitspannen.

  1. Aufgrund der Degeneration des genetischen Codes (die Tatsache, dass eine Aminosäure von mehr als einem Triplett von Nukleotiden kodiert werden kann) ist es möglich, dass ein oder sogar zwei Nukleotide mutieren, ohne die Aminosäuresequenz zu beeinflussen. (Und die Ähnlichkeit zwischen Sequenzen wird aus einem Buchstaben-für-Buchstaben-Vergleich berechnet.)

  2. Statistik ist nicht meine Stärke, aber im Allgemeinen, da es nur vier Basen gibt, würde man erwarten, dass 25 % Identität zwischen zwei Nukleotidsequenzen zufällig auftreten, während zwei Aminosäuresequenzen, die zu 25 % identisch sind, statistisch signifikant ähnlich wären, weil es gibt 20 Aminosäuren. (Nur 5% Identität würden zufällig entstehen.)

Es gibt einen weiteren Aspekt der Divergenz der Aminosäuresequenz, der für einen evolutionären Vergleich nützlich ist, und zwar darin, dass die Natur der Mutation von Aminosäuren viel stärker eingeschränkt ist als die von Nukleotiden. Zugegebenermaßen sind Purin-zu-Purin- oder Pyrimidin-zu-Pyrimidin-Mutationen häufiger als Purin/Pyrimidin-Mutationen, aber Aminosäuremutationen werden oft durch die Rolle der Aminosäure in einem Protein. Man kann jedoch empirische Matrizen der Wahrscheinlichkeit verschiedener Aminosäuremutationen konstruieren, um a . zu erhalten subtiler und genauer Schätzung der Verwandtschaft.

In der Praxis bedeutet dies, dass man anstelle eines Bewertungssystems für den Vergleich von Aminosäuresequenzen, das entweder 1 für Identität oder 0 für Nicht-Identität ist, ein Bewertungssystem verwenden kann, das „halbe Noten“ gibt (sozusagen ) für strukturelle/funktionale Ähnlichkeit. Somit konnte gezeigt werden, dass zwei Aminosäuresequenzen mit 5% Identität im paarweisen Vergleich aufgrund eines insgesamt höheren "Ähnlichkeits"-Scores verwandt sind.

Anhang 1: Sequenzvergleich

Es ist wichtig zu erkennen, dass, egal wie viele Informationen in Nukleotid- oder Aminosäuresequenzen enthalten sind, nur die Informationen relevant sind, die tatsächlich in den praktischen Methoden zur Bestimmung evolutionärer Unterschiede verwendet werden. Bei diesen Verfahren handelt es sich um Computerprogramme, die Sequenzen nach mathematischen Algorithmen vergleichen, um die Frage zu beantworten, wie ähnlich zwei (oder mehr) Sequenzen sind. Ungeachtet der Tatsache, dass die Aminosäuresequenz im Allgemeinen aus der Gensequenz berechnet wird, lautet die Frage: "Soll ich Nukleotid- oder Aminosäuresequenzen in das Programm eingeben, um den besten Vergleich zu erhalten?". In diesem Zusammenhang sollten die obigen Ausführungen zur Änderungsrate und Wahrscheinlichkeit von gegenseitigen Konversionen aufgenommen werden.

Um aus einem Artikel eines der Pioniere des Sequenzvergleichs, W. R. Pearson, zu zitieren:

„Protein- (und übersetzte DNA-) Ähnlichkeitssuchen sind viel empfindlicher als DNA:DNA-Suchen. DNA:DNA-Alignments haben eine 5-10-mal kürzere evolutionäre Rückschauzeit als Protein:Protein- oder translatierte DNA:Protein-Alignments. DNA:DNA-Alignments weisen nach mehr als 200-400 Millionen Jahren Divergenz selten eine Homologie nach; Protein:Protein-Alignments weisen routinemäßig Homologie in Sequenzen nach, die zuletzt vor mehr als 2,5 Milliarden Jahren einen gemeinsamen Vorfahren hatten (z. B. Mensch zu Bakterien). Darüber hinaus sind DNA:DNA-Alignment-Statistiken weniger genau als Protein:Protein-Statistiken; während Protein:Protein-Alignments mit Erwartungswerten < 0,001 zuverlässig verwendet werden können, um auf Homologie zu schließen, DNA:DNA-Erwartungswerte < 10−6 treten oft zufällig auf und 10−10 ist ein allgemein akzeptierter Schwellenwert für Homologie basierend auf DNA:DNA-Suchen.“

Es gibt Wikipedia-Artikel zum Sequenz-Alignment und zur Verwendung von BLOSUM- und PAM-Matrizen. Der Abschnitt zum Sequenz-Alignment in Berg et al. online - das eher Aminosäure- als Nukleotidsequenzen beinhaltet - kann ebenfalls von Interesse sein.

Anhang 2: Terminologie und Definitionen

Als Begriff, Genetischer Code, wurde in der unbearbeiteten Version der Frage missbraucht - und wird in der Presse häufig missbraucht - ich dachte, dass ein Glossar hilfreich sein könnte

DNA (von denen die Genom und sein Bestandteil Gene aufgebaut sind) sind lineare Polymere von 4 Nukleotide. Die Reihenfolge dieser wird als bezeichnet Nukleotidsequenz, oder, da nur die Purin- oder Pyrimidinbase zwischen den Nukleotiden variiert, die Basensequenz.

Proteine sind lineare Polymere von 20* Aminosäuren. Die Reihenfolge dieser wird als bezeichnet Aminosäuresequenz.

Der genetische Code ist eine Chiffre - und kann als Tabelle dargestellt werden, die die Entsprechung zwischen 64 Tripletts von drei Nukleotiden und den 20 Aminosäuren und drei Stoppsignalen zeigt, wenn diese Nukleotide Teil des translatierbaren Teils eines Gens sind. Der genetische Code ist zwischen Organismen hoch – aber nicht absolut – konserviert (und unterscheidet sich für Proteine, die von mitochondrialer DNA kodiert werden).

In NEIN Umstände können das Wort Genetischer Code als Synonym von verwendet werden Genom, obwohl dies selbst von der wissenschaftlichen Presse missbraucht wird und für Computerprogrammierer schwer zu verarbeiten ist, da sie auf einem Gebiet arbeiten, in dem das Substantiv „Code“ für das Produkt von Codierungsanweisungen verwendet wird.

*Der genetische Code hat eine gewisse Plastizität und zwei zusätzliche Aminosäuren können unter bestimmten Umständen durch Terminationscodons kodiert werden.


Vergleichende Fütterungsökologie von Abyssal- und Hadalfischen durch Mageninhalts- und Aminosäureisotopenanalyse

Beschreibt die trophische Ökologie zweier Hadalfische aus den Marianen- und Kermadec-Gräben (Liparidae).

Raubfische können aufgrund der erhöhten Biomasse kleiner Krebstiere in Gräben einen Vorteil haben.

Niedrigere δ 15 N-Werte der Quellaminosäuren in abyssalen Makrouriden zeigen ein Nahrungsnetz aus dem oberen Ozean.

Klärt die Rolle der trophischen Ökologie in der Struktur der Fischgemeinschaften an der Abgrund-Hadal-Grenze.


Vergleichende Evolutionsstudie: Ist ein Aminosäure- oder Nukleotidvergleich sinnvoller? - Biologie

Aminosäuren sind spezielle organische Moleküle, die von lebenden Organismen zur Herstellung von Proteinen verwendet werden. Die Hauptelemente in Aminosäuren sind Kohlenstoff, Wasserstoff, Sauerstoff und Stickstoff. Es gibt zwanzig verschiedene Arten von Aminosäuren, die in unserem Körper Proteine ​​​​bilden. Unser Körper kann tatsächlich einige Aminosäuren herstellen, den Rest müssen wir jedoch über unsere Nahrung aufnehmen.

Proteine ​​sind lange Ketten von Aminosäuren. Im menschlichen Körper gibt es Tausende von verschiedenen Proteinen. Sie bieten alle möglichen Funktionen, die uns beim Überleben helfen.

Warum sind sie wichtig?

Proteine ​​sind lebensnotwendig. Etwa 20 % unseres Körpers besteht aus Proteinen. Jede Zelle unseres Körpers verwendet Proteine, um Funktionen zu erfüllen.

Proteine ​​werden in Zellen hergestellt. Wenn eine Zelle ein Protein herstellt, heißt es Proteinsynthese. Die Anweisungen zur Herstellung eines Proteins sind in DNA-Molekülen im Zellkern enthalten. Die beiden Hauptschritte bei der Herstellung eines Proteins heißen Transkription und Übersetzung.

Der erste Schritt bei der Herstellung eines Proteins wird Transkription genannt. Dies ist, wenn die Zelle eine Kopie (oder "Transkript") der DNA erstellt. Die Kopie der DNA wird RNA genannt, weil sie eine andere Art von Nukleinsäure verwendet, die Ribonukleinsäure genannt wird. Die RNA wird im nächsten Schritt verwendet, der als Translation bezeichnet wird.

Der nächste Schritt bei der Herstellung eines Proteins wird als Translation bezeichnet. Dies ist, wenn die RNA in eine Sequenz von Aminosäuren umgewandelt (oder "übersetzt") wird, aus denen das Protein besteht.

  • Die RNA wandert zum Ribosom. Diese Art von RNA wird als "Messenger"-RNA bezeichnet. Es wird als mRNA abgekürzt, wobei das "m" für Messenger steht.
  • Die mRNA heftet sich an das Ribosom.
  • Das Ribosom findet heraus, wo es auf der mRNA beginnen soll, indem es eine spezielle "Beginn"-Sequenz mit drei Buchstaben findet, die als Codon bezeichnet wird.
  • Das Ribosom wandert dann den mRNA-Strang hinunter. Alle drei Buchstaben stehen für ein anderes Aminosäuremolekül. Das Ribosom baut basierend auf den Codes in der mRNA eine Kette von Aminosäuren auf.
  • Wenn das Ribosom den "Stopp"-Code sieht, beendet es die Translation und das Protein ist fertig.

Ergebnisse

Gewebespezifische Gene in kultivierter Erdnuss

Aus 22 RNA-seq-Datensätzen für kultivierte Erdnüsse wurden insgesamt 3.191 gewebespezifische Gene identifiziert (Tabelle S1). Die meisten gewebespezifischen Gene wurden in Gynoeceumgewebe exprimiert, während die wenigsten gewebespezifischen Gene in Sämlingsblattgewebe exprimiert wurden (Abb. 1). Die absteigende Reihenfolge der Gewebe, geordnet nach der Anzahl der darin exprimierten gewebespezifischen Gene, war Gynoeceum, Wurzel, Knötchen, Pattee 5-Samen, Fortpflanzungstrieb, Pattee 6-Samen, Hauptstammblatt, späteres Blatt, Pattee 8-Samen, Blütenhülle, Stiel, Pattee 7 Samen, Pattee 3 Schote, Luftgynophoren, Pattee 5 Perikarp, vegetativer Spross, Androece, unterirdischer Gynophor, Pattee 6 Perikarp, Pattee 1 Schote, Pattee 10 Samen und Blattgewebe von Sämlingen (Abb. 1). RNA-seq-Daten für Blatt, Spross, Gynophor, Schote, Perikarp und Samen können in drei, zwei, zwei, drei, zwei bzw. fünf Entwicklungsstadien eingeteilt werden (Fig. 1 und Tabelle S1). Würde man verschiedene Entwicklungsstadien als einzelne Gewebe betrachten, könnten wir neun blattspezifische, siebzehn triebspezifische, zwei gynophorspezifische, vier schotenspezifische, drei perikarpspezifische bzw. fünfundzwanzig samenspezifische Gene erhalten (Tabelle S2). In dieser Studie haben wir verschiedene Entwicklungsstadien von Geweben als Analyseebene verwendet, da Gene in ihrer räumlichen und zeitlichen Expression variieren können. Geschlechtsspezifische Gene können in einem bestimmten Entwicklungsstadium exprimiert werden, ohne in späteren Stadien exprimiert zu werden 1 . (Diese Gene sind als ergänzendes Material in Tabelle S2 verfügbar und können für die Erforschung räumlicher und zeitlicher Genexpressionsmuster in kultivierten Erdnüssen hilfreich sein).

Die Anzahl der gewebespezifischen Gene in kultivierten Erdnüssen.

Im Gegensatz dazu fanden wir 38.745 Gene, die gleichzeitig in 22 Geweben exprimiert wurden, die im Folgenden als gemeinsame Gene angesehen werden. Die kultivierte Erdnuss besitzt etwa 78.574 kodierende Sequenzen (CDSs), basierend auf der Anzahl der Gene ihrer beiden Vorfahren, Arachis duranensis (36.734 Gene) und Arachis ipaënsis (41.840 Gene) 11 . Daher machen gewebespezifische Gene 4,06 % der Gesamtzahl der Gene aus (3.191 von 78.574) und allgemein exprimierte Gene machen 49,31 % der Gesamtzahl der Gene (38.745 von 78.574) in der kultivierten Erdnuss aus. Darüber hinaus wurden 1.357 gewebespezifische Gene und 18.627 gemeinsame Gene abgeleitet von EIN. duranensis, die 1,73 % (1.357 von 78.574) und 23,71% (18.627 von 78.574) der kultivierten Erdnussgene ausmachen. In ähnlicher Weise wurden 1.834 gewebespezifische Gene und 20.117 gemeinsame Gene abgeleitet von EIN. ipaënsis, die 2,32 % (1.834 von 78.574) und 25,60 % (20.117 von 78.574) der kultivierten Erdnussgene ausmachen. Die gewebespezifischen und gemeinsamen Gene aus EIN. ipaënsis zahlenmäßig in der Überzahl EIN. duranensis. Dies steht im Einklang mit mehr Genduplikationsereignissen in EIN. ipaënsis als in EIN. duranensis 11. Gewebespezifische Gene wurden weiter in geschlechtsspezifische und somatische gewebespezifische Gene eingeteilt. In dieser Studie wurden geschlechtsspezifische Gene spezifisch in Gynoeceum- und Androeceum-Geweben exprimiert, während somatische gewebespezifische Gene spezifisch in einem der anderen 20 Gewebe exprimiert wurden. Geschlechtsspezifische und somatische gewebespezifische Gene machten 0,66% (522 von 78.574) und 3,40% (2.669 von 78.574) der kultivierten Erdnussgene aus. Die geschlechtsspezifischen und somatischen Gene von EIN. duranensis machten 0,28 % (218 von 78.574) bzw. 1,45% (1.139 von 78.574) der kultivierten Erdnussgene aus. Die geschlechtsspezifischen und somatischen Gene aus EIN. ipaënsis machten 0,39% (304 von 78.574) bzw. 1,95% (1530 von 78.574) der kultivierten Erdnussgene aus.

Die Genexpressionsniveaus von gewebespezifischen Genen waren signifikant niedriger als die von gewöhnlichen Genen (Mann-Whitney-U-Test, P < 0,01). Die Genexpressionsniveaus unterschieden sich signifikant zwischen den 22 Geweben (Kruskal-Wallis-Test, Chi-Quadrat = 486,63, P < 0,05). Zu beachten ist auch, dass die geschlechtsspezifischen Genexpressionsspiegel signifikant höher waren als die der somatischen gewebespezifischen Gene (Mann-Whitney-U-Test, P < 0,01). Gynoeceium-spezifische Genexpressionsspiegel waren höher als die von Androeceium-spezifischen Genen (Mann-Whitney-U-Test, P < 0,01). Gewebespezifische Gene überlappten auch zwischen Annotationen für verschiedene Gewebe (Abb. S1). Diese Analysen ergaben einen Mangel an funktionsspezifischen Genen unter den gewebespezifischen Genen. Darüber hinaus zeigten Genontologie (GO)-Analysen, dass, obwohl ein Gewebe Genexpression über verschiedene Entwicklungsstadien für Gene zeigen kann, die an verschiedenen biologischen Prozessen beteiligt sind, dieselben biologischen Prozesse von verschiedenen Geweben geteilt werden können (Abb. S1). Die häufigsten GO-Kategorien sind 0008270 (Zinkionenbindung), 0006355 (Transkriptionsregulation), 0016021 (Transmembran), 0003676 (Nukleinsäurebindung), 0005524 (ATP-Bindung), 0055114 (Oxidations-Reduktionsprozess), 0005515 (Proteinbindung) und 006508 (Proteolyse Fig. 2). Die detaillierte GO-Anmerkung in Tabelle S3.

Identifizierung von GO-Elementen in gewebespezifischen Genen. Die detaillierte GO-Anmerkung, die in Tabelle S3 aufgeführt ist.

Evolutionäre Divergenz zwischen gewebespezifischen duplizierten Genen

Aus den kultivierten Erdnuss-RNA-Seq-Daten wurden insgesamt 274 duplizierte Genpaare voller Länge nachgewiesen. K ein, K S, und K ein/K S Werte wurden zwischen 232 duplizierten Genpaaren berechnet und 42 duplizierte Genpaare wurden entfernt, weil ihre K S Werte kleiner als 0,01 oder größer als 0,30 waren. Die Durchschnittswerte von K ein, K S, und K ein/K S waren 0,08, 0,21 bzw. 0,56. Die reinigende Selektion dominierte die molekulare Evolution von 207 doppelten Genpaaren mit K ein/K S Werte kleiner als 1. Im Gegensatz dazu spielte die positive Selektion bei 25 doppelten Genpaaren mit . eine entscheidende Rolle K ein/K S Werte größer als 1. Es sollte beachtet werden, dass diese doppelten Genpaare möglicherweise eine adaptive Evolution durchlaufen haben, wie ihr höherer Durchschnitt nahelegt K ein/K S Werte. In ähnlicher Weise wurde eine adaptive Evolution bei geschlechtsspezifischen Genen in festgestellt Ektokarpus spp. weil ihr entsprechender Durchschnitt K ein/K S Wert überschritten 0,5 6, 8 .

Unter den doppelten Genpaaren, die einer reinigenden Selektion unterzogen wurden, waren 167 bzw. 40 heterogene Genpaare bzw. homogene Genpaare. Unter den doppelten Genpaaren, die überwiegend durch positive Selektion geformt wurden, waren 16 bzw. 9 heterogene Genpaare bzw. homogene Genpaare. Der Durchschnitt K ein und K S Werte für homogene Genpaare waren niedriger als für heterogene Genpaare (Mann-Whitney-U-Test, P < 0,05), was anzeigt, dass sich die heterogenen Genpaare schneller entwickelten als homogene Genpaare. Der Durchschnitt K ein/K S Werte von homogenen Genpaaren waren größer als die von heterogenen Genpaaren, aber dieser Unterschied war statistisch nicht signifikant (Mann-Whitney-U-Test, P > 0,05). Darüber hinaus bestanden 176 und 19 doppelte Genpaare aus somatisch gewebespezifischen Genen bzw. geschlechtsspezifischen Genen, während 37 doppelte Genpaare aus einem somatischen gewebespezifischen Gen und einem geschlechtsspezifischen Gen (somatisches geschlechtsspezifisches Genpaar ). Die K ein und K S die Werte von somatisch geschlechtsspezifischen doppelten Genen überstiegen die sowohl von somatischen gewebespezifischen Genen als auch von geschlechtsspezifischen Genen ( 3 ). Dies deutet wiederum darauf hin, dass sich heterogene Genpaare anscheinend schneller entwickeln als homogene Genpaare. Außerdem ist der Durchschnitt K S der Wert zwischen geschlechtsspezifischen und somatischen gewebespezifischen Genen ähnlich war, aber der Durchschnitt K ein Wert der somatischen gewebespezifischen Gene überstieg den der geschlechtsspezifischen Gene (Abb. 3). Die synonyme Substitutionsrate war zwischen geschlechtsspezifischen und somatischen gewebespezifischen Genen ähnlich, während die nicht synonyme Evolutionsrate somatischer gewebespezifischer Gene schneller war als die geschlechtsspezifischer Gene. Allerdings ist der Durchschnitt K ein/K S Wert von somatisch gewebespezifischen Genen und somatisch geschlechtsspezifischen Genen überstieg den von geschlechtsspezifischen Genen, aber dieser Unterschied war statistisch nicht signifikant (Abb. 3 Mann-Whitney-U-Test, P > 0,05). Trotzdem ist der Durchschnitt K ein/K S Werte von somatischen gewebespezifischen Genen, somatischen geschlechtsspezifischen Genen und geschlechtsspezifischen Genen betrugen 0,59, 0,50 bzw. 0,46. Insgesamt erfuhren somatische gewebespezifische Gene und somatische geschlechtsspezifische Gene hauptsächlich eine entspannte Selektion, während geschlechtsspezifische Gene eine stärkere Selektionsbeschränkung erfuhren.

Vergleich von K S, K ein, und K ein/K S von duplizierten Genpaaren in geschlechtsspezifischen, somatisch-spezifischen und somatisch-geschlechtlichen Genen.

Codon-Usage-Bias in gewebespezifischen Genen

Nachdem Filterkriterien angewendet wurden, wurden insgesamt 2.756 Sequenzen verwendet, um den Codon-Usage-Bias zu analysieren. Obwohl die Häufigkeit der optimalen Codons (Fop) zwischen verschiedenen Gewebetypen nicht signifikant unterschiedlich war (Kruskal-Wallis-Test, Chi-Quadrat = 22,68, P > 0,05) war der Fop-Wert somatischer gewebespezifischer Gene signifikant höher als der geschlechtsspezifischer Gene (Mann-Whitney-U-Test, P < 0,05). Darüber hinaus waren die Fop-Werte gynoeceiumspezifischer Gene geringfügig, aber nicht signifikant höher als die der androeceiumspezifischen Gene (Mann-Whitney-U-Test, P > 0,05). Diese Ergebnisse zeigten, dass der Codon-Usage-Bias bei somatischen gewebespezifischen Genen höher war als bei geschlechtsspezifischen Genen. Darüber hinaus war die Länge der Aminosäuresequenzen in den verschiedenen Geweben signifikant unterschiedlich (Kruskal-Wallis-Test, Chi-Quadrat = 36,62, P < 0,05). Die Aminosäuresequenzen geschlechtsspezifischer Gene waren länger als die der somatischen gewebespezifischen Gene (Mann-Whitney-U-Test, P < 0,05), während die Aminosäuresequenzen von Gynoeceum-spezifischen Genen nicht signifikant länger waren als die von Androeceium-spezifischen Genen (Mann-Whitney-U-Test, P > 0,05).


In-silico Charakterisierung und vergleichende Analyse von BLB-Krankheitsresistenz-Xa-Genen in Oryza sativa

Zitieren: Ramzan, M. A. Asghar, H. Rehman, A. Rashid, M. Jankuloski, L. In-silico Charakterisierung und vergleichende Analyse von BLB-Krankheitsresistenz-Xa-Genen in Oryza sativa. Vordrucke 2020, 2020100472 (doi: 10.20944/preprints202010.0472.v1). Ramzan, M. A. Asghar, H. Rehman, A. Rashid, M. Jankuloski, L. In-silico-Charakterisierung und vergleichende Analyse von BLB-Krankheitsresistenz-Xa-Genen in Oryza sativa. Preprints 2020, 2020100472 (doi: 10.20944/preprints202010.0472.v1). Kopieren

Zitieren als:

Ramzan, M. A. Asghar, H. Rehman, A. Rashid, M. Jankuloski, L. In-silico Charakterisierung und vergleichende Analyse von BLB-Krankheitsresistenz-Xa-Genen in Oryza sativa. Vordrucke 2020, 2020100472 (doi: 10.20944/preprints202010.0472.v1). Ramzan, M. A. Asghar, H. Rehman, A. Rashid, M. Jankuloski, L. In-silico-Charakterisierung und vergleichende Analyse von BLB-Krankheitsresistenz-Xa-Genen in Oryza sativa. Preprints 2020, 2020100472 (doi: 10.20944/preprints202010.0472.v1). Kopieren


Zusätzliche Informationen

Zusatzdatei S1.

Ergänzende Informationen zu den Maximum-Likelihood-Analysen

Zusatzdatei S2.

Ergänzende Informationen zu den Bayes'schen Analysen

Zusatzdatei S3.

Zip-Datei mit allen multiplen Sequenz-Alignments und phylogenetischen Bäumen, die in dieser Studie verwendet wurden

Zusatzdatei S4.

Zip-Datei mit Consurf-Scores für die IR- und die IGF1R-Ektodomäne

Ergänzungsdatei S5.

Zip-Datei mit Ergebnissen von Evolutionary Trace für die IR

Zusatzdatei S6.

Zip-Datei mit PDB-Strukturen, die durch Berechnungen im normalen Modus erhalten wurden.


Zugehörige Daten

Noroviren sind die Erreger der meisten viralen Gastroenteritis-Ausbrüche beim Menschen. In den letzten 15 Jahren haben Noroviren des Genotyps GGII.4 vier epidemische Saisons viraler Gastroenteritis verursacht, in denen vier neue Varianten (sogenannte epidemische Varianten) entstanden und die residenten Viren verdrängt haben. Um die Mechanismen und biologischen Vorteile dieser epidemischen Varianten zu verstehen, haben wir die genetischen Veränderungen in den Kapsidproteinen der GGII.4-Stämme über diesen Zeitraum untersucht. Eine repräsentative Probe wurde aus 574 GGII.4-Ausbruchsstämmen gezogen, die über 15 Jahre systematischer Überwachung in den Niederlanden gesammelt wurden, und die Kapsidgene wurden für insgesamt 26 Stämme sequenziert. Die dreidimensionale Struktur wurde durch Homologiemodellierung unter Verwendung des Norwalk-Virus (Hu/NoV/GGI.1/Norwalk/1968/US)-Kapsids als Referenz vorhergesagt. Die hochsignifikante präferenzielle Akkumulation und Fixierung von Mutationen (Nukleotid und Aminosäure) im hervorstehenden Teil des Kapsidproteins lieferte starke Hinweise auf das Auftreten genetischer Drift und Selektion. Obwohl sich nachfolgende neue epidemische Varianten durch bis zu 25 Aminosäuremutationen unterschieden, wurden konsistente Veränderungen nur an fünf Positionen beobachtet. Phylogenetische Analysen zeigten, dass jede Variante von ihrem chronologischen Vorgänger abstammt, mit Ausnahme der Variante 2006b, die näher mit der Variante 2002 als mit der Variante 2004 verwandt ist. Der konsistente Zusammenhang zwischen den beobachteten genetischen Befunden und Veränderungen in der Epidemiologie lässt den Schluss zu, dass die Populationsimmunität bei der epochalen Entwicklung der GGII.4-Norovirus-Stämme eine Rolle spielt.

Seit Beginn der Überwachung von viralen Gastroenteritis-Ausbrüchen in den frühen 1990er Jahren wurden Noroviren als die Hauptursache für gemeldete Ausbrüche von akuter viraler Gastroenteritis weltweit anerkannt. Noroviren bilden eine Gattung innerhalb der Familie Caliciviridae und sind genetisch und antigenisch sehr variabel. Derzeit werden fünf verschiedene Genogruppen (GGs) erkannt. Es ist bekannt, dass Stämme, die zu GGI, GGII und GGIV gehören, Infektionen beim Menschen verursachen. Die GGs wurden weiter in Genotypen unterteilt, definiert durch eine minimale Aminosäuresequenzidentität über die gesamte Kapsidsequenz von 80% (1).

Die am häufigsten als Auslöser von Ausbrüchen identifizierten Stämme gehören zum Genotyp GGII.4. In den Niederlanden war dies bei 68% aller Norovirus-Ausbrüche der Fall, die während der 12-jährigen Überwachung charakterisiert wurden, und bei bis zu 81% aller Ausbrüche im Zusammenhang mit der Gesundheitsversorgung. Seit ihrem ersten Nachweis in den Niederlanden im Januar 1995 sind die GGII.4-Stämme durchweg in der niederländischen Bevölkerung vorhanden (46). Diese Beobachtungen stimmen mit denen anderer Surveillance-Studien weltweit überein (3, 4, 15, 17, 29, 36, 55).

In den letzten 15 Jahren traten vier epidemische Norovirus-Saisons auf, in den Wintern 1995-1996, 2002-2003, 2004-2005 und 2006-2007. Diese weltweiten Epidemien wurden unveränderlich durch den vorherrschenden Genotyp GGII.4 verursacht und auf das Auftauchen neuer varianten Abstammungslinien dieses Genotyps zurückgeführt (4, 31, 35, 52, 53). Diese genetischen Varianten, die zuvor durch partielle Sequenzierung entweder der RNA-abhängigen RNA-Polymerase (RdRp) oder des Capsid-Gens identifiziert wurden, haben weltweit mehrere Namen bekommen. Hier werden sie mit dem ersten Jahr ihres Nachweises bezeichnet, gegebenenfalls ergänzt durch ein zusätzliches Suffix. Die folgenden Varianten wurden identifiziert: �, 1996, 2002, 2004, 2006a und 2006b.

Das Muster der Entstehung neuer Abstammungslinien, gefolgt von großflächigen Epidemien, legt nahe, dass neue Varianten einen oder mehrere entscheidende Vorteile gegenüber der zuvor zirkulierenden vorherrschenden Variante erlangten. Die Natur dieses Vorteils ist nicht bekannt, aber seine Grundlage findet sich wahrscheinlich in VP1, da dieses Protein für wesentliche Eigenschaften und Funktionen im viralen Lebenszyklus benötigt wird, wie Antigenität, Wirtsspezifität, Wirtszellbindung und Virus Eintrittseigenschaften und Montage neuer Partikel.

Noroviren haben ein Positivstrang-RNA-Genom von 𢏇.6 kb, das in drei offene Leserahmen (ORFs) unterteilt ist. ORF1 kodiert für ein Polyprotein, das posttranslational in die nichtstrukturellen Proteine, einschließlich der RdRp, prozessiert wird. Konservierte Regionen innerhalb der RdRp werden üblicherweise als Ziele für diagnostische PCR-Assays verwendet. Beim Nationalen Institut für öffentliche Gesundheit und Umwelt in den Niederlanden (RIVM), Region A (Nukleotide 4279 bis 4604 Lordsdale-Genomnummerierung [GenBank Zugangsnr. <"type":"entrez-nucleotide","attrs":<"text ":"X86557","term_id":"1008952","term_text":"X86557">> X86557]) wird häufig zur Genotypisierung von Ausbruchsstämmen verwendet. Der zweite ORF (ORF2) kodiert für das Hauptstrukturprotein VP1. Neunzig Dimere dieses Kapsidproteins bilden eine ikosaedrische Tϓ-Schale (41). Im Virion ist eine kleine Anzahl von Kopien des von ORF3 kodierten Proteins vorhanden. Die genaue Rolle dieses Proteins ist nicht klar, obwohl vermutet wurde, dass es sowohl bei der Hochregulierung der VP1-Expression als auch als histonähnliches Protein bei der Stabilisierung des Kapsid-RNA-Komplexes wirkt (2, 19, 22).

Das Verständnis der Immunität gegen Noroviren bleibt begrenzt. Zwischen den verschiedenen GGs und Genotypen wurden antigene Unterschiede sowie Kreuzreaktivitäten mit virusähnlichen Partikeln und polyklonalen Antiseren nachgewiesen (20). Es wurde über eine kurzfristige Immunität berichtet, aber vorbestehende Antikörper schützten nicht gegen eine Reinfektion mit dem gleichen Genotyp (25, 39, 56). Studien zu neutralisierenden Antikörpern waren mangels Zellkultur- oder Kleintiermodellsystemen nicht möglich (13). Die hohe genetische Diversität zwischen verschiedenen GGs und sogar zwischen Genotypen innerhalb derselben GG, die aus der hohen Mutationsrate und aus Rekombinationsereignissen resultiert, trägt zu einem hohen Grad an antigener Diversität bei.

Auch genetische Faktoren des Wirts, die das Vorhandensein oder Fehlen von Virusrezeptoren bestimmen, spielen eine wichtige Rolle bei der Anfälligkeit (21, 23). Diese Rezeptoren, die Histo-Blutgruppen-Antigene, zeigen Virusstamm-spezifische Bindungsmuster, die die Fähigkeit des Virus bestimmen, potentielle Wirtszellen zu infizieren. Da Noroviren, die zu GGII.4 gehören, von allen bisher untersuchten Genotypen das breiteste Bindungsspektrum an die Histo-Blutgruppenantigene aufweisen, könnte dies einen Teil des relativen Erfolgs dieser Viren erklären (24). Andere Erfolgsfaktoren können eine höhere Stabilität der Viruspartikel außerhalb des Wirts, eine höhere Replikationsrate oder andere Faktoren sein, die genauer untersucht werden müssen.

Um einen besseren Einblick in die genetischen und strukturellen Grundlagen des selektiven Vorteils neuer GGII.4-Varianten gegenüber den alten GGII.4-Varianten zu erhalten, haben wir die vollständigen Kapsidsequenzen einer systematischen Stichprobe von GGII.4-Norovirus-Ausbruchsstämmen bestimmt, die in den Niederlanden während 13 Jahre Überwachung der viralen Gastroenteritis und untersuchte ihre genetische Vielfalt und vorhergesagte Struktur (46). Da zu Beginn dieser Studie ein hochauflösendes dreidimensionales (3D) Modell der GGII-Noroviren fehlte, wurde ein Homologiemodell des Kapsidproteins in silico basierend auf der bekannten 3D-Struktur des Norwalk-Virus (NV GGI. 1) Kapsidprotein.


Materialen und Methoden

Datenquellen

Experimentell charakterisierte Proteine.

Die ungeordneten Proteinsequenzen wurden einer kuratierten Datenbank experimentell bestimmter ungeordneter Proteine, DisProt 3.6 (Vucetic et al. 2005), entnommen. Es gab 287 ungeordnete Sequenzen mit insgesamt 40.770 Resten. Jede ungeordnete Sequenz war ~30 Reste lang. Die ungeordneten Sequenzen hatten eine mittlere Länge von 142 Resten und einen Median von 86 Resten. Die längste ungeordnete Sequenz wies 2.174 Reste auf. Die geordneten Proteinsequenzen wurden PDB Select 25 entnommen, einer nicht redundanten Untermenge der Protein Data Bank (PDB). This data set was chosen because all proteins share ≤25% sequence identity ( Boberg et al. 1992 Berman et al. 2000). The sequences were selected from structures that were determined by X-ray crystallography and had strong indications of order, with a resolution ≤2Å, an R factor ≤20%, and no missing backbone or side chain atoms ( Smith et al. 2003). The proteins in this data set are ≥80 residues in length and contained no nonstandard residues. There were 289 ordered sequences with a total of 67,548 residues. The ordered sequences had a mean length of 289 residues and a median of 193 residues. The longest ordered sequence was 907 residues. The proteins are listed in supplementary table S1 ( Supplementary Material online).

Families of Related Sequences.

Putative homologs of the experimentally characterized disordered and ordered proteins were identified by performing a basic alignment search tool (BLAST) search with each ordered and disordered sequence against GenBank release 159 ( Altschul et al. 1997 Benson et al. 2008). To ensure quality matches, the maximum allowed e value was 0.0001, and the minimum match length was at least 35% of the length of the query sequence. Match sequences were cropped to the region corresponding to the start and end of the query. Sequences identified as hypothetical, patented, or predicted were removed from the alignments. Only one sequence in a group of sequences with 100% identity was retained so that all sequences in a family were unique.

During this analysis, it was determined that families of proteins from the Human Immunodeficiency Virus, and some other viruses, contained large numbers of similar sequences having a disproportionate effect on the results. Many papers submitting sequences of these viruses obtained them from an individual organism (see for instance [ Huet et al. 1989 Herring et al. 2001]). In order to reduce any undue influence from these families, only one randomly chosen sequence from each referenced paper was included. Unreferenced sequences were not included. The sequences whose families were culled in this way included DP00048, DP00148, DP00160, and DP00424 for the disordered set and 1mml, 1idaa, and 1svb for the ordered set.

Procedure for Developing Matrices

To demonstrate different levels of evolutionary divergence, substitution matrices were developed for three percent identity levels, defined as 85% to <100%, 60–85%, and 40–60% identity ( table 1). The number of gaps of any length in the alignments was minimized to reduce ambiguity while still maintaining enough data for meaningful comparisons. This was achieved by specifying no gaps for matrices with 85% minimum percent identity and no more than four gaps for the 60% and 40% matrices. The maximum number of gaps was set to 4 because it was the lowest number that included the majority of alignments in the 60% and 40% percent identity levels.

Criteria Used to Develop Matrices.

Matrix Label (D/O) Minimum % Identity Maximum % Identity Maximum No. of Gaps Starting Matrix No. of Realignments (D/O)
D85/O85 85 <100 0 BLOSUM62 3/3
D60/O60 60 85 4 First 85%, zero gaps 4/3
D40/O40 40 60 4 First 60%, four gaps 3/3
Matrix Label (D/O) Minimum % Identity Maximum % Identity Maximum No. of Gaps Starting Matrix No. of Realignments (D/O)
D85/O85 85 <100 0 BLOSUM62 3/3
D60/O60 60 85 4 First 85%, zero gaps 4/3
D40/O40 40 60 4 First 60%, four gaps 3/3

Criteria Used to Develop Matrices.

Matrix Label (D/O) Minimum % Identity Maximum % Identity Maximum No. of Gaps Starting Matrix No. of Realignments (D/O)
D85/O85 85 <100 0 BLOSUM62 3/3
D60/O60 60 85 4 First 85%, zero gaps 4/3
D40/O40 40 60 4 First 60%, four gaps 3/3
Matrix Label (D/O) Minimum % Identity Maximum % Identity Maximum No. of Gaps Starting Matrix No. of Realignments (D/O)
D85/O85 85 <100 0 BLOSUM62 3/3
D60/O60 60 85 4 First 85%, zero gaps 4/3
D40/O40 40 60 4 First 60%, four gaps 3/3

Alignments for Counting Substitutions.

Amino acid substitution frequencies were inferred from sequence alignments. Sets of pairwise alignments were created ( fig. 1) such that each sequence of a family was aligned with every other sequence in that family using the Needleman–Wunsch algorithm as implemented by The European Molecular Biology Open Software Suite (EMBOSS)’ needle but modified to perform pairwise comparisons on a group of sequences loaded from a single file ( Needleman and Wunsch 1970 Rice et al. 2000). The gap-opening penalty was 10 and the gap-extension penalty was 0.5. The substitution matrix that was used to initially align the sequences is shown in table 1. The substitution matrix inferred from these alignments was then used to realign the sequences ( fig. 1). This realignment cycle was done for each matrix class and percent identity level until the difference between successive matrices had no individual log odds value changing by more than 1 and there were fewer than 10 log odds values that differed in subsequent iterations. Table 1 shows the numbers of cycles required for each matrix.

Iterative procedure used for constructing substitution matrices.

Iterative procedure used for constructing substitution matrices.

Pairwise alignments were included in counts for a substitution matrix based on two criteria, the percent identity and the number of gaps in the alignment. The process of including an alignment has three steps: 1) Pairwise alignments were performed between a putative family member and a sequence from the experimentally characterized set. If this alignment met the criteria for minimum percent identity and maximum number of gaps, then it was included in the count for a substitution matrix. 2) A family member included at this level was then used to recruit new family members based on pairwise alignments that met the criteria for minimum percent identity. Alignments among these new recruits were included in the count for a substitution matrix when their pairwise alignments with other recruits at the same level also met the criteria for minimum percent identity. 3) New family members identified in step 2 were then used to recruit the next level of family members based on pairwise alignments that met the criteria for minimum percent identity. This last step was repeated until no more alignments were added. At each new level, pairwise alignments between recruits that met the criteria for minimum percent identity were not included if their pairwise alignment with at least one established family member did not meet the criteria for minimum percent identify. Otherwise, sequences with very low percent identities in alignments with the sequence from the experimentally characterized set would be included. Alignments that did not meet the criteria for minimum percent identity were not included, even if these alignments were between established family members.

Calculating Substitution Matrices

Scaling by Family Size.

The amino acid substitutions and matches of all included alignments from each family were tallied and scaled according to family size. Large families have a disproportionate influence on substitution matrices because they increase the number of alignments, and thus the number of counted substitutions, at a rate of n × (n − 1)/2. Ideally, we would like to offset this effect by scaling the increase in number of alignments from a quadratic to a linear function. This was not possible because the system was developed such that the number of sequences did not directly determine the number of alignments. Therefore, the total number of substitutions each family contributed was scaled instead. In the scaling, it is assumed that the substitutions are increasing quadratically and then they are mapped to a linear function. Lassen ja be the total number of substitutions for a family the scaled number of substitutions would be x when solving the equation ja = x × (x 1)/2. The matrix of scaled substitution counts for that family can then be calculated by multiplying the matrix of raw substitution counts by x/ja.

Calculating the Log Odds.

The log odds for the substitution matrices were calculated using the matrix of scaled substitution counts, C. To calculate amino acid frequencies, C was mirrored and values off of the diagonal were halved. Then, the sum of substitution counts of each column was divided by the total substitution counts in C to get the amino acid frequency Pich. To calculate the substitution frequencies Qij, each value of C was divided by the total number of substitutions. The observed frequency of substitution Qij is divided by the expected frequency PichPJ to get the odds ratio of that substitution. The log odds value Sij of the odds ratio is 2 × log2 of the odds ratio. In the 85% matrices, some of the amino acid substitutions had no counts. This prevented us from calculating their true log odds values, as the log of 0 is infinity. In order to approximate the values for these substitutions, a value that was half of the lowest existing count was used instead. This approximation gave an appropriately lower frequency for that substitution and worked well for scaled substitution counts.

Special treatment was also given to the X (any residue), B (N or D), and Z (Q or E) ambiguity codes. These ambiguity codes are present in a few of the sequences and are included in many substitution matrices. Substitution values between standard residues and the ambiguity codes B and Z were an average of the values for substitutions between their constituent residues and that standard residue. Values of X in the 85%, 60%, and 40% identity class matrices were replaced by the X values in the EMBOSS substitution matrices, EBLOSUM85, EBLOSUM60, and EBLOSUM40, respectively ( Rice et al. 2000).

Comparing Matrices Using the Sum of Off-Diagonal Matrix Values

In order to compare the disordered and ordered matrices calculated at a similar percent identity level, the sum of the off-diagonal values in the substitution matrix was computed. The off-diagonal sum of a substitution matrix's log odds values gives an idea of how unlikely substitutions are overall, separated from the context of the amino acid frequencies. More negative sums indicate substitutions are more unlikely overall for that matrix. A jackknife procedure was used to estimate the variance of this statistic: substitution matrices were calculated leaving out the substitution counts for one family at a time. The statistical difference between the off-diagonal values for disorder and order was then determined using Welch's T-Prüfung.


Abschluss

Human UCHL1 is known to play an important role in ubiquitin stability within neurons which is critical for ubiquitin–proteasome system and neuronal survival. Mutations in the human UCHL1 gene have been associated with various neurodegenerative disorders like PD, recessive hereditary spastic paraplegia (SPG79), AD and Huntington’s disease. Considering the indispensable role of the UCHL1 gene product in neuronal physiology and pathophysiology, the current study investigates the sequence evolutionary pattern and structural dynamics of UCHL1. Phylogenetic data suggest the ancient origin of UCHL1 at the root of gnathostomes (jawed vertebrate) history. Furthermore, molecular sequence evolutionary analysis reveals that UCHL1 has remained under strong functional constraints throughout the gnathostomes history which might have discouraged the duplication of this gene in any of the animal lineage analyzed in the present study. Comparative structural analysis of UCHL1 pinpointed a critical protein segment (amino acids 32 to 39 within the secretion site) with crucial implications in evolution and PD pathogenesis through a well known phenomenon of intraprotein conformational epistasis. This critical protein segment of UCHL1 can be targeted for drug designing and investigation for the treatment of PD in future.


Informationen zum Autor

Michael R. Garvin and Erica T. Prates contributed equally to this work.

Mitgliedschaften

Oak Ridge National Laboratory, Biosciences Division, Oak Ridge, TN, USA

Michael R. Garvin, Erica T. Prates, Mirko Pavicic, Piet Jones, B. Kirtley Amos, Armin Geiger, Manesh B. Shah, Jared Streich, Joao Gabriel Felipe Machado Gazolla, David Kainer, Ashley Cliff, Jonathon Romero & Daniel Jacobson

The Bredesen Center for Interdisciplinary Research and Graduate Education, University of Tennessee Knoxville, Knoxville, TN, USA

Piet Jones, Armin Geiger, Ashley Cliff, Jonathon Romero & Daniel Jacobson

Department of Horticulture, N-318 Ag Sciences Center, University of Kentucky, Lexington, KY, USA

Lawrence Berkeley National Laboratory, Environmental Genomics & Systems Biology, Berkeley, CA, USA

Nathan Keith & James B. Brown

Department of Psychology, University of Tennessee Knoxville, Knoxville, TN, USA


Zusatzmaterialien

The following are available online at https://www.mdpi.com/2073-4425/10/5/355/s1. Figure S1: Chromosomal distribution of GhHH3 genes on different chromosomes of G. hirsutum. A02 to A13 and D02 to D13 represent At and Dt sub-genomes G. hirsutum, respectively Figure S2: Gene structure and domain architecture of GhHH3 genes along with phylogenetic tree constructed by NJ method. (a) Gene structure of all GhHH3 genes with phylogenetic analysis. (b) Domain architecture of GhHH3 genes depicting protein motif distribution Table S1: List of all qPCR primers used in this study. Table S2: Gene ID and proposed names of all observed 19 different plant species including A. thaliana, B. napus, G. arboreum, G. hirsutum, G. max, G. raimondii, M. truncatula, O. sativa, P. trichocarpa, S. bicolor, S. tuberosum, T. cacao, V. vinifera. Z. mays, A. comosus, P. taeda, C. reinhardtii, P. patens, und S. moellendorffii Table S3: Biophysical properties of GhHH3 genes including locus ID, start and end point, strand, CDs (coding sequence), protein length, MW (molecular weight), pl (isoelectric point), gravity values, and predicted subcellular localization Table S4: Genes orthologous/paralogous of in At and Dt sub-genomes of G. hirsutum, G. arboreum (A genome), and G. raimondii (D genome). A total of 81 orthologous/paralogous gene pairs were identified as the result of segmental and whole genome duplication. Further, the Ka/Ks (non-synonymous/synonymous) ratio of all identified orthologous/paralogous gene pairs was calculated Table S5. Promoter cis-element analysis of 34 GhHH3 Gene. Predicted cis-element in the promoters of GhHH3 genes were characterized according to their relevance to growth and development, light, and stress responses as well Table S6. RNA-seq data analysis of 34 GhHH3 genes in two fuzzless/lintless mutants (M1l und M2l). Further, genes were categorized on the basis of their up- or downregulated expression in these two mutants.