Information

Kann ich eine populationsgenetische Analyse von unvollständigem Protein durchführen?

Kann ich eine populationsgenetische Analyse von unvollständigem Protein durchführen?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe einen Datensatz von Fasta-Sequenzen. Diese Proteine ​​sind nicht vollständig (Meine Sequenzen haben 700 Nukleotide, während vollständige Sequenzen 1725 Nukleotide haben). Ich würde gerne wissen, ob ich daraus eine populationsgenetische Analyse (wie TAJIMA-D-Test) und ähnliches machen kann.


Es hängt stark davon ab, welche Art von Analyse Sie durchführen möchten. Für das D eines Tajimas brauchen Sie nur eine einzelne Nukleotidsequenz in einer Probe von Individuen, also ja, das können Sie. Ob die Sequenz von einem Gen oder einer anderen Sequenz stammt oder nicht, ist nicht relevant dafür, ob Sie Tajimas D berechnen können (obwohl die Art der Sequenz wahrscheinlich das resultierende D beeinflusst).


Mangelnde Vielfalt in der Genforschung ein Problem

Illustration von Kimberly Carney / Fred Hutch News Service

Als das Humangenomprojekt 2003 abgeschlossen wurde, bezeichnete es sein Spitzenforscher Dr. Francis Collins, heute Leiter der National Institutes of Health, als „den ersten Entwurf des menschlichen Buches des Lebens“.

Collins und die Wissenschaft im Allgemeinen haben seitdem anerkannt, dass es ein rauh erster Entwurf, da die meisten Beiträge von Menschen europäischer Abstammung „geschrieben“ wurden.

Der Mangel an Diversität in der Genetikforschung – kürzlich in Zeitschriften wie Cell genannt und auf PBS behandelt – wurde diese Woche erneut mit einer umfassenden multizentrischen Analyse durch ein Konsortium von Forschern unter der gemeinsamen Leitung von Genetikern, Epidemiologen und Biostatistikern von Fred Hutchinson hervorgehoben Zentrum für Krebsforschung. Ihre Ergebnisse wurden am Mittwoch in der Zeitschrift Nature veröffentlicht.

Das Konsortium mit dem Namen PAGE (kurz für Population Architecture using Genomics and Epidemiology) analysierte die Daten von fast 50.000 US-amerikanischen Teilnehmern nicht-europäischer Abstammung, um unter anderem zu bestimmen, ob die „Entwurfsergebnisse“ des Humangenomprojekts auf alle Vorfahren verallgemeinert werden könnten Gruppen.

Die kurze Antwort: Sie können nicht.

Diese neue Analyse ergab noch mehr Beweise dafür, dass groß angelegte Genomstudien – die für alles von der Medikamentenentwicklung bis zur Ermittlung des Krankheitsrisikos eines Individuums verwendet werden – verschiedene, multiethnische Populationen einbeziehen müssen, um genetisch bedingte Krankheitsrisiken in allen Populationen genau darzustellen. Dies nicht zu tun, ist irreführend und potenziell gefährlich.

Fred Hutchs Dr. Ulrike "Riki" Peters, eine leitende Wissenschaftlerin im PAGE-Projekt. Das langjährige multizentrische Forschungsprojekt hat in einem neuen Papier den Mangel an Diversität in der Genforschung hervorgehoben. Fred Hutch Dateifoto

„Genetische Forschung wird hauptsächlich in europäischen Abstammungspopulationen durchgeführt, was zu einer Verzerrung der identifizierten genetischen Risikovarianten führt“, sagte Dr. Ulrike „Riki“ Peters, stellvertretende Direktorin der Abteilung Public Health Sciences von Fred Hutch und leitende Wissenschaftlerin am SEITE-Projekt. „Wir demonstrieren die Verzerrung und wir zeigen, dass dies durch die Untersuchung nichteuropäischer Minderheiten korrigiert werden kann.“

Dr. Chris Carlson von The Hutch, ein weiterer leitender Autor, sagte, das PAGE-Team versuche im Wesentlichen festzustellen, ob aktuelle polygene oder genetische Risikoscores (ein Score basierend auf genetischen Risikovarianten, die zur Vorhersage des Krankheitsrisikos verwendet werden) von Menschen europäischer Abstammung extrapoliert werden könnten genau auf Minderheiten.

„Wenn Sie Medikamente der nächsten Generation haben und polygene Risikoscores ableiten, sollten diese Risikoscores unabhängig von der genetischen Abstammung einer Person gleich genau sein“, sagte er. „Und das sind sie nicht.

„Unsere Studie beweist mit einer groß angelegten Realdatenanalyse, dass diese Risikobewertungen in nichteuropäischen Bevölkerungsgruppen unterdurchschnittlich abschneiden. Das macht dieses Papier so wichtig.“

Unvollständige Daten … zu allen

Das Humangenomprojekt basierte auf der genetischen Sequenzierung einer Handvoll Freiwilliger, von denen die meisten europäischer Abstammung waren, daher ist es sinnvoll, dass die anfänglichen Daten begrenzt waren. Aus wissenschaftlicher Sicht ist dies jedoch äußerst problematisch – insbesondere, da genomweite Assoziationsstudien (GWAS) weiterhin hauptsächlich Daten von genau derselben Population sammeln.

Laut gut dokumentierter Forschung in Nature und anderswo stammen etwa 78 Prozent der in GWAS verwendeten Daten von Menschen europäischer Abstammung. Aber diese spezielle Gruppe macht nur 16 Prozent der Weltbevölkerung aus.

Da sich unser Genom als Reaktion auf Umwelt- und biologische Hinweise ständig verändert und weiterentwickelt, gibt es immer genetische Variationen von Mensch zu Mensch und Bevölkerung zu Bevölkerung. Einige genetische Varianten sind völlig unbedeutend, andere können einen tiefgreifenden Einfluss auf die Gesundheit einer Person haben (denken Sie an Einzelgen- oder Mendelsche Störungen wie die Huntington-Krankheit).

Häufiger können winzige Veränderungen in Hunderten oder sogar Tausenden von Genen ein Risiko für – oder einen Schutz vor – einer bestimmten Krankheit darstellen. GWAS-Studien, die an Krankheiten beteiligte Genmutationen oder Varianten identifizieren, sind die Grundlage für Untersuchungen zur Biologie komplexer Merkmale, zur Arzneimittelentwicklung und sogar für klinische Leitlinien.

Aber wenn die genetischen Daten, die in diesen Studien verwendet werden, auf eine Population beschränkt sind – Menschen europäischer Abstammung –, dann fehlen ihnen eine Vielzahl genetischer Varianten, entweder weil sie bei Menschen europäischer Abstammung fehlen oder vorhanden sind, aber nur bei niedrige Frequenzen.

Dr. Charles Kooperberg, Leiter des Biostatistikprogramms bei Fred Hutch, war ein weiterer leitender Autor der neu veröffentlichten Studie. Fred Hutch Dateifoto

Das bedeutet, dass Therapien und Medikamente, die auf der Grundlage dieser Varianten entwickelt wurden, höchstwahrscheinlich bei Menschen mit derselben Abstammung am besten funktionieren. Und polygene Risikoscores, die verwendet werden, um unser genetisches Risiko für Herz-Kreislauf-Erkrankungen, Diabetes, Sichelzellenanämie, Krebs und andere Krankheiten zu berechnen, sind für große Teile der Bevölkerung weniger wertvoll – und weniger genau –.

„Kommerzielle DNA-Tests werden Ihnen sagen, wie hoch Ihr Risiko für Herzerkrankungen, eingewachsene Zehennägel oder was auch immer ist, aber diese Risikobewertungen basieren auf den Ergebnissen von Menschen europäischer Abstammung“, sagte Dr. Charles Kooperberg, Leiter des Hutch-Biostatistikprogramms und ein weiterer leitender Autor. „Für Europäer sind die Vorhersagen also viel genauer.“

Noch besorgniserregender: Diese Voreingenommenheit ist jetzt im System verankert und könnte noch mehr Menschen schaden, indem sie bestehende Krankheiten und Ungleichheiten im Gesundheitswesen verschlimmert.

„Obwohl es eine gemeinsame Biologie gibt, sind die aktuellen Modelle ungenau“, sagt Hutch-Mitarbeiterin Stephanie Bien, die auch an der Studie mitgearbeitet hat. „Und sie sind mehr ungenau, wenn Sie nicht europäischer Abstammung sind. Du musst lernen alle Bevölkerung, um Dinge zu sehen, die in alle Bevölkerungen.“

Ausfüllen der SEITE

Das PAGE-Konsortium wurde vor einem Jahrzehnt gegründet und vom National Human Genome Research Institute der National Institutes of Health finanziert oder gesundheitliche Probleme, oder die aufgrund ihrer einzigartigen genetischen Ausstattung davor geschützt werden könnten.

PAGE verwendete für diese Analyse Gruppen aus einer Handvoll großer Studien, darunter die Women’s Health Initiative, die Hispanic Community Health Study / Study of Latinos (HCHS/SOL), die aus Kalifornien und Hawaii stammende Multiethnic Cohort (MEC) und die BioMe™ BioBank.

Alles in allem repräsentierte die Gruppe 22.216 selbstidentifizierte Hispanoamerikaner/Latinos 17.299 Afroamerikaner 4.680 Asiaten 3.940 gebürtige Hawaiianer 652 amerikanische Ureinwohner und 1.052 Personen, die sich selbst als Andere identifizierten.

Das PAGE-Team führte bei seinen 50.000 multiethnischen Teilnehmern ein GWAS mit 26 verschiedenen klinischen und Verhaltensphänotypen oder -merkmalen durch, um zu sehen, wie sich die genetische Abstammung jeder Person auf jede einzelne auswirkte. Die Merkmale umfassten alles von der Körpergröße über das Verhältnis von Taille zu Hüfte, den Nüchterninsulinspiegel, die Anzahl der weißen Blutkörperchen, Lipoproteine ​​hoher oder niedriger Dichte (auch bekannt als HDL und LDL) bis hin zum Kaffeekonsum.

Mit einem von ihnen entwickelten Werkzeug namens Multi-Ethnic Genotyping Array (MEGA) konnten die Forscher ein tieferes biologisches Verständnis der genetischen Grundlage vieler komplexer Krankheiten gewinnen, darunter Diabetes, Schlaganfall, Fettleibigkeit und Herz-Kreislauf-Erkrankungen. Sie erstellten auch eine Blaupause für die zukünftige Analyse genetischer Assoziationen in verschiedenen Populationen und identifizierten 27 neue Assoziationen mit Merkmalsvarianten.

„Wie wir erwartet haben, haben wir durch die Untersuchung zuvor unterrepräsentierter Populationen neue ahnentafelspezifische Assoziationen gefunden, die unser Verständnis der genetischen Architektur von Merkmalen verbessern und die Bedeutung der Einbeziehung verschiedener Populationen in diese Studien unterstreichen“, sagte Peters.

Fred Hutch Mitarbeiterin Stephanie Bien Fred Hutch Aktenfoto

Wie sich Krankheiten in Populationen unterscheiden

Eine solche Variante fanden die Wissenschaftler im Gen HBB, das Anweisungen zur Herstellung von Beta-Globin liefert, einem Bestandteil des größeren Proteins Hämoglobin. HBB ist bekannt für seine Rolle bei der Sichelzellenanämie und für seine Fähigkeit, die Leistung einiger HbA1c-Tests zu beeinflussen, die zum Testen der Glukosekontrolle bei Diabetes verwendet werden.

Die Forscher entdeckten die Variante bei Hispanics/Latinos, während sie zuvor nur bei Afroamerikanern gemeldet wurde.

Dies bedeutet, dass Tests, die auf Hispanic/Latinos mit dieser Variante durchgeführt werden, „Praktiker möglicherweise dazu bringen könnten, fälschlicherweise zu glauben, dass ein Patient die Glukosekontrolle erreicht hat, was das Risiko von Typ-2-Diabetes-Komplikationen erhöht“, schrieben sie in ihrer Arbeit.

C-reaktives Protein oder CRP – ein im Blut gefundener Biomarker, der verwendet wird, um verschiedene entzündungsbedingte Krankheiten und Zustände zu erkennen, zu diagnostizieren und zu behandeln (denken Sie an Infektionen, Lupus, rheumatoide Arthritis usw.) in bestimmten Populationen verzerrt.

„Diejenigen mit afrikanischer Abstammung tragen mit größerer Wahrscheinlichkeit eine genetische Variante, die ihren Gehalt an C-reaktivem Protein senkt“, sagte Bien, der Mitarbeiter von Hutch. „Sie könnten also an rheumatoider Arthritis leiden, aber Ihre CRP-Werte liegen unter den diagnostischen Kriterien, was bedeutet, dass Ihnen die Medikamente, die Sie benötigen, nicht verschrieben werden. Wie bei HBA1c könnten Sie denken, dass Sie keine Grunderkrankung haben. Aber Sie haben tatsächlich eine genetische Variante, die diesen speziellen Biomarker maskiert oder verzerrt.“

Mit anderen Worten, unvollständige GWAS-Studien schaden potenziell großen Teilen der Bevölkerung.

„Genomweite Studien mit unterschiedlichen Populationen können dazu beitragen, gleiche Wettbewerbsbedingungen in der klinischen Praxis zu schaffen und die Reichweite der Präzisionsmedizin auf Personen auszudehnen, die sonst nicht berücksichtigt würden“, sagte Kooperberg.

Polygene Risiko-Scores „sollten unabhängig von der genetischen Abstammung einer Person gleich genau sein“, sagte Dr. Chris Carlson von Fred Hutch, ein weiterer leitender Autor der neuen Arbeit. Fred Hutch Dateifoto

Carlson verwies auf die Multi-Trait-Ergebnisse als ein wichtiges Beispiel dafür, warum genaue genetische Daten entscheidend sind.

„Die genetische Vorhersage des Cholesterinspiegels oder der Körpergröße ist in der Klinik möglicherweise nicht entscheidend, da Sie diese Merkmale schnell und kostengünstig messen können“, sagte er. „Aber diese Merkmale geben Aufschluss darüber, wie gut genetische Risikomodelle für Krankheiten funktionieren könnten, für die es derzeit keine guten Biomarker gibt, von Autoimmunerkrankungen bis hin zu Krebs.“

Die meisten der im Projekt untersuchten genetischen Varianten wurden bei Europäern entdeckt, sodass die Verwendung dieser Varianten in einem genetischen Modell ohne weitere Auswertung bei Nichteuropäern zu schwächeren Vorhersagen bei Nichteuropäern führt.

„Über 26 Merkmale hinweg betrug die Effektstärke bei Afroamerikanern im Durchschnitt etwa 58 Prozent“, sagte Carlson. „Im Durchschnitt sagen Sie bei dieser Minderheitsbevölkerung also weniger genau voraus als bei europäischen Amerikanern.“

Dies ist eine Verzerrung, die korrigiert werden muss und korrigiert werden kann, sagten die Forscher.

Denken Sie: genetisches Kontinuum

Wie immer bietet die Wissenschaft gute Perspektiven.

„In einer modernen, vielfältigen Bevölkerung wie den USA ist die genetische Abstammung ein Kontinuum“, sagte Peters. „Das muss man annehmen und nutzen, um neue wissenschaftliche Erkenntnisse zu gewinnen.“

Innerhalb dieses Kontinuums ist jedoch jeder von uns ein einzigartiges Individuum mit seinen eigenen individuellen Risiken.

„Es gibt sowohl soziale als auch genetische Komponenten für gesundheitliche Unterschiede von Minderheiten“, sagte Carlson. „Aber wenn es um die Genetik geht, wie wir den Hba1c-Wert eines Patienten interpretieren, geht es nicht darum, ob Sie Afroamerikaner, Hispanoamerikaner oder Europäer sind. Es geht darum, ob Sie ein Träger von Sichelzellen sind.

„Wenn wir individualisierte Medizin betreiben wollen, müssen wir wissen, welche genetische Variation wichtig ist“, sagte er. „Und wir müssen diese genetischen Faktoren in allen Populationen untersuchen.“


Verweise

Zhou, P. et al. Ein Lungenentzündungsausbruch im Zusammenhang mit einem neuen Coronavirus wahrscheinlichen Ursprungs von Fledermäusen. Natur https://doi.org/10.1038/s41586-020-2012-7 (2020).

Lu, R. et al. Genomische Charakterisierung und Epidemiologie des neuartigen Coronavirus 2019: Auswirkungen auf die Virusherkunft und die Rezeptorbindung. Lanzette https://doi.org/10.1016/S0140-6736(20)30251-8 (2020).

Hofmann, H. et al. Die Anfälligkeit für eine SARS-Coronavirus-S-Protein-getriebene Infektion korreliert mit der Expression des Angiotensin-Converting-Enzyms 2 und die Infektion kann durch den löslichen Rezeptor blockiert werden. Biochem. Biophys. Res. Komm. 319, 1216–1221 (2004).

Li, W. et al. Die S-Proteine ​​des humanen Coronavirus NL63 und des Coronavirus des schweren akuten respiratorischen Syndroms binden überlappende Regionen von ACE2. Virologie 367, 367–374 (2007).

Li, W. et al. Rezeptor- und virale Determinanten der SARS-Coronavirus-Adaption an humanes ACE2. EMBO J. 24, 1634–1643 (2005).

Zhao, Y. et al. Einzelzell-RNA-Expressionsprofil von ACE2, dem mutmaßlichen Rezeptor von Wuhan 2019-nCoV. bioRxiv. https://doi.org/10.1101/2020.01.26.919985 (2020).

Rothe, C. et al. Übertragung einer 2019-nCoV-Infektion durch einen asymptomatischen Kontakt in Deutschland. N. Engl. J. Med. https://doi.org/10.1056/NEJMc2001468 (2020).

Das GTEx-Konsortium. Die Genotype-Tissue Expression (GTEx) Pilotanalyse: Multitissue Genregulation beim Menschen. Wissenschaft 348, 648–660 (2015).

Auton, A. et al. Eine globale Referenz für die genetische Variation des Menschen. Natur 526, 68–74 (2015).

Taliun, D. et al. Sequenzierung von 53.831 verschiedenen Genomen aus dem NHLBI TOPMed-Programm. bioRxiv https://doi.org/10.1011/563866 (2019).

Cai, G. Tabakkonsum-Disparität in der Genexpression von ACE2, dem Rezeptor von 2019-nCov. Vorabdruck unter https://doi.org/10.20944/preprints202002.0051.v1 (2020).

Imai, Y. et al. Das Angiotensin-Converting-Enzym 2 schützt vor schwerem akutem Lungenversagen. Natur 436, 112–116 (2005).


Ergebnisse

Mndmutierter Phänotyp

Das Original mnd Mutante wurde in den 1950er Jahren an unserem Institut durch Röntgen-Mutagenese erzeugt [13]. Das auffälligste Merkmal von mnd Pflanzen ist ihr verkürztes Plastochron, d. h. eine schnellere Blattbildungsrate. Mutanten haben im Durchschnitt zweimal mehr Blätter als Wildtyppflanzen, was auf ein schnelleres Auflaufen der Blätter zurückzuführen ist (Abbildung 1). Darüber hinaus sind die Halminternodienlängen bei der Mutante verringert. Trotz der größeren Anzahl von Internodien (acht bis neun in der Mutante) gegen vier bis fünf im Wildtyp) wird die Pflanzenhöhe unter Freilandbedingungen um etwa ein Drittel reduziert, jedoch nicht im Gewächshaus (Abbildung 1d). Neben dem Abstand verändert sich bei der Mutante auch die Form der Blätter: Die Blätter sind im Vergleich zum Wildtyp schmaler und aufrechter. Zusätzliche Eigenschaften von mnd sind eine erhöhte Anzahl von Bestockern (vegetative Sprossäste aus seitlichen Meristemen) und kürzere Ähren (Abbildung 1b Zusatzdatei 1: Abbildung S1).

Phänotypische Eigenschaften von mnd Pflanzen. (ein) Mutanten (rechts) haben im Vergleich zum Wildtyp (links) eine deutlich höhere Anzahl von Knoten und zeigen eine halbzwergartige Wuchsform. (B) Die Ohrlänge wird unter Freilandbedingungen reduziert (links: Wildtyp, rechts: Mutante). (C) Die Blattbildung in frühen Entwicklungsstadien ist schneller in mnd Pflanzen (rechts) im Vergleich zum Wildtyp (links). (D) Unter Gewächshausbedingungen gezüchtete mutierte Pflanzen (rechts) haben mehr Internodien ohne Zwergphänotyp. Der Wildtyp ist links gezeigt.

Allelfrequenz-Mapping

Wir haben eine ähnliche Strategie wie die Methoden ShoreMap [5] und MutMap [8] gewählt, die die genomweite Verteilung der Allelfrequenz in phänotypischen Massen eines F . untersuchen2 Population, die durch Auskreuzung der Mutante zu einem Wildtyp-Genotyp entwickelt wurde (Zusatzdatei 2: Abbildung S2). Nachkommen einer Kreuzung zwischen an mnd Pflanze mit einer Wildtyp-Pflanze der Sorte (Cv.) Barke wurde selbstbestäubt, um ein F . zu erhalten2 Bevölkerung von 100 Personen. Die mnd Allel in dieser Population als monogen-rezessives Merkmal segregiert (19 Mutanten, 81 Wildtyp-Pflanzen, χ 2 = 1,92, P Wert = 0,17). DNA von 18 mutierten Pflanzen und 30 zufällig ausgewählten Wildtyp-Pflanzen wurde in zwei Pools kombiniert, die einem Exom-Capture und anschließender Hochdurchsatz-Sequenzierung auf dem Illumina HiSeq2000 unterzogen wurden, was 82 Millionen und 70 Millionen 2 × 100 bp-Read-Paare für die Mutante und . ergab Wildtyp-Pools bzw. Die Reads wurden auf die Gesamtgenom-Shotgun-(WGS)-Assembly von cv abgebildet. Barke [23] und Einzelnukleotidpolymorphismen (SNPs) wurden nachgewiesen. Die Visualisierung der Allelfrequenzen an SNP-Positionen entlang der physikalischen und genetischen Karte von Gerste zeigte einen einzelnen scharfen Peak auf dem langen Arm des Chromosoms 5H, wo die Häufigkeit des mutierten Allels auf über 95 % anstieg und im Wildtyp auf etwa 30 % absank Becken (Abbildung 2a). Beachten Sie, dass das Verhältnis zwischen der Anzahl der Pflanzen, die an der heterozygot sind, mnd Locus und die Anzahl derer, die für das Wildtyp-Allel homozygot sind, wird erwartet, dass sie 2:1 in der Wildtyp-Masse beträgt. Ausgewählte SNPs im Intervall von 80 bis 110 cM in der Karte von [21] wurden in Einzelmarker-Assays umgewandelt (Zusatzdatei 3: Tabelle S2). Genetische Kartierung in der F2 Bevölkerung bestätigte, dass diese Marker eng mit dem mnd Phänotyp (Abbildung 2b).

Zuordnung nach Sequenz. (ein) Die Häufigkeit des alternativen Allels relativ zur Barke-Referenz in den beiden Fangpools wird entlang der integrierten physikalischen und genetischen Karte der Gerste visualisiert [23]. (B) Zehn SNPs aus den Zielintervallen wurden in CAPS-Marker umgewandelt und auf dem gesamten F . genotypisiert2 Bevölkerung kartieren. Die Anzahl der Rekombinanten zwischen den Markern (obere Achse) und Markerpositionen in der genetisch verankerten WGS-Assembly [24] (untere Achse) sind angegeben. Sequenz-Contigs, die große (>150 bp) mutmaßliche Deletionen tragen, sind als graue Rechtecke gezeigt. (C) Lesen Sie die Tiefe von MND (MLOC_64838.2) in den beiden Erfassungspools. Die Positionen der beiden Exons von MND in WGS Contig 49382 sind als grüne Rechtecke dargestellt. Unten ist die Anzahl der Sequenz-Reads pro Basenposition für den Mutantenpool (rot) und den Wildtyppool (schwarz) dargestellt. Aufgrund einer einzelnen heterozygoten Pflanze, die irrtümlicherweise in die Mutantenmasse aufgenommen wurde, ist MND auch bei geringer Read-Coverage im Mutantenpool vorhanden. Beachten Sie, dass sich der höchste Abdeckungspeak im kurzen Intron (130 bp) von MND aufgrund einer höheren Anzahl redundanter Einfangsonden an den Enden der beiden Exons befindet.

Die Lesetiefenanalyse identifiziert ein wahrscheinliches Kandidatengen

Da Röntgen-Mutagenese häufig große Deletionen induziert [26], haben wir unsere Sequenzdaten nach Exom-Capture-Targets abgefragt, die durch Sequenz-Reads im Wildtyp-Pool abgedeckt werden, aber nicht im Mutanten-Pool. Als Genmodelle werden Exom-Capture-Targets als Koordinaten auf der WGS-Assembly von cv angegeben. Morex, Reads wurden erneut auf dieser Baugruppe kartiert und die Read Coverage wurde an jeder Basisposition berechnet und über zusammenhängend abgedeckte Intervalle entsprechend den Fangzielen gemittelt. Marker-Assays zeigten, dass wir irrtümlicherweise eine heterozygote Pflanze in die Mutantenmasse aufgenommen hatten, was durch phänotypische Analyse der entsprechenden F . bestätigt wurde3 Familie. Daher erwarteten wir eine kleine Anzahl von Sequenzlesevorgängen am mnd Locus im Mutantenpool, der von dem einzelnen Heterozygoten stammt. Auf Genomskala identifizierten wir 435 Intervalle (Genom-Shotgun-Sequenz-Contigs mit den jeweiligen Exom-Capture-Targets), die mindestens 150 bp lang waren und unsere eher lockeren Kriterien für potenzielle Deletionen erfüllten (Zusatzdatei 4: Tabelle S3). Von diesen Zielen wurden 18 durch POPSEQ [24] dem breit definierten Intervall (5H, 80 cM - 110 cM) zugeordnet, 278 wurden anderen Regionen des Genoms zugeordnet und 139 wurden nicht kartiert. Von allen 435 Intervallen befanden sich 48 auf Contigs der WGS-Montage von cv. Morex [23] mit vorhergesagten High-Confidenz-Genen. Alle bis auf zwei dieser Gene hatten eine funktionelle Annotation. Unter den Contigs, die mutmaßlich deletierte Fangziele trugen und in unserem Zielintervall lokalisiert waren, trugen sechs Gene mit hoher Konfidenz (Abbildung 2b, Tabelle 1). Eines davon, Contig 49382, wurde bei 96 cM in der POPSEQ-Karte verankert [24] und somit dem Allelfrequenzpeak (97%) in der Mutantenmasse bei 97 cM am nächsten (zusätzliche Datei 5: Tabelle S1). Darüber hinaus beherbergte Contig 49382 zwei mutmaßlich deletierte Regionen, darunter das längste nachgewiesene Intervall. Beachten Sie, dass eine einzelne große Deletion eher als mehrere kleinere deletierte Zielintervalle erscheinen würde, da das Exom-Capture nur auf disjunkte Exons abzielt und Introns weder in der Mutante noch im Wildtyp vertreten sind. Die deletierten Regionen auf Contig 49382 überlappten mit den beiden Exons des Hochkonfidenz-Gens MLOC_64838.2, das als „Cytochrom P450“ bezeichnet wurde (Abbildung 2c). Dieses Gen war das einzige Gen, das für Contig 49382 vorhergesagt wurde. Eine BLAST-Suche der Proteinsequenz gegen die Reis- und Arabidopsis-Genome identifizierte Mitglieder der CYP78A-Familie von Cytochrom-P450-Enzymen. Eines dieser Gene, Reis CYP78A11, ist als PLASTOCHRON1 (PLA1) bekannt [27]. Wie der Reis pla1 Phänotyp (schneller Blattbeginn, reduzierte Blattgröße und Pflanzenhöhe) ähnelt stark der Gerste mnd, betrachteten wir MLOC_64838.2 als vielversprechenden Kandidaten.

Mutantenanalyse bestätigt MLOC_64838.2 als HvMND

Die PCR-Amplifikation des Kandidaten gelang in den Sorten Morex und Barke, scheiterte jedoch in der Mutante MHOR474. Im Gegensatz dazu waren wir in der Lage, durch Kollinearität mit dem Modellgras Gene zu amplifizieren, von denen vorhergesagt wurde, dass sie nahe an MLOC_64838.2 liegen Brachypodium distachyon[28] und wurden genetisch innerhalb des Kartierungsintervalls verankert. Das Screening unserer TILLING-Population (Targeting Local Lesions IN Genomes) [18] identifizierte 20 EMS-Mutanten mit synonymen und 17 Mutanten mit nicht-synonymen Veränderungen. Eine Mutante, die einen SNP (G261A) trägt, der im heterozygoten Zustand zu einem vorzeitigen Stoppcodon führte (Tabelle 2), wurde ausgewählt, um die phänotypischen Effekte zu überprüfen. Von den Nachkommen dieser Pflanze waren 15 Pflanzen heterozygot, zwei waren homozygot für das Wildtyp-Allel und fünf waren homozygot für das mutierte Allel. Alle homozygoten mutierten Pflanzen (und nur diese) zeigten eine signifikant erhöhte Anzahl von Internodien, charakteristisch für die mnd Phänotyp (Abbildung 3a, b). Darüber hinaus sind Introgressionen von zwei fast isogenen Bowman-Linien gekennzeichnet als mnd (BW520 und BW522) waren zuvor dem Chromosomenarm 5HL zugeordnet worden [17]. Die Sanger-Sequenzierung von MLOC_64838.2 in BW520 ergab einen nicht-synonymen SNP in der kodierenden Sequenz. Das Gen konnte in BW522 nicht amplifiziert werden, während alle syntenischen Gene vorhanden waren (Tabelle 3). Wir bestellten 37 Mutantenakzessionen bei der Nordic Gene Bank (NordGen), die beschrieben wurden als mnd. Die erneute Sequenzierung unseres Kandidaten in diesen Linien ergab vier Aminosäureänderungen, 16 vorzeitige Stoppcodons, eine Unterbrechung einer Spleißstelle, eine 107 bp-Deletion im zweiten Exon und sechs vollständige Deletionen (zusätzliche Datei 6: Tabelle S4). Bei der Anzucht im Gewächshaus zeigten alle Mutanten die mnd Phänotyp (Abbildung 3c-e). Wir betrachteten diese große Anzahl von molekularen Läsionen, die in mehreren unabhängigen Mutantensammlungen gefunden wurden, als schlüssigen Beweis dafür, dass der Funktionsverlust von MLOC_64838.2 der mnd Phänotyp und nannte dieses Gen als HvMND.

mnd Mutanten. TILLING-Mutanten (B) mit einem vorzeitigen Stoppcodon innerhalb der MND-Gene zeigen eine signifikant schnellere Blattinitiation im Vergleich zum Wildtyp (ein). mnd Mutanten im gleichen genetischen Hintergrund (Cv. Kristina) mit einer einzigen Aminosäureänderung (C), eine vollständige Gendeletion (D), und ein vorzeitiges Stoppcodon (e). Die Art der Mutation hatte keinen Einfluss auf die Schwere der mnd Phänotyp unter Gewächshausbedingungen. Die vollständige Wuchsform (links) und eine einzelne isolierte Bestockung (rechts) sind für jede Pflanze in (c, d und e).

MND ist ein Mitglied der CYP78A-Unterfamilie der Cytochrom-P450-Enzyme

MND ist ein Mitglied der CYP78A-Familie von Cytochrom-P450-Enzymen. Wir fanden vier CYP78A-Gene im gesamten Genom-Shotgun-Assembly von Gerste (Abbildung 4). Obwohl die mnd Phänotyp imitiert pla1, MND ist kein Orthologe von PLA1. Das Ortholog von MND in Reis, Os09g09g3594, befindet sich in einer syntenischen Region auf Reischromosom 9 [28] und zeigt auf Proteinebene 75% Identität mit MND. PLA1 hat in Gerste kein klares Ortholog (Fig. 4), hat aber ungefähr 54% Aminosäuresequenzidentität mit MND und zwei anderen CYP78A-Genen, MLOC_68312.1 und MLOC_68718.1. Da PLA1 Orthologe in Mais und Arabidopsis hat (Abbildung 3), könnte ein altes Orthologe von PLA1 in der Poaceae Abstammung nach der Trennung von Reis und Mais. In Übereinstimmung mit dieser Hypothese fanden wir keine PLA1-Orthologe in Gerste, den Weizenvorläufern, T. urartu und Ä. tauschii, und B. Distachyon.

Phylogenetische Analyse von CYP78A-Genen. Mit MEGA5 wurde ein phylogenetischer Baum von 38 Proteinsequenzen von CYP78A aus verschiedenen Spezies konstruiert. Abgekürzte Artnamen werden vor Genidentifikatoren angegeben: Aegilops tauschii (Aet), A. thaliana (Ath), B. Distachyon (Bd), H. vulgare (Hv), Oryza sativa (Os), T. urartu (Di), Zea mays (Zm). Gennamen werden nach Identifikatoren angegeben, falls verfügbar. Das CYP75B1-Gen TT7 von A. thaliana wurde als Fremdgruppe verwendet. Die Bootstrap-Methode wurde angewendet, um die statistische Signifikanz von Zweigen zu testen. Neben den Zweigen wird der Prozentsatz der Replikatbäume angezeigt, bei denen die zugehörigen Taxa im Bootstrap-Test geclustert wurden (1.000 Replikate). Branches mit unzureichender Bootstrap-Unterstützung (<50%) wurden reduziert, um einen Konsensbaum zu erhalten.

Wir haben das Ausdrucksprofil von . nachgeschlagen HvMND und andere Gerstengene der CYP78A-Familie in den acht Geweben, die vom International Barley Genome Sequencing Consortium [23] untersucht wurden. Die Expression von CYP78A-Genen wurde in allen Geweben gefunden, wobei verschiedene Gene der Familie in verschiedenen Geweben am häufigsten vorkommen (Abbildung 5). Unter den vier CYP78A-Genen, HvMND war die ubiquitärste und wurde in allen Proben exprimiert, obwohl in den sich entwickelnden Körnern 15 Tage nach der Blüte nur eine schwache Expression nachgewiesen wurde.

Ausdruck von MND und drei andere CYP78A Gene der Gerste. Die Häufigkeit des Transkripts wird als Fragmente pro Kilobase Exon pro Million kartierter Reads (FPKM) über acht verschiedene Gewebe oder Entwicklungsstadien hinweg angegeben. Ein Gen galt als exprimiert, wenn sein FPKM-Wert über dem Schwellenwert von 0,4 lag [23] (gekennzeichnet durch graue Linie). Alle Daten wurden aus [23] entnommen.

Eine physische Karte der mndOrt

Es können Bedenken hinsichtlich der allgemeinen Anwendbarkeit unserer Strategie auf andere kartenbasierte Klonprojekte bestehen. Die Isolierung von MND wurde durch die Tatsache erleichtert, dass sein Homolog PLA1 in der Modellspezies Reis gut charakterisiert ist und dass der Phänotyp der PLA1-Knockout-Mutanten mnd. Wäre MND außerdem nicht im Exom-Capture-Zielraum vertreten gewesen, hätte kein offensichtlicher Kandidat gefunden werden können. In diesem Fall wird die Verteilung der Allelfrequenz durch genetische Kartierung von Markern bestätigt, die aus in silico Varianten hätten nur ein zu prüfendes Zielintervall abgegrenzt. Wie bereits früher vorgeschlagen, sollte die genomweite physikalische Karte von Gerste prinzipiell die Erstellung lokaler physikalischer Karten durch kartenbasiertes Klonen zur Abgrenzung von Kandidatengenen überflüssig machen [29]. BAC-Übersichtssequenzdaten, die mit der physischen Karte von Gerste assoziiert sind [23] können verwendet werden, um Markersequenzen oder Kandidatengene mit physischen Contigs zu assoziieren, deren minimale Kachelpfade [29] dann sequenziert werden können. Daher war es unsere Absicht zu testen, ob die durch das Bulked-Segregant-Sequenzierungsexperiment gelieferte Information ausreicht, um ein physikalisches Contig der genomweiten physikalischen Karte zur Abgrenzung der Ziellokusregion und zur Identifizierung eines Kandidatengens auszuwählen.

Wir setzen diese Strategie in die Praxis um, um die physische Karte um den MND-Locus abzurufen (Abbildung 6). Die wichtigsten Schritte zu diesem Ziel waren die Identifizierung von BAC-Contigs der physischen Karte des Gerstengenoms, die MND sowie seine flankierenden Marker enthalten, die Sequenzierung der minimalen Tiling-Pfade (MTPs) dieser Contigs und die Durchführung einer integrativen Sequenzanalyse zur Vorhersage von Genmodellen auf dem BAC Reihenfolge Baugruppen. Zuerst identifizierten wir durch BLAST-Suchen gegen die in die physische Karte von Gerste integrierten Sequenzressourcen [23] zwei Contigs mit Fingerabdruck, contig_45097 und contig_46058, die zwei Gene enthielten, deren Orthologe in Brachypodium waren die nächsten Nachbarn des Orthologs von MND sowie die co-segregierenden und distal flankierenden Marker M4 und M5. Ebenso wurde gefunden, dass contig_1020 den Marker M3 beherbergt und MND in proximaler Richtung flankiert. Wir fanden keine BAC-Sequenzen mit hoher Ähnlichkeit zu MND. Dies ist nicht unerwartet, da nur 1,1 Gb an genomischer Sequenzinformation (ca. 20 % des Gerstengenoms) direkt von der physikalischen Karte der Gerste bereitgestellt werden (6.278 sequenzierte BAC-Klone, BAC-Endsequenzen) [23]. Ein BAC, das MND beherbergt und dem mit Fingerabdrücken versehenen contig_45097 zugeordnet ist, wurde jedoch durch das Screening der BAC-Bibliothek identifiziert.

Eine physische Karte der mnd Ort. (ein) Fingerprinted (FP) Contigs, die flankierende und co-segregierende Marker (Dreiecke) sowie das MND-Gen (Diamant) tragen. Die physische Karte ist zwischen den Feldern 1020 und 45097 nicht zusammenhängend. Eine Maßstabsleiste für alle Felder wird oben angezeigt. (B) Sequenzierte BACs. BACs wurden entsprechend ihren FPC-Koordinaten positioniert [23]. (C) Genmodelle und orthologe Brachypodium Gene. Spuren (von oben nach unten) markieren die Positionen von (1) Genmodellen, die in beiden vorhanden sind de novo Vorhersagen mit Augustus und den IBSC-Genmodellen (grün - high-confidence (HC) IBSC-Gene, blau - low-confidence (LC) IBSC-Gene) (2) Genmodelle nur von Augustus vorhergesagt (3) Genmodelle vorhergesagt von IBSC (grün - HC-Gene blau - LC-Gene) (4) ortholog Brachypodium Gene werden nur die letzten vier Ziffern des Genidentifikators Bradi4g3xxxx angegeben. (D) Durch Exom-Sequenzierung entdeckte und an BAC-Sequenzen verankerte SNPs sind durch vertikale Linien markiert.

Als nächstes stellten wir die MTPs dieser drei physischen Contigs (Abbildung 6a) zusammen, indem wir 38 BACs (Abbildung 6b Zusätzliche Datei 7: Tabelle S5) auf Illumina HiSeq2000 sequenzierten. Einzelne BACs wurden in „Phase-1-Qualität“ zusammengestellt, d. h. ungeordnete Contig-Sequenzen. Alle-gegen-alle-BLAST-Suchen von BAC-Assemblies bestätigten die Kontiguität der Contigs 46058 und 45097 sowie die Überlappung zwischen ihnen. Contig_1020 überschnitt sich mit keinem von ihnen. Die Marker M4 und M5 wurden auf einem zusammenhängenden Sequenzgerüst lokalisiert, was es uns ermöglichte, ein ungefähres Verhältnis zwischen physischer und genetischer Distanz am MND-Locus von ungefähr 740 kb pro cM abzuschätzen.

Im folgenden Schritt wurden Genmodelle (Abbildung 6c) auf wiederholt maskierten BAC-Assemblies vorhergesagt, indem ein von Anfang an Methode und durch Alignment von Genmodellen, die auf dem Morex WGS-Assembly definiert sind [23]. Insgesamt wurden 98 nicht-redundante Genmodelle auf den BAC-Sequenzen definiert. Mit beiden Methoden wurden 25 Gene gefunden, 35 wurden nur vorhergesagt von Anfang an und stellen wahrscheinlich Pseudogene dar. Achtunddreißig Gene wurden nur in die IBSC-Annotation aufgenommen, von denen die Mehrheit (23 Gene) als Transkripte mit niedriger Konfidenz klassifiziert wurde, die auch mutmaßliche Pseudogene oder Genfragmente sind. Die Genreihenfolge war weitgehend kollinear zu Brachypodium mit einigen geringfügigen Umlagerungen (Abbildung 6c). Synteny ermöglichte es uns, contig_1020 relativ zu den anderen beiden Contigs auszurichten.

Schließlich versuchten wir, die Größe der verbleibenden Lücke zwischen den Fingerabdruck-Contigs 1020 und 45097 abzuschätzen und zusätzliche BACs zu finden, die sie überbrücken könnten. Als 10 Brachypodium Gene zwischen Bradi4g 35770 und Bradi4g35860 fehlen, die Lücke zwischen den Contigs 1020 und 45097 kann mehrere hundert Kilobasen betragen, oder die Lücke ist klein und kann eine Region mit fehlender Kollinearität zwischen Gerste und darstellen Brachypodium. Wir haben WGS-Contigs verknüpft, die die Gersten-Orthologe der „Vermissten“ tragen. Brachypodium Gene, um Sequenzen von BACs zu beenden, die Teil von zwei kurzen physischen Contigs (45219 und 45903) der Größen 227 und 236 kb waren (Tabelle 4). Diese Contigs tragen die Orthologe von Bradi4g35840 und Bradi4g35800 und unterstützen die allgemeine Kollinearität mit Brachypodium in dieser genomischen Region. Darüber hinaus stimmte eine BAC-Endsequenz (HF198106), die zu contig_45219 gehörte, mit hoher Identität (99,9% Identität über 755 bp) mit zwei BAC-Sequenzen von contigs_45097 überein, was darauf hindeutet, dass diese beiden FP-Contigs überlappen können.

Zusammenfassend lässt sich sagen, dass wir bei der genetischen Auflösung von 100 F2-Pflanzen nicht in der Lage waren, in einem Schritt ein einziges physikalisches Sequenzgerüst aus überlappenden BAC-Klonen aus den MND Locus zwischen den beiden nächsten flankierenden Markern. Die verbleibende Lücke kann jedoch durch Sequenzieren der MTP der zwei zusätzlichen FP-Contigs, die basierend auf konservierten Syntenieinformationen zu Brachypodium identifiziert wurden, geschlossen werden. Darüber hinaus kann eine signifikante Erhöhung der genetischen Auflösung auf mehrere Tausend Meiose, wie sie bei Gerste häufig erforderlich ist, es ermöglichen, Rekombinationen zwischen Marker M4 und dem aufzulösen MND Gen, das zur Landung mit flankierenden Markern auf einem einzigen BAC-Contig-Gerüst führen würde, das von der physischen Karte der Gerste bereitgestellt wird. Somit kann trotz der fortgeschrittenen genomischen Ressourcen, die jetzt für Gerste verfügbar sind, ein iterativer Prozess mit mehr als einer Runde MTP-Sequenzierung und Überlappungsanalyse erforderlich sein, um eine zusammenhängende physikalische Karte eines Kandidaten-Locus zu erhalten.


Wie kann die mikrobielle Populationsgenomik die Ökologie der Gemeinschaft beeinflussen?

Populationen sind grundlegende Einheiten der Ökologie und Evolution, aber können wir sie biologisch sinnvoll für Bakterien und Archaeen definieren? Hier untersuchen wir, warum die Populationsstruktur in Mikroben schwer zu erkennen ist und wie die jüngsten Fortschritte bei der Messung des zeitgenössischen Genflusses es uns ermöglichen, klar abgegrenzte Populationen in Sammlungen eng verwandter Genome zu identifizieren. Eine solche Struktur kann aus einem bevorzugten Genfluss entstehen, der durch Koexistenz und genetische Ähnlichkeit verursacht wird und Populationen auf der Grundlage biologischer Mechanismen definiert. Wir zeigen, dass solche Genflusseinheiten genetisch ausreichend isoliert sind, damit sich spezifische Anpassungen ausbreiten können, was sie zu ökologischen Einheiten macht, die im Vergleich zu ihren nächsten Verwandten unterschiedlich angepasst sind. Wir diskutieren die Implikationen dieser Beobachtungen für die Messung der bakteriellen und archaealen Diversität in der Umwelt. Wir zeigen, dass operationelle taxonomische Einheiten, die durch 16S rRNA-Gensequenzierung definiert werden, eine beklagenswert schlechte Auflösung für ökologisch definierte Populationen aufweisen und schlagen monophyletische Cluster von nahezu identischen ribosomalen Proteingenen als alternatives Maß für die Populationskartierung in ökologischen Gemeinschaftsstudien vor, die Metagenomik einsetzen. Diese populationsbasierten Ansätze haben das Potenzial, die dringend benötigte Klarheit bei der Interpretation der enormen mikrobiellen Vielfalt im menschlichen und ökologischen Mikrobiom zu schaffen.

Dieser Artikel ist Teil des Themenhefts „Konzeptuelle Herausforderungen in der mikrobiellen Gemeinschaftsökologie“.

1. Einleitung

Nehmen Sie ein einführendes Biologie-Lehrbuch und Sie werden wahrscheinlich feststellen, dass Evolution als Veränderung der genetischen Ausstattung von Populationen definiert ist. Als lokal koexistierende Vertreter von Arten definiert, sind Populationen in der Praxis auch die Einheiten der Vielfalt, die verwendet werden, wenn wir die Artenvielfalt messen wollen, um ökologische Wechselwirkungen sowie die Stabilität und Widerstandsfähigkeit von Ökosystemen zu bewerten [1]. Für Mikroben sind Populationen jedoch notorisch schwer zu definieren [2], und wir verwenden willkürliche Diversitätseinheiten, um die genetische Ausstattung von Gemeinschaften zu messen [3]. Diese Schwierigkeit bei der Definition von Populationen ist natürlich auf das Fehlen eines biologisch sinnvollen Artenkonzepts für Bakterien und Archaeen zurückzuführen [3–6]. Ohne klar definierte Populationen sind viele der grundlegendsten Fragen der Gemeinschaftsökologie schwer zu beantworten. Führen Störungen beispielsweise zu Veränderungen der genotypischen Zusammensetzung innerhalb von Populationen oder zum Artenumsatz? Die Unterscheidung zwischen diesen Möglichkeiten ist eine sinnvolle Frage, da Veränderungen des Genotyps innerhalb einer Population ökologische Netzwerke weit weniger stören können als umfassende Veränderungen in der Artenzusammensetzung. Diese Frage steht im Mittelpunkt des Verständnisses der Dynamik wichtiger mikrobieller Gemeinschaften, einschließlich des menschlichen Mikrobioms.

Die Definition von Bakterien- und Archaeenpopulationen und damit auch von Arten ist daher ein wichtiges Unterfangen für die Gemeinschaftsökologie, aber können wir es tun? Ist die mikrobielle Vielfalt in natürlichen Einheiten organisiert, denen wir biologisch bedeutsame Eigenschaften zuschreiben können? Organisieren fundamentale evolutionäre Prozesse koexistierende Genotypen in Einheiten, über die sich Anpassungen gezielt ausbreiten können, wodurch ökologische Einheiten mit deutlich unterschiedlicher Dynamik entstehen? Wenn wir mikrobielle Populationen auf diese Weise definieren können, können wir möglicherweise die reichhaltige evolutionäre und ökologische Theorie anwenden, die für Tier- und Pflanzenpopulationen entwickelt wurde [7,8]. Wenn nicht, brauchen wir möglicherweise grundlegend andere Theorien und Ansätze [2] .

Hier gehen wir der Frage nach, ob Bakterien in genetisch klar abgegrenzten, ökologisch differenzierten Populationen organisiert sind. Wir argumentieren, dass, obwohl bakterielle und archaeale Rekombination, sowohl homologe als auch nicht-homologe, unidirektional und promiskuitiv ist, Umweltstruktur und Selektion das Potenzial haben, den Genfluss ausreichend zu strukturieren, damit ökologisch differenzierte Einheiten entstehen können. Als nächstes diskutieren wir, warum die Erkennung solcher Einheiten so schwierig geblieben ist, und zeigen, dass durch die Schätzung nur sehr neuer Genflüsse tatsächlich kongruente Einheiten von Genfluss und Ökologie wiedergefunden werden.Obwohl noch viele weitere Beispiele benötigt werden, können diese Einheiten das bakterielle und archaische Äquivalent von Populationen sein, und ihre Identifizierung kann letztendlich zur Lösung des Problems der mikrobiellen Spezies beitragen. Abschließend ziehen wir Implikationen für die Messung der biologisch bedeutsamen Diversität in der Umwelt.

2. Ist damit zu rechnen, klar abgegrenzte Populationen unter Bakterien und Archaeen zu finden?

Obwohl der Genfluss potenziell promiskuitiv ist, da im Prinzip jede Mikrobe Gene mit jeder anderen teilen kann [9,10], muss er nur so strukturiert sein, dass er bevorzugte Anpassungen an die Ausbreitung ermöglicht, damit Populationen als lokale ökologische Einheiten auftauchen [11,12]. Bedenken Sie, dass Populationen, die einen definierten Lebensraum besetzen, aus Individuen bestehen, die einem ähnlichen Selektionsdruck ausgesetzt sind, weil sie nebeneinander existieren und ähnliche Funktionen erfüllen (Abbildung 1). Solche Lebensräume können kleine organische Partikel in Böden oder Gewässern oder ausgedehntere Gewässer mit definierten physikalischen und chemischen Eigenschaften sein [13–15]. Der Schlüssel ist jedoch, dass Lebensräume fast immer lückenhaft und ephemer sind und dass sie es einer Untergruppe von Populationen innerhalb der Gemeinschaft ermöglichen, durch bevorzugtes Wachstum im Überfluss zu wachsen [13,16-18]. Infolgedessen haben aktive Populationen eine höhere Wahrscheinlichkeit, genetisches Material zu teilen, da die homologen Rekombinationsraten mit der Sequenzdivergenz exponentiell abnehmen [19,20] und bevorzugte Mikrohabitat-Assoziationen für höhere Begegnungsraten sorgen (Abbildung 1).

Abbildung 1. Das Ausmaß des Genflusses zwischen mikrobiellen Populationen wird hauptsächlich durch die genetische Ähnlichkeit und die ökologische Überlappung der einzelnen Stämme bestimmt, aus denen diese Populationen bestehen. Während die Effizienz der homologen Rekombination mit Sequenzdivergenz exponentiell abnimmt, steigt die Wahrscheinlichkeit eines Transfers mit größerem physischen Kontakt zwischen Stämmen, die ähnliche physische Nischen besetzen. (Online-Version in Farbe.)

Diese vermehrte Begegnung und Rekombination aktiv wachsender Genotypen hat wichtige Konsequenzen für die Schaffung und Aufrechterhaltung des ökologischen Zusammenhalts [12]. Kommt es innerhalb einer Population zu einer Adaptation, so breitet sie sich aufgrund der Kombination von präferenziellem Genfluss und Fitnesssteigerung in den die Adaptation tragenden Genotypen leichter innerhalb der Population aus [11]. Mit anderen Worten, je nach Balance zwischen Selektionsstärke und Rekombinationsrate kann sich die Anpassung durch einen selektiven Sweep über die Population ausbreiten [12,21]. Wenn die Anpassung für andere koexistierende Populationen nützlich ist, ist ihr Fitnessvorteil für eine bestimmte Population nur von kurzer Dauer, da der horizontale Gentransfer ihn wahrscheinlich anderen Populationen zur Verfügung stellt [22]. Das Szenario kann jedoch ganz anders aussehen, wenn Kompromisse mit der Übertragung der Anpassung verbunden sind, was bedeutet, dass sie in einem anderen genomischen oder ökologischen Hintergrund möglicherweise nicht so gut funktioniert [12,23,24]. Ist dies der Fall, kann eine Anpassung viel länger populations- oder artspezifisch bleiben und eine ökologische Differenzierung erzwingen. Kompromisse können auch den Prozess der Artbildung einleiten, wenn Genotypen, die die Anpassung tragen, besser in einen neuen Lebensraum passen, aber weniger in den angestammten Lebensraum [12,23]. Dieser Effekt kann eine physikalische Trennung und damit eine Genflussbarriere zwischen den entstehenden Populationen induzieren [12,25].

Die oben diskutierten Kompromisse sind oft schwer zu identifizieren, da sie die Untersuchung erst kürzlich spezifizierter Populationen erfordern. Bei divergenteren Arten haben sich typischerweise zu viele genetische Veränderungen angesammelt und sind verloren gegangen, um das mit dem Kompromiss verbundene Merkmal zu identifizieren. Ein klares Beispiel dafür sind kürzlich speziezierte Bakterienpopulationen im Ozean [26]. Ein vergleichender genomischer Ansatz identifizierte zwei Populationen von Vibrio cyclitrophicus die in Meeresproben unterschiedlich verteilt waren, von denen eine mit organischen Partikeln assoziiert war und die andere freilebend vorkam. Beide Populationen enthielten Genomregionen, die sie differenzierten, einschließlich Regionen, die eine stark reduzierte Nukleotiddiversität enthielten, was auf einen kürzlichen Durchlauf eines spezifischen Allels hinweist, sowie Regionen, die eine unterschiedliche Genpräsenz zeigten, wie von kürzlichen populationsspezifischen Hinzufügungen oder Verlusten erwartet. Einige dieser differenzierenden Allele und Gene waren eindeutig mit der Bildung und Anheftung von Biofilmen verbunden, was zu der Hypothese führte, dass die Fähigkeit zur Assoziation mit Partikeln in einer der Populationen entweder verloren oder gewonnen wurde [26].

Diese Hypothese der unterschiedlichen Anpassung basierend auf beobachteten genetischen Unterschieden wurde anschließend durch Verhaltensbeobachtungen von Vertretern der beiden Populationen bestätigt, die einen Kompromiss zwischen Konkurrenz und Verbreitung nahelegen [27]. Mikrofluidik wurde verwendet, um eine ökologische Landschaft zu schaffen, die den Bedingungen im Ozean ähnelt, in der kleine Partikel einen Lebensraum darstellen, an dem Bakterien das feste organische Material anlagern und abbauen können [13,16]. Dieser Abbauprozess selbst schafft einen ephemeren Lebensraum von Flecken gelösten organischen Materials, da die angelagerten Bakterien organische Polymere extrazellulär schneller abbauen, als sie die Abbauprodukte in die Zelle importieren können [16]. Durch Diffusion bildet sich um das Partikel eine Wolke aus Mono- oder Oligomeren, die von beweglichen Bakterien aufgenommen werden kann [28]. Wenn solche Bedingungen im Mikrofluidiksystem simuliert wurden, erschienen die beiden Populationen unterschiedlich an die festen bzw. gelösten Ressourcen angepasst. Während einer reagierte, indem er sich an die Partikel anheftete und in Biofilmen wuchs, war der andere in der Lage, sich effizient zwischen den Partikeln zu verteilen, sie schnell zu erkennen und auf neue Partikel zu schwimmen [27]. Dies deutet darauf hin, dass die letztere Population tatsächlich besser an die Ausbeutung von kurzlebigen, löslichen Nährstofffeldern angepasst ist, während die erste Population auf den Abbau des festen organischen Materials setzt. Obwohl schwer zu beweisen, wurde aus dem genomischen Vergleich gefolgert, dass diese Verhaltensunterschiede am Artbildungsprozess beteiligt waren, da die unterschiedlichen Anpassungen einen ökologischen Kompromiss darstellen, der in Genomen nicht ohne weiteres koexistieren kann.

Obwohl das obige Beispiel die Leistungsfähigkeit der Populationsgenomik in Kombination mit einer detaillierten Umweltprobenahme demonstriert, war die Entdeckung solcher kürzlich spezifizierter Populationen dennoch ein Zufall. Dabei half, dass zunächst ein proteinkodierendes Gen, das als Marker zur Differenzierung von Isolaten diente, mit einer Sweep-Region verknüpft war und damit diese beiden Populationen eindeutig unterschied [26]. In den meisten Fällen kann die Bevölkerungsstruktur nicht abgeleitet werden a priori und stattdessen erfordert eine solche Schlussfolgerung einen Ansatz, bei dem ein gewisses Maß an Diversität auf Umweltproben abgebildet wird. Als nächstes skizzieren wir die Gründe für diese Schwierigkeit, Populations- oder Artengrenzen zwischen Bakterien und Archaeen allein auf der Grundlage genetischer Informationen zu erkennen.

3. Warum ist es so schwierig, Populationen zu definieren?

In einem kürzlich erschienenen Meinungsbeitrag skizzierte Rocha [2] Herausforderungen in der bakteriellen (und archaischen) Populationsgenetik im Lichte der neutralen Evolutionstheorie. Eines der wichtigsten Probleme besteht darin, dass es aufgrund seiner unscharfen Natur fast unmöglich war, den Gegenstand der Studie zu definieren. Ähnliche Argumente wurden früher für Artengrenzen vorgebracht [29]. Eine solche Unschärfe wird in phylogenetischen Bäumen mit mehreren Loci im gesamten Genom beobachtet, da sie zu unterschiedlichen Topologien führen. Das heißt, obwohl Clustering beobachtet wird, ist es inkonsistent, wenn verschiedene Gene betrachtet werden, was ihre unterschiedliche Evolutionsgeschichte widerspiegelt [29,30]. Ein kürzlich erschienenes Papier argumentierte sogar, dass die Rekombination unter Escherichia coli isoliert, dass es keinen Mehrheitsbaum gibt, obwohl paradoxerweise immer ein ähnlicher Baum entsteht, wenn über verschiedene größere Genomregionen gemittelt wird [31]. Dies ist potentiell problematisch, wenn, wie bei vielen Rekombinationsschätzungsmethoden, einzelne Gene mit einem solchen Konsensusbaum verglichen werden, der die klonale Geschichte (oder den klonalen Rahmen) der Population widerspiegeln soll. Insgesamt legen diese Beobachtungen nahe, dass phylogenetische Methoden bei der Abgrenzung von Populationen und Arten auf Probleme stoßen können.

Das Problem bei phylogenetischen Methoden kann sein, dass sie sich über zu lange evolutionäre Zeitrahmen integrieren, um für die Populationsdifferenzierung nützlich zu sein. Insbesondere unter kürzlich spezifizierten Populationen unterstützt nur ein sehr kleiner Bruchteil des Genoms eine Unterscheidung zwischen ihnen [26]. Dies wird gut in der Analyse von zwei kürzlich speziierten V. cyclitrophicus Populationen, bei denen im Wesentlichen jede genomische Region, die sie teilten, ihre eigene einzigartige Evolutionsgeschichte hatte und beide Populationen vollständig vermischt erschienen [26]. Dies ist ein offensichtliches Paradoxon: Wie kann es über Populationsgrenzen hinweg zu Rekombination kommen, während bevölkerungsspezifische Sweeps beobachtet werden? Die Antwort liegt in den Zeitskalen, über die sich phylogenetische Vergleiche integrieren. Wenn eine Methode entwickelt wurde, um nur die jüngsten Rekombinationsereignisse zu analysieren, waren diese innerhalb der Populationen häufiger. Dies deutet darauf hin, dass die beiden Populationen zwar eine gemeinsame Rekombinationsgeschichte hatten, die jüngsten Rekombinationsereignisse nach der Populationsdivergenz jedoch populationsspezifisch waren [26].

Sogar viele Methoden, die zur Messung der Rekombination entwickelt wurden, können unter einem ähnlichen Problem der Integration über evolutionäre Zeitrahmen leiden, die zu lang sind, um Artbildungsereignisse zu erfassen. Wir haben kürzlich ein einfaches Experiment durchgeführt, bei dem wir einen Rekombinationsschub zwischen einer Gruppe von sich ansonsten klonal entwickelnden Genomen simulierten und beobachteten, wie das Rekombinationssignal mit der Akkumulation von Mutationen abnahm [32]. Wenn die Rekombination mit zwei verschiedenen Methoden analysiert wurde, die auf der Identifizierung von Homoplasien beruhen, gab es noch lange nach Beendigung des Genflusses ein beträchtliches Signal. Dies liegt daran, dass Homoplasien durch den zufälligen Mutationsprozess nur langsam gelöscht werden, so dass Methoden, die auf ihrer Messung beruhen, über lange Zeiträume integrieren und nicht nur den zeitgenössischen Rekombinationsprozess erfassen. Eine solche Integration über lange Zeiträume wird problematisch, wenn eng verwandte Populationen oder sogar Arten verglichen werden, und legt nahe, dass Methoden zur Analyse eines zeitgemäßeren Genflusses erforderlich sind, um Populations- oder Artengrenzen korrekt wiederherzustellen [32].

4. Können wir den Genfluss im Kontext der heutigen Bevölkerungsstruktur abschätzen?

Wenn aktuelle Methoden keine Arten- oder Populationsgrenzen ermitteln können, gibt es eine Alternative, mit der solche Grenzen korrekt identifiziert werden können? Wir haben kürzlich eine solche Methode vorgeschlagen, die auf der Messung der homogenisierenden Kraft der Rekombination zwischen zwei Genomen beruht und in der Lage ist, einen viel jüngeren Gentransfer als andere Methoden zu identifizieren [32]. Diese Methode, die als Populationen als Cluster des Gentransfers (PopCOGenT) bezeichnet wird, unterscheidet sich von anderen dadurch, dass sie den kürzlichen Gentransfer über gemeinsame identische Genomregionen schätzt (Abbildung 2). Da solche identischen Spuren zwischen zwei eng verwandten Genomen durch vertikale Vererbung oder horizontalen Gentransfer entstehen können, unterscheidet PopCOGenT die beiden mit einem einfachen Modell der vertikalen (klonalen) Vererbung. Wenn zwei Genome durch Mutationsakkumulation ohne Rekombination klonal divergieren, weisen sie eine charakteristische Längen- und Häufigkeitsverteilung identischer Regionen auf, die durch ein Poisson-Modell von Einzelnukleotid-Polymorphismen geschätzt werden kann [32]. Eine signifikante Anreicherung in identischen Regionen oberhalb dieser Erwartung kann dann als Abschätzung des Gentransfers dienen (Abbildung 2). Das Gentransfersignal nimmt innerhalb der Zeit, die benötigt wird, um Genome um 0,1% zu divergieren, um eine Größenordnung ab, und PopCOGenT kann daher ein viel zeitgemäßeres Maß für den Gentransfer bieten als andere Methoden [32].

Abbildung 2. Die Methode „Populationen als Cluster des Gentransfers“ (PopCOGenT) schätzt den Umfang des kürzlich erfolgten horizontalen Gentransfers durch Messung der Längenverteilung identischer Sequenzen, die von zwei beliebigen Genomen geteilt werden. Durch den Vergleich dieser Verteilung mit einem Nullmodell der klonalen Evolution (i) bestimmt PopCOGenT einen „Transfer-Bias“ aufgrund des horizontalen Gentransfers. Nach Beendigung des horizontalen Transfers zwischen Genomen nimmt dieser Transfer-Bias aufgrund der Anhäufung von Mutationen schnell ab. (Online-Version in Farbe.)

Wichtig ist, dass das von PopCOGenT bereitgestellte Maß des Gentransfers verwendet werden kann, um ein Netzwerk aufzubauen, um zu untersuchen, wie Rekombination die genetische Vielfalt strukturiert (Abbildung 3). In dem in Abbildung 3 gezeigten Beispiel zeigen die einzelnen Genome unterschiedlich viel Genfluss zwischen ihnen. Einige Isolate bilden einen klar isolierten Cluster, während andere durch einen beträchtlichen Genfluss verbunden bleiben, jedoch weiter in schwächer verbundene Subcluster strukturiert sind. Wie unten detailliert beschrieben, können solche Subcluster beobachtet werden, indem ein einfacher Clustering-Algorithmus auf das rohe Genflussnetzwerk angewendet wird. Da PopCOGenT außerdem mit paarweisen Alignments arbeitet, kann es alle gemeinsamen Regionen vergleichen, unabhängig davon, ob diese von allen Isolaten einer Population geteilt werden. Auf diese Weise kann kürzlich geteiltes genetisches Material sowohl im Kern- als auch im flexiblen Genom berücksichtigt werden, d. h. im Genkomplement, das von allen bzw. Teilmengen von Isolaten in einer Population geteilt wird.

Abbildung 3. PopCOGenT identifiziert Populationen durch paarweise Gesamtgenom-Alignments von aus der Umwelt stammenden Isolaten oder Einzelzellgenomen. Es ist oft unklar, wie Stämme aus phylogenetischen Bäumen aus mehreren Genom-Alignments oder verketteten Markergenen zu biologisch bedeutsamen Populationen zusammengefasst werden können (links). Darüber hinaus kann die Vielfalt in diesen phylogenetischen Bäumen immer nur die Evolutionsgeschichte der Kernregionen des Genoms darstellen. Durch paarweise Alignments schätzt PopCOGenT den Gentransfer über alle Regionen hinweg, die von zwei beliebigen Genomen geteilt werden, und identifiziert die Populationsstruktur, ohne sich auf starre Identitätsgrenzen zu verlassen (Mitte). Während einige Populationen durch den Genfluss vollständig von anderen Gruppen getrennt sind, bleiben andere miteinander verbunden, und die zugrunde liegende Populationsstruktur wird durch Clustering aufgedeckt, die Subcluster von weitgehend verbundenen Stämmen identifiziert (rechts). Die isolierten Genomcluster können aufgrund der Eigenschaften, die sie mit der Anforderung der Definition des biologischen Artenkonzepts der genetischen Isolierung teilen, als artähnlich angesehen werden. (Online-Version in Farbe.)

Bei Anwendung auf mehrere bakterielle und archaeale Modellsysteme, für die die Populationsstruktur geschätzt wurde (unter Verwendung von Populationsgenomik kombiniert mit ökologischen und physiologischen Daten), konnte PopCOGenT die ursprünglichen Vorhersagen rekapitulieren [32]. Diese Modellsysteme stellen einen kritischen Test dar, da gezeigt wurde, dass jede eng verwandte Schwesterpopulationen umfasst, die sich durch kohäsive Eigenschaften, einschließlich unterschiedlicher Dynamik in Umweltproben, auszeichnen. Als PopCOGenT verwendet wurde, um ein Genflussnetzwerk zwischen Genomen aus diesen Modellsystemen aufzubauen, wurde das Rohnetzwerk in Genflusscluster strukturiert, die mit den zuvor identifizierten genetischen und ökologischen Einheiten hochgradig deckungsgleich waren.

Diese anfänglichen Cluster im rohen Genflussnetzwerk hatten keine Verbindung zu anderen solchen Clustern, was darauf hindeutet, dass ein neuer Genfluss zwischen vielen ökologischen Populationen im Wesentlichen nicht nachweisbar ist [32]. Wenn jedoch ein einfacher Clustering-Algorithmus angewendet wurde, wurde in einigen Fällen die zusätzliche Struktur aufgedeckt, d. h. Subcluster mit angereichertem Genfluss innerhalb, die einen gewissen Genfluss dazwischen aufrechterhalten. Diese Subcluster rekapitulierten auch zwei Modelle kürzlich divergierter Populationen in V. cyclitrophicus und Sulfulobus islandicus [26,33], was darauf hinweist, dass PopCOGenT entstehende Populationen, die durch schwächere Genfluss-Diskontinuitäten getrennt sind, korrekt identifizieren kann [32]. Einer der Datensätze bestand ebenfalls hauptsächlich aus Genomen, die aus einzelnen Zellen des Ozean-Cyanobakteriums amplifiziert wurden Prochlorococcus. Solche Einzelzellgenome sind mit herkömmlichen Methoden in der Regel schwer zu vergleichen, da sie in zufälligen Bereichen unvollständig sind. PopCOGenT kann jedoch unvollständige Informationen verarbeiten, da es auf paarweisen Vergleichen beruht, solange eine ausreichende Überlappung zwischen den Paaren vorhanden ist. Was ausreichende Informationen ausmacht, ist noch wenig erforscht und Datensätze können auch leicht durch kontaminierende DNA verwechselt werden, die als Gentransferverbindungen zwischen nicht verwandten Genomen gewertet werden kann. Nichtsdestotrotz ist das Potenzial, Populationsgenomik mit Einzelzellgenomen durchzuführen und damit die Kultivierung zu umgehen, ein potenzieller Vorteil von PopCOGenT. Insgesamt legt die Beobachtung von Clustern und Subclustern zwischen eng verwandten Genomen nahe, dass Schätzungen des Genflusses allein verwendet werden können, um genetische und ökologische Einheiten zu hypothetisieren. Wie können wir jedoch sicher sein, dass die richtigen Grenzen zwischen diesen Einheiten identifiziert wurden?

5. Wie können wir testen, ob die vorhergesagte Bevölkerungsstruktur biologisch aussagekräftig ist?

Um diese Frage zu beantworten, kehren wir auf das Argument zurück, dass sich Anpassungen art- oder populationsspezifisch ausbreiten können, damit genetische und ökologische Einheiten deckungsgleich sind. Ein kritischer Test ist daher, ob es Eigenschaften gibt, die die am engsten verwandten Schwesterpopulationen unterscheiden. Beide Beispiele für die Artbildungsmodelle von V. cyclitrophicus und S. islandicus legen nahe, dass solche Eigenschaften identifiziert werden können [26,33]. Daher haben wir die Logik der Genflussanalyse auf die Identifizierung von Allelen und Genen, die populationsspezifisch gesweept wurden, erweitert [32] (Abbildung 4). Wir haben neu analysiert Ruminococcus gnavus Genome von gesunden Personen sowie Patienten mit Morbus Crohn und Colitis ulcerosa isoliert [34]. Die Anwendung von PoCOGenT zeigte ein verbundenes Netzwerk mit drei Subclustern, von denen zwei ausreichend beprobt wurden, um auf Anpassungen in Form von populationsspezifischen Allelen oder Genen zu testen [32]. Damit diese Anpassungen in letzter Zeit durch populationsspezifische Sweeps entstanden sind, sollten sie im Vergleich zur durchschnittlichen Nukleotiddiversität über die Genome der Populationen eine viel geringere Diversität in den sie codierenden Allelen oder Genen aufweisen.

Abbildung 4. Eine Hauptfunktion von Populationen und Arten, die durch Genfluss identifiziert werden, besteht darin, dass sie die grundlegenden Einheiten sind, durch die adaptive Merkmale ausstrahlen und sich ausbreiten. Wenn Allele von einer Population erworben werden (entweder durch de novo-Mutation oder horizontalen Erwerb von einem entfernten Verwandten), können diese Allele durch homologe Rekombination auf andere Mitglieder derselben Population übertragen werden. Wenn diese Merkmale außerdem einen nischenspezifischen Vorteil bieten, der die Fitness ihres Wirts erheblich erhöht, werden sie aufgrund der Selektion in dieser Population fixiert. Folglich ist ein Kennzeichen dieser Regionen beim Vergleich von Genomen eine lokal verringerte Nukleotiddiversität am ausgewählten Locus. Die Beobachtung dieser Regionen, die kürzlich selektiven Sweeps unterzogen wurden, ist eine nützliche Bestätigung dafür, dass die vorhergesagte Populationsstruktur biologisch bedeutsam ist. Tatsächlich verhindern randomisierte Bevölkerungsgruppierungen konsequent die Identifizierung von Sweep-Regionen.

Bei der Entwicklung einer Pipeline zur Identifizierung von Genomregionen mit deutlich reduzierter Nukleotiddiversität im Vergleich zum Bevölkerungsdurchschnitt (Abbildung 4) wurden mehrere Allele im Kerngenom und Gene im flexiblen Genom identifiziert, die beide Populationen differenzierten [32]. Diese Regionen waren alle nicht verknüpft und über das Genom verteilt, was darauf hindeutet, dass sie unabhängig voneinander entstanden sind. Viele dieser Allele und Gene konnten nicht annotiert werden, aber mehrere kodierte Oberflächenproteine, was darauf hindeutet, dass sie an irgendeiner Form der Kommunikation mit der Umwelt beteiligt sind. Diese Ergebnisse legen daher nahe, dass der Genfluss in einer populationsspezifischen Weise ausreichend beeinflusst ist, um Anpassungen an die Ausbreitung durch Rekombination zu ermöglichen, und dienen als starke Bestätigung dafür, dass korrekte ökologische Einheiten identifiziert wurden.

6. Wie kann sich die Populationsstruktur unter horizontalem Gentransfer entwickeln?

Wie lässt sich die Beobachtung klar abgegrenzter Cluster im gegenwärtigen Genfluss mit Beobachtungen eines horizontalen Gentransfers vereinbaren, der in einigen Fällen als „wuchernd“ bezeichnet wurde [35]? Es gibt zahlreiche Hinweise darauf, dass divergentes genetisches Material kontinuierlich in Bakterien- und Archaeengenome aufgenommen und eingebaut wird [25]. Das heißt, jede Zelle kann zu jedem Zeitpunkt Gene beherbergen, die kürzlich von einer beliebigen Anzahl anderer Mikroben erworben wurden. Obwohl ein solcher Einbau divergenter Gene die phylogenetische Clusterbildung von Isolaten beeinflusst, wird er das Genflussnetzwerk nicht ausreichend unterbrechen, um die Populationsstruktur zu maskieren, wenn der Genfluss innerhalb der Populationen viel höher ist als zwischen den Populationen, wie wir hier vorschlagen. Wenn der Genfluss außerdem ziemlich zufällig ist, wird er Stämme zwischen Populationen auf mehr oder weniger willkürliche Weise verbinden, so dass die Verbindungen ziemlich unstrukturiert sind. Tatsächlich können viele der erworbenen Gene ziemlich schnell verloren gehen, wenn sie, wie wahrscheinlich, zumindest geringfügig schädlich für das Empfängergenom sind [11]. Daher sind Populationen und möglicherweise Arten aufgrund des horizontalen Gentransfers tatsächlich unscharfe Einheiten, aber eine solche Unschärfe schließt ihre Definition als ökologische Einheiten nicht aus, wenn der Genfluss ausreichend auf die Rekombination innerhalb der Population ausgerichtet ist, um Anpassungen in einer bestimmten Weise zu ermöglichen.

Eine ständige Probenahme von genetischem Material aus unterschiedlichen Quellen kann in der Tat das Rohmaterial für die Anpassung liefern [11]. Obwohl allgemein anerkannt ist, dass evolutionäre Innovation durch horizontales Hinzufügen von Genen in das Genom entstehen kann, überraschte unsere jüngste Analyse der kürzlich differenzierten Ruminokokken oben diskutierten Populationen. Die überwiegende Mehrheit der adaptiven Allele, die wir identifizieren konnten, wurde horizontal aus unterschiedlichen Quellen erworben [32]. In ähnlicher Weise beruhte eine adaptive Strahlung, die eng verwandte Populationen von Ozeanbakterien für verschiedene physikalische Formen desselben Polysaccharids differenzierte, auf der Akquisitions- und Verlustdynamik von Genen [36]. Sogar mehrere Kopien derselben Polysaccharid-Lyasen entstanden eher durch Übertragung als durch Duplikation, einschließlich einiger Enzyme, die in bis zu sieben Kopien pro Genom vorhanden waren. Diese Beobachtungen stimmen mit früheren Analysen verschiedener Genome überein, die auch gezeigt haben, dass die Duplikation von Genen innerhalb desselben Genoms bei Mikroben selten ist [37]. Dies ist ein grundlegender Unterschied zu Eukaryoten, bei denen Duplikationen häufig vorkommen und evolutionäre Innovationen durch Mutationen innerhalb des Genoms entstehen [38].

7. Was sind potenzielle Vorbehalte bei Vorhersagen zur Bevölkerungsstruktur?

Wenn man bedenkt, dass die bisherigen Ergebnisse die Existenz überraschend stark isolierter Genfluss-Cluster belegen, gibt es mögliche Szenarien, in denen der horizontale Transfer die Populationsstruktur maskieren oder auslöschen kann? Dieser Aspekt ist noch wenig erforscht, aber einige Szenarien sind zumindest vorstellbar. Die Rekombinationsraten zwischen Mikroben sind sehr variabel [32,39], und wenn sie sehr niedrig sind, kann die Eingabe eines größeren Satzes von Genen aus einer anderen Population eine starke Verbindung mit einer Untergruppe von Genomen in der betrachteten Population herstellen, was die Analyse der Populationsstruktur verfälscht . Das wahrscheinlichste Szenario ist eine Population mit niedrigen Rekombinationsraten, die ein großes mobiles genetisches Element (MGE) erhält, das sowohl in der Spender- als auch in der Empfängerpopulation unter positiver Selektion steht und somit einen großen Teil der Genome verbindet. Ein solcher Fall könnte entstehen, wenn sich beispielsweise ein Antibiotikaresistenzplasmid unter starker Antibiotikaselektion durch ein Mikrobiom bewegt. Es empfiehlt sich daher, die Populationsstruktur mit und ohne MGEs zu testen oder eng verwandte Genome aus nicht antibiotisch behandelten Proben einzubeziehen. Darüber hinaus ist es möglich, dass zwei verwandte Populationen aufgrund einiger Umweltveränderungen plötzlich ähnliche Nischen besetzen. Eine solche Veränderung des gemeinsamen Auftretens kann einen erhöhten Genfluss ermöglichen, insbesondere wenn sie selektioniert wird, und zu einer Desspezifizierung führen, wie für einige postuliert wurde Campylobacter Spezies in tierischen Mikrobiomen [40]. Obwohl solche Situationen zu einer weniger klaren Populationsstruktur führen können als die in den von uns analysierten Modellsystemen identifizierten, sind die Genflussmuster dennoch biologisch relevant und können zu interessanten Hypothesen über die Umweltselektion führen.

Wir betonen, dass jede Vorhersage der Populationsstruktur an sich eine Hypothese darstellt und sorgfältig analysiert werden muss, da sie durch Stichproben und andere Faktoren beeinflusst werden kann. Wir glauben jedoch, dass, wenn Populationen Signaturen spezifischer Anpassungen tragen, wie z .

8. Was sind die wichtigsten Eigenschaften von Populationen, die durch den Genfluss definiert werden?

Auffallend an den hier identifizierten Populationen ist, dass sie eine relativ geringe Nukleotid-Diversität in ihrem Kerngenom, also in allen gemeinsamen Genen, aufweisen. Die Genome von Bakterien und Archaeen, die bisher analysiert wurden, sind in der Nukleotidsequenz innerhalb von Populationen typischerweise zu mehr als 98% ähnlich, was mit Daten übereinstimmt, die aus einem anderen Ansatz zur Vorhersage der Populationsstruktur gewonnen wurden [41]. Eine solch hohe Ähnlichkeit würde auch sicherstellen, dass die homologe Rekombination innerhalb von Populationen effizient bleibt, da ihre Geschwindigkeit exponentiell mit Sequenzdivergenz abnimmt [19,20]. Es sollte auch beachtet werden, dass diese niedrigen Werte ziemlich konsistent mit der Nukleotiddiversität innerhalb von Tier- und Pflanzenarten sind. Zum Beispiel unterscheiden sich menschliche Genome um höchstens 0,2% der Nukleotidstellen im Vergleich zum menschlichen Referenzgenom [42].

Nimmt man die durch den Genfluss definierten Populationen als lokale Vertreter von Arten, so sind sie wesentlich enger definiert als diejenigen, die sich aus dem Vergleich der durchschnittlichen Nukleotididentität (ANI) ergeben, der zur Grundlage einer populären Artdefinition geworden ist [43,44] . Wenn ANI über verschiedene Genomgruppen hinweg verglichen wird, wird typischerweise ein Minimum bei etwa 95 % ANI beobachtet, der vermuteten Artengrenze [44]. Diese Grenze entspricht jedoch wahrscheinlich nicht den Populations- oder Artengrenzen, und zwar aus ähnlichen Gründen wie oben bezüglich der mit einigen Rekombinationsmethoden geschätzten Populationsgrenzen. Sobald der Genfluss aufgrund der Speziation abnimmt, wird die genetische Ähnlichkeit zwischen den entstehenden Arten zerfallen, da die Rekombination nicht mehr als homogenisierende Kraft wirkt [25]. Dieser Zerfall ist jedoch ein langsamer Prozess, und es wird einige Zeit dauern, bis das Signal der genetischen Ähnlichkeit ein Minimum erreicht [32]. Daher kann die Populations- oder Artengrenze innerhalb des 95%-Ähnlichkeitswerts liegen, und vor allem können kürzlich spezieierte Populationen möglicherweise nicht erkannt werden, weil ihre Genome nicht genug divergiert sind, wodurch ökologische oder Krankheitsassoziationen maskiert werden, wie kürzlich gezeigt wurde [26,32,45] . Daher ist es trotz ihrer Einfachheit fraglich, ob ANI-Minima biologisch sinnvolle Artengrenzen definieren können.

Eine weitere wichtige Eigenschaft von Populationen, die durch Genfluss definiert sind, ist, dass das Pan-Genom von beträchtlicher Größe bleibt [46]. Das heißt, obwohl Genome über die gemeinsamen Gene hinweg sehr eng verwandt sind, weisen sie eine beträchtliche Anzahl von Genen auf, die nicht geteilt werden. Viele dieser Gene bleiben ohne Anmerkungen und ihre Rolle für die Populationsbiologie ist daher unklar. Es gibt jedoch immer mehr Beispiele, die zeigen, dass das flexible Genom zumindest teilweise einer negativen frequenzabhängigen Selektion unterliegen könnte, einer Form der Selektion, bei der die Fitness eines Genotyps mit zunehmender Häufigkeit in der Population abnimmt [ 46]. Dieser Effekt kann besonders stark für organismische Interaktionen wie die Produktion öffentlicher Güter und Prädation sein. Zum Beispiel wurde gezeigt, dass die Produktion von Siderophoren durch einige Genotypen von der Evolution von Betrügern begleitet wird, denen die Produktionsgene fehlen, die jedoch die Aufnahmegene behalten [47,48]. Darüber hinaus werden virale Rezeptoren und Abwehrgene häufig in das flexible Genom verbannt, was darauf hindeutet, dass sie innerhalb von Populationen nicht zu einer hohen Häufigkeit ansteigen können, um vor bestimmten Viren zu schützen, die die Population dezimieren [46,49,50]. Schließlich gibt es auch zunehmend Hinweise darauf, dass solche flexiblen Genomregionen durch homologe Rekombination der flankierenden Regionen bevorzugt innerhalb von Populationen geteilt werden können, sodass viele flexible Regionen nicht wiederholt de novo erworben werden, sondern Teil der Biologie einer Population sind [46].

9. Was sind die Auswirkungen auf die Messung der Diversität in der Umwelt?

Der Ansatz zur Hypothesenbildung der Populationsstruktur basierend auf dem Genfluss, gefolgt von der Überprüfung der Hypothese durch die Identifizierung von populationsspezifischen Sweeps, ermöglicht einen umgekehrten Ökologie-Ansatz, der ökologische Einheiten allein aus genomischen Informationen vorhersagt [32,51]. Auf diese Weise kann der Ansatz einen unvoreingenommenen Rahmen für die Identifizierung wichtiger Variablen bieten, die die Diversifizierung in mikrobiellen Populationen vorantreiben, indem Allele und Gene unter starker Selektion hervorgehoben werden. Dieser Ansatz bietet somit eine einzigartige Linse, um mikrobielle Nischenräume abzugrenzen, die nicht in der Lage sind, genau zu messen, wo Belastungen entlang von Umgebungsgradienten fallen. Natürlich hängen direkte Einblicke in die ökologische Differenzierung basierend auf allen genomischen Ansätzen stark von der Genauigkeit der Genannotationen ab, die derzeit bestenfalls lückenhaft ist. Ein umgekehrter Ökologie-Ansatz kann aber auch helfen, Hypothesen für relevante Gene zu formulieren, die durch andere Ansätze wie Molekulargenetik oder Strukturanalyse weiter charakterisiert werden müssen, und kann so helfen, einen strukturierteren Ansatz zur Lösung des allgegenwärtigen Annotationsproblems aufzubauen.

Ausgewählte Loci sind besonders nützlich, um die Häufigkeit von Populationen in Umweltproben zu beurteilen, da ihre Diversität innerhalb der Population außergewöhnlich gering ist, während die Diversität zwischen Populationen viel höher ist, da die bisherigen Beweise darauf hindeuten, dass die meisten Loci durch horizontalen Gentransfer aus divergenten Quellen entstanden sind [ 32]. Diese Eigenschaften bedeuten, dass Sweep-Loci mit sehr hoher Genauigkeit in Umweltproben nachgewiesen werden können, und ihre Prävalenz im gesamten Genom rekombinogener Organismen erhöht die statistische Aussagekraft bei der Bewertung der Häufigkeit von Populationen in komplexen Gemeinschaften. Dementsprechend bieten Shotgun-Metagenome von DNA, die aus mikrobiellen Gemeinschaften extrahiert wurde, einen bequemen Weg, um die Häufigkeit mehrerer Loci in mehreren Proben quantitativ zu bestimmen. Dieser Ansatz ist jedoch von begrenztem Nutzen, wenn Zielpopulationen in ihrer Umgebung selten sind. Sweep-Loci könnten auch Ziele für hochauflösende Assays wie die digitale Polymerase-Kettenreaktion sein, die es Forschern ermöglicht, die Häufigkeit von Populationen in verschiedenen Proben schnell zu messen, wenn eine höhere Empfindlichkeit erforderlich ist. Diese Regionen könnten auch Ziele für Fluoreszenz sein vor Ort Hybridisierungssonden, um direkt zu visualisieren, wie eng verwandte Populationen unterschiedlich in der Umwelt verteilt sind. Wir stellen uns vor, dass dies eine gezieltere Prüfung von Umweltassoziationen im Feinbereich ermöglichen wird, die weit über die Effizienz herkömmlicher zukunftsökologischer Ansätze hinausgeht, die oft darauf beruhen, mikrobielle Gruppen auf grobe Umweltvariablen abzubilden und dann Genomik zu verwenden, um potenzielle Unterschiede zu finden [12].

Wie vergleichen sich Populationen, die durch Genfluss definiert werden, mit der traditionellen Messung der mikrobiellen Diversität durch 16S rRNA-Gensequenzierung, die häufig verwendet wird, um mikrobielle Populationen auf Umweltproben zu kartieren? Um diese Frage zu beantworten, verwenden wir ein Beispiel aus unserer eigenen Arbeit, das wir skizziert haben Vibrionaceae Bakterien in koexistierende Populationen im Meerwasser. Typischerweise finden wir etwa 20 koexistierende Populationen, die ursprünglich durch die kleinräumige Umweltprobenahme von Isolaten, die Sequenzierung von Proteinmarkergenen und die Anwendung mathematischer Modelle zur Verknüpfung der genetischen Vielfalt mit der Umweltstruktur definiert wurden [52–55]. Diese Populationsvorhersagen wurden kürzlich durch die viel einfachere Genflussanalyse [32] bestätigt, die einen direkten Vergleich eines der Proteinmarkergene ermöglicht (hsp60) mit verschiedenen 16S rRNA-Genfragmenten, die verwendet werden, um operationelle taxonomische Einheiten (OTUs) für ihr Potenzial zur Unterscheidung ökologischer Einheiten in Proben zu definieren.

Dieser Vergleich zeigt eine beunruhigend niedrige Auflösung der 16S-rRNA-Gene im Vergleich zu Populationen, die durch den Genfluss definiert sind (Abbildung 5). Insbesondere 16S-rRNA-Tags, die typischerweise bei der Hochdurchsatz-Sequenzierung verwendet werden, haben für ökologische Populationen im Wesentlichen keine Auflösung. Für das Volllängen-Gen ist dies nur geringfügig besser, was zeigt, dass die Speziation die Auflösung der 16S-rRNA-Gene bei weitem übertrifft. Dies bedeutet, dass das Gen nur sehr begrenzte Informationen über die ökologische Dynamik von Populationen in Umweltproben hat, und eine einzigartige Sequenz kann viele ökologisch differenzierte Populationen maskieren, ein Effekt, der offensichtlich noch schlimmer wird, je breiter OTUs in Bezug auf Sequenzdivergenz definiert werden.

Abbildung 5. 16S rRNA-Gensequenzcluster können 0–7 von 14 ökologisch unterschiedlichen unterscheiden Vibrionaceae Populationen abhängig von Sequenzlänge und Clustering-Cut-off, während Cluster im hsp60 Markergen kann alle oder fast alle unterscheiden. Die Phylogenie basiert auf 52 verketteten ribosomalen Proteinen. Ein schattiertes Kästchen zeigt an, dass ein Taxon mit der gegebenen Genlänge und Clustering-Methode eindeutig unterschieden werden kann, während ein weißes Kästchen angibt, dass ein Taxon mit mindestens einem anderen Taxon in mindestens einem Gencluster verschmolzen ist. Die Beschreibungen der Habitatverteilung werden aus einer quantitativen Analyse der Populationsverteilungen über drei verschiedene Stichproben von Preheim abgeleitet et al. [54]. Taxa ohne Habitatbeschreibungen wurden wegen begrenzter Stichproben von dieser Analyse ausgeschlossen. (Online-Version in Farbe.)

Wenn man bedenkt, dass die Vorhersage der Populationsstruktur durch Genfluss Isolate oder Einzelzellgenome erfordert, gibt es einen Proxy, der für die Identifizierung von Arten und Populationen in Metagenomen entwickelt werden kann? Potentiell ja. Ein interessantes Merkmal der von uns identifizierten Populationen ist, dass sie durch nahezu identische ribosomale Proteinsequenzen ziemlich gut angenähert werden [32,45]. Obwohl selbst bei diesen eine Struktur aufgrund der schnellen Artbildung maskiert werden kann, können diese Gene dennoch als viel genauerer Proxy für die Populationsstruktur dienen. Ob diese Beobachtung für viele Taxa allgemein gültig ist, muss in größeren Datensätzen untersucht werden [56], aber wichtig ist, dass identische ribosomale Proteine ​​aus metagenomischen Datensätzen extrahiert und ihre Dynamik somit leicht analysiert werden kann [57]. Wir empfehlen daher, auf ribosomale Proteine ​​abzuzielen, wenn Arten und Populationsdynamiken in metagenomischen Proben von Interesse sind.

10. Abschließende Bemerkungen

Die Identifizierung von Populationen als Genfluss-Cluster, die auch ökologische Einheiten sind, hat große Auswirkungen auf die Mikrobiologie, die lange unter der unscharfen Definition von Populationen gelitten hat [2]. Wir schlagen vor, dass der aktuelle Genfluss, der aus Sammlungen eng verwandter Genome gemessen wurde, Populationsgrenzen selbst in relativ frühen Stadien der Differenzierung klar abgrenzen kann. Diese Populationen sind durch Allele und Gene gekennzeichnet, die in letzter Zeit zur Fixierung übergegangen sind, was darauf hindeutet, dass eine positive Selektion Anpassungen auf spezifische und exklusive Weise verbreiten kann. Die Identifizierung solcher genspezifischer Sweeps schafft sowohl Vertrauen in die Populationsgrenzen als auch Hypothesen über jüngste Anpassungen, die Populationen voneinander unterscheiden. Daher können diese Populationen als adaptiv optimierte Einheiten von Bakterien und Archaeen betrachtet werden, die der Sichtweise von Populationen in der Makroökologie und Evolution entsprechen. Solche Populationen sind dann von Bedeutung, wenn wir die Gemeinschaftsökologie untersuchen wollen, da sie eine genauere Identifizierung von Assoziationen mit biotischen und abiotischen Faktoren ermöglichen.

Angesichts der Tatsache, dass viele der hier definierten Populationen einen sehr hohen Grad an genetischer Isolation aufweisen, ist es schließlich verlockend, sich auf das biologische Artenkonzept zu berufen, das postuliert, dass Arten reproduktiv isolierte Organismengruppen sind [58]. Wir betonen jedoch, dass die hier vorgestellten Analysen für Bakterien und Archaeen in erster Linie Organismen berücksichtigten, die entweder koexistieren oder an getrennten Orten leben, die durch hohe Migration verbunden sind. Wie wir hier skizziert haben, kann die genetische Isolierung solcher Populationen durch Selektion erzwungen werden. Ein Merkmal vieler Arten ist jedoch, dass sie aus geografisch getrennten Populationen bestehen, die durch einen unterschiedlichen Genfluss verbunden sind. Wie eine solche Struktur die Abgrenzung von Clustern beeinflusst, bleibt eine offene Frage, aber dies wird wichtig sein, um ein biologisch sinnvolles Artenkonzept für Bakterien und Archaeen zu verfolgen.


Schlussfolgerungen

Zusammenfassend hebt diese Arbeit die Herausforderungen hervor, denen wir bei der Diagnose ungeklärter SCD gegenüberstehen. Wir haben BrS als Paradigma des ungeklärten plötzlichen Todes im strukturell normalen Herzen verwendet. Wir zeigen, dass die Identifizierung eines genetischen Defekts beim Opfer nicht gleichbedeutend ist mit einer eindeutigen Diagnose. Die identifizierten genetischen Defekte haben eine potenzielle Diagnose von BrS, LQTS, CPVT und ARVC geliefert. Die massiv parallele Sequenzierung bestätigt, dass es nicht immer möglich ist, den Phänotyp aus genetischen Daten zu bestimmen. Die Einbeziehung von Funktionsanalysen könnte für die Zuweisung einer eindeutigen Diagnose entscheidend sein, dies ist jedoch bei der derzeitigen Variationsrate nicht möglich. Daher hat die Einführung der NGS-Technologie im Vergleich zur Vor-NGS-Ära zu mehr offenen Fragen geführt. Dies war eine erwartete Herausforderung, die bei diesen Ansätzen immer dann auftritt, wenn große Listen von Genen abgefragt werden. Der Sequenzierungsprozess dieser Gene liefert riesige Datenmengen, die gespeichert, analysiert und biologisch und klinisch interpretiert werden mussten. Die genetische Diagnostik mittels NGS ist nach wie vor eine Herausforderung, da ihre Anwendung auf die klinische Diagnostik zunächst internationale Anstrengungen erfordert, um die Bedeutung der seltenen entdeckten genetischen Variationen besser zu verstehen.Eines der Hauptziele der vorliegenden Arbeit ist die Bewertung der Anwendbarkeit von NGS auf die klinische (und forensische) Diagnose. Nach der Analyse unserer Ergebnisse erscheint dieses Ziel schwer zu beurteilen und nur aus einer bekannten Perspektive möglich. Doch selbst mit der Verfügbarkeit von Angehörigen zur Erweiterung der Segregationsstudie ist die genetische Diagnose noch schwer abzuschätzen. Der Nachweis neuartiger, vermutlich krankheitsverursachender, seltener genetischer Varianten in mehreren Genen, die zuvor nicht mit BrS in Verbindung gebracht wurden, ist eine logische Konsequenz der Studie. Die Assoziation dieser Gene mit der Krankheit muss durch funktionelle Studien weiter untersucht und in verschiedenen Kohorten repliziert werden, bevor sie als genetisch schlüssig für die klinische Diagnose angesehen werden kann. Mehrere Gründe sprechen dafür, dass die oben beschriebenen Gene für Forschungszwecke als Kandidatengene angesehen werden sollten, um die zugrunde liegenden genetischen Mechanismen besser zu verstehen. Zu diesen Gründen gehören die Rolle der von diesen Genen kodierten Proteine, die geringe Häufigkeit oder das Fehlen der genetischen Variationen in der allgemeinen Bevölkerung, ihre potenzielle Pathogenität bewertet in silico und wenn möglich mit durchgeführter Segregationsanalyse. Diese Tatsachen legen eine pathogene Rolle der nachgewiesenen genetischen Variation nahe. Sie werden jedoch nach Anwendung des Algorithmus als VUS betrachtet, hauptsächlich aufgrund des Fehlens von funktionellen Studien und Genotyp-Phänotyp-Analysen in verschiedenen bekannten Kohorten. Es ist üblich, dass seltene Varianten als VUS verbleiben. Diese Beobachtung stimmt mit der Charakteristik der beobachteten Pathologien mit unvollständiger Penetranz und variabler Expressivität überein. Um die pathogene Rolle der nachgewiesenen Variationen zu ermitteln, sind Genotyp-Phänotyp-Korrelationen in anderen bekannten Kohorten im Rahmen internationaler Bemühungen erforderlich, das Verständnis des BrS zugrunde liegenden Mutationsspektrums weiter zu verbessern. In diese Richtung wurden GWAS-Analysen (ja existiert) von internationalen Konsortien einschließlich mehrerer BrS-Kohorten veröffentlicht und werden auch derzeit entwickelt. Diese Ergebnisse würden zur Klärung führen und neue zu bewertende Forschungsperspektiven eröffnen,

Der technologische Fortschritt war schneller als unsere Fähigkeit, ihn im klinischen Bereich anzuwenden. Die genetische Architektur in Bezug auf beteiligte Gene, seltene und häufige genetische Varianten und modifizierende Faktoren schafft ein komplexes Entscheidungsnetzwerk, das nur durch sorgfältige klinische und genetische Interpretation im familiären Kontext entwirrt werden kann. Dies verstärkt die Notwendigkeit einer genauen und gründlichen familiären Untersuchung, aber auch die Bedeutung der Behandlung der Daten durch Experten auf diesem Gebiet, um den Wert, aber auch die Grenzen dieser NGS-Tests zu verstehen.


Evolution simulieren, um einen versteckten genetischen Schalter zu verstehen

Mithilfe von Computersimulationen, die auf vernünftigen Annahmen basieren und unter sorgfältiger Kontrolle durchgeführt werden, können computergestützte Biowissenschaftler reale biologische Bedingungen nachahmen. Ausgehend von der ursprünglichen Gründungspopulation (alte Phase) können sie die Population über mehrere tausend Generationen hinweg entwickeln, um eine Zwischenphase zu entwickeln, und diese Generation dann weitere mehrere tausend Generationen entwickeln, um eine abgeleitete Phase zu entwickeln. Bildnachweis: © 2021 KAUST Anastasia Serin

Einige Organismen entwickeln einen internen Schalter, der für Generationen verborgen bleiben kann, bis Stress ihn einschaltet.

Computersimulationen von Zellen, die sich über Zehntausende von Generationen entwickeln, zeigen, warum manche Organismen einen ausgedienten Schaltmechanismus beibehalten, der sich unter starkem Stress einschaltet und einige ihrer Eigenschaften verändert. Die Aufrechterhaltung dieses „versteckten“ Schalters ist ein Mittel für Organismen, um unter normalen Bedingungen ein hohes Maß an Genexpressionsstabilität aufrechtzuerhalten.

Tomatenschwärmerlarven sind in wärmeren Regionen grün, was die Tarnung erleichtert, aber bei kühleren Temperaturen schwarz, damit sie mehr Sonnenlicht absorbieren können. Dieses Phänomen, das bei einigen Organismen vorkommt, wird als phänotypische Umschaltung bezeichnet. Normalerweise verborgen, wird diese Umschaltung als Reaktion auf gefährliche genetische oder umweltbedingte Veränderungen aktiviert.

Wissenschaftler haben diesen Prozess typischerweise untersucht, indem sie die Veränderungen untersuchten, die Organismen unter verschiedenen Umständen über viele Generationen hinweg durchmachen. Vor einigen Jahren züchtete ein Team beispielsweise Generationen von Tabakschwärmerlarven, um Farbveränderungen ähnlich denen ihrer Verwandten der Tomatenschwärmer zu beobachten und zu induzieren.

„Computersimulationen, die auf vernünftigen Annahmen aufbauen und unter sorgfältiger Kontrolle durchgeführt werden, sind ein sehr leistungsfähiges Werkzeug, um die reale Situation nachzuahmen“, sagt Xin Gao, Computer-Biowissenschaftler von KAUST. „Dies hilft Wissenschaftlern, Prinzipien zu beobachten und zu verstehen, die sonst durch Nasslaborexperimente nur sehr schwer oder gar nicht zu beobachten sind.“

Gao und der KAUST-Forscher Hiroyuki Kuwahara entwarfen eine Computersimulation der Evolution von 1.000 asexuellen Mikroorganismen. Jeder Organismus erhielt ein Genkreislaufmodell zur Regulation der Expression eines spezifischen Proteins X.

Die Simulation entwickelte die Bevölkerung über 90.000 Generationen. Die ursprüngliche Gründungspopulation hatte identische, nicht schaltende Genschaltkreise und entwickelte sich unter stabilen Bedingungen über 30.000 Generationen, die zusammenfassend als antike Population bezeichnet werden. Die nächsten 30.000 Generationen, die als Zwischenpopulation bezeichnet werden, waren schwankenden Umgebungen ausgesetzt, die alle 20 Generationen wechselten. Die letzten 30.000 Generationen, die abgeleitete Population, waren einer stabilen Umgebung ausgesetzt.

Die Individuen in den alten und abgeleiteten Populationen, die sich in stabilen Umgebungen entwickelten, hatten beide Genexpressionsniveaus, die auf Stabilität optimiert waren. Aber sie waren anders: Die Stabilität der alten Population beinhaltete keinen phänotypischen Wechsel, während dies bei der abgeleiteten Population der Fall war. Der Unterschied, erklärt Kuwahara, rühre von der Zwischenpopulation her, bei der ein Wechsel bevorzugt wurde, um den schwankenden Bedingungen gerecht zu werden.

Die Simulationen deuten darauf hin, dass Populationen von Organismen ihre Schaltmaschinerie über einen langen Zeitraum der Umweltstabilität aufrechterhalten, indem sie allmählich niederschwellige Schalter entwickeln, die unter schwankenden Umständen leicht zu hochschwelligen Schaltern wechseln, wenn die Umgebung stabiler ist.

Dies sei einfacher, sagt Kuwahara, als durch kleine Mutationsverschiebungen in einen nicht schaltenden Zustand zurückzukehren. „Stattdessen haben wir eine Art ‚versteckter‘ phänotypischer Wechsel, der wie ein evolutionärer Kondensator wirkt, genetische Variationen speichert und bei erheblichen Störungen alternative Phänotypen freisetzt“, sagt Kuwahara.

Das Team plant als nächstes, Computersimulationen zu verwenden, um komplexere biologische Systeme zu untersuchen und gleichzeitig mit Forschern zusammenzuarbeiten, die Nasslaborexperimente durchführen. Ihr Ziel ist es, theoretische Rahmen zu entwickeln, die experimentell validiert werden können.

Referenz: “Stabile Aufrechterhaltung versteckter Schalter als Strategie zur Erhöhung der Genexpressionsstabilität” von Hiroyuki Kuwahara und Xin Gao, 14. Januar 2021, Naturinformatik.
DOI: 10.1038/s43588-020-00001-y


Methoden

Ethik-Erklärung

Klinische Proben wurden nach Protokollen gesammelt, die von den Ethikkommissionen des College of Medicine in Blantyre, Malawi, und der University of Maryland, Baltimore, genehmigt wurden. Die schriftliche Einverständniserklärung wurde von den Studienteilnehmern oder ihren Erziehungsberechtigten abgegeben.

Studiendesign und Muster

Parasitenisolate wurden von Teilnehmern einer longitudinalen Kohortenstudie gesammelt, die im Distrikt Chikhwawa im Süden Malawis durchgeführt wurde. Details zu den Teilnehmern und Studienabläufen wurden zuvor von Buchwald beschrieben et al [29]. Kurz gesagt, 120 Kinder und Erwachsene, die sich zwischen Juni 2014 und März 2015 mit unkomplizierter Malaria an das Mfera Health Center gemeldet hatten, wurden über einen Zeitraum von zwei Jahren monatlich beobachtet. Bei jedem monatlichen Besuch und bei allen außerplanmäßigen Besuchen, bei denen sich Personen mit Malariasymptomen beim Gesundheitszentrum gemeldet hatten, wurden Blutproben entnommen. Bei jedem Besuch wurde eine Parasitämie sowohl durch Mikroskopie als auch durch PCR diagnostiziert. Die in dieser Studie analysierten Daten wurden aus roten Blutkörperchen-Pellets gewonnen, die bei symptomatischen, unkomplizierten Malariainfektionen gesammelt wurden, die während der passiven Nachuntersuchung identifiziert wurden. Die mikroskopisch bestimmte mittlere Parasitämie der untersuchten Infektionen betrug 21.960 Parasiten/μl und reichte von 0 Parasiten/μl (aber positiv durch einen diagnostischen Schnelltest) bis 241.260 Parasiten/μl. Alle Proben wurden als positiv für bestätigt P. falciparum durch PCR. Um sicherzustellen, dass nur unabhängige Infektionen in die Analyse einbezogen wurden, wurden Infektionen innerhalb einer Person, die um <14 Tage getrennt war, ausgeschlossen. DNA aus roten Blutkörperchen-Pellets wurde nach der Methode von Zainabadi . extrahiert et al [68]. Die extrahierte DNA wurde mit einem optimierten selektiven Gesamtgenom-Amplifikationsansatz, der von Shah . beschrieben wurde, für Parasiten-DNA angereichert et al [65].

Sequenzierung des gesamten Genoms

Genomische DNA-Bibliotheken wurden zur Sequenzierung unter Verwendung des KAPA-Bibliotheksvorbereitungskits (Kapa Biosystems, Woburn, MA) konstruiert. DNA (≥ 200 ng) wurde mit dem Covaris E210 zu fragmentiert

200 bp. Bibliotheken wurden unter Verwendung einer modifizierten Version des Herstellerprotokolls erstellt. Die DNA wurde zwischen enzymatischen Reaktionen gereinigt und die Auswahl der Bibliotheksgröße wurde mit AMPure XT-Kügelchen durchgeführt. Bibliotheken wurden auf Konzentration und Fragmentgröße unter Verwendung des DNA High Sensitivity Assay auf dem LabChip GX (Perkin Elmer, Waltham, MA) untersucht. Die Bibliothekskonzentrationen wurden auch durch qPCR unter Verwendung des KAPA Library Quantification Kit bewertet. Bibliotheken wurden gepoolt und anschließend auf einem Illumina HiSeq 4000 (Illumina, San Diego, CA) sequenziert, um 150 bp Paired-End-Reads zu erzeugen.

Read Mapping und SNP Calling

Sequenzierungsdaten wurden analysiert, indem rohe Fastq-Dateien mit Bowtie2 auf das 3D7-Referenzgenom abgebildet wurden [69]. Binary Alignment Map (BAM)-Dateien wurden gemäß dem GATK Best Practices-Workflow verarbeitet, um analysebereite Reads zu erhalten [70,71]. Bedtools [72] wurde verwendet, um Abdeckungs- und Tiefenschätzungen aus den verarbeiteten Lesevorgängen zu generieren, und der GATK Best Practices-Workflow wurde für Variantenaufrufe befolgt [70,71]. Haplotype Caller wurde verwendet, um Dateien im genomischen Variant-Call-Format (GVCF) für jede Probe zu erstellen, und es wurde ein gemeinsames SNP-Calling durchgeführt (GATK v3.7). Varianten wurden entfernt, wenn sie die folgenden Filterkriterien erfüllten: Variantenkonfidenz/Qualität nach Tiefe (QD) < 2,0, Strang-Bias (FS) > 60,0, quadratischer Mittelwert der Kartierungsqualität (MQ) < 40,0, Rangsumme der Kartierungsqualität (MQRankSum .) ) < -12,5, Positions-Rangsumme lesen (ReadPosRankSum) < -8,0, Qualität (QUAL) < 50. Varianten-Sites mit >20% fehlenden Genotypen und Proben mit >30% fehlenden Daten wurden zusätzlich mit vcftools entfernt. Varianten wurden auch entfernt, wenn das Nebenallel in mindestens zwei Proben nicht vorhanden war. Für die weitere Analyse wurde nur das Kerngenom verwendet, das zuvor durch Ausschluss der stark variablen telomeren und zentromeren Regionen des Genoms definiert wurde [73]. Der Mediananteil des Genoms, der von ≥ 20 Reads abgedeckt wurde, betrug 88,9 % [65]. Nach Anwendung von Qualitätskontrollfiltern wurden 55.970 SNPs im Kerngenom aufgerufen, darunter 22.177 nicht-synonyme SNPs, mit durchschnittlich 11,6 genannten Varianten pro Gen.

Definition des Immunstatus

Der Grad der Immunität gegen klinische Malaria wurde anhand des Anteils der symptomatischen Infektionen an allen definiert P. falciparum Infektionen, die jeder Studienteilnehmer im Verlauf der zweijährigen Studie erlitten hatte. Um die Exposition zu berücksichtigen, wurden Personen mit weniger als fünf Gesamtinfektionen, einschließlich symptomatischer und asymptomatischer Infektionen, von der Analyse ausgeschlossen. Der mittlere Anteil symptomatischer Infektionen wurde als Cutoff verwendet, um Personen in Gruppen mit höherer und niedrigerer Immunität einzuteilen. Die begrenzte Stichprobengröße unserer Studie erlaubte es uns nicht, den Immunstatus als ordinale Variable zu kategorisieren.

Komplexität der Infektion und genetische Differenzierung

Nur eine Infektion von jedem Individuum wurde in Vergleiche zwischen Gruppen mit hoher und niedriger Immunität eingeschlossen. Infektionen wurden basierend auf der Nähe zum Median der Verteilung der Probenahmedaten ausgewählt, um die zeitliche Variabilität zu reduzieren. DEploid-IBD [39] wurde verwendet, um den Anteil jedes Klons innerhalb einer Infektion abzuschätzen. Infektionen ohne einen vorherrschenden Klon (d. h. bei denen der Mehrheitsklon eine Häufigkeit <60% innerhalb der Infektion aufwies) wurden als komplexe Infektionen definiert und von der Downstream-Analyse ausgeschlossen. Bei den verbleibenden Proben wurde das Hauptallel an heterozygoten Positionen genannt, wenn das Allel von ≥ 70 % der Reads unterstützt wurde, andernfalls wurde der Genotyp als fehlend kodiert. Ein Wilcoxon-Mann-Whitney-Test wurde verwendet, um Unterschiede in der Häufigkeit des Mehrheitsklons bei Infektionen der beiden Immunitätsgruppen zu beurteilen.

Vcftools [74] wurde verwendet, um Weir und Cockerham zu schätzen FNS in variablen, nicht-synonymen, bi-allelischen Stellen. Die Signifikanz wurde unter Verwendung von 10.000 Permutationen bestimmt, wobei die beobachtete Population ersatzlos neu abgetastet wurde. Um die Auswirkung der Durchführung der Analyse basierend auf dem vorherrschenden Allel an biallelischen Stellen zu bestimmen, führten wir die Analyse auch unter Verwendung multiallelischer Stellen und aller Allele innerhalb einer Infektion durch. Obwohl FNS die Werte in der Analyse mit mehreren Allelen im Allgemeinen höher waren als bei der Analyse mit einem einzelnen Hauptallel, wurden Stellen, die in der Analyse basierend auf dem Hauptallel signifikant differenziert wurden, auch in der Analyse signifikant differenziert, in der auch Nebenallele eingeschlossen wurden. Die Nukleotiddiversität an signifikant differenzierten Stellen wurde mit vcftools abgeschätzt [74]. PlasmoDB (v44) [22] wurde verwendet, um Gene zu identifizieren, die differenzierte SNPs enthalten.

Bei allen polyklonalen Infektionen wurden die Major- und Minor-Klone (definiert durch die Klonhäufigkeit von DEploid-IBD [39]) verglichen, vorausgesetzt, die Klonhäufigkeit betrug weniger als 80 % und mehr als 10 % (n = 23). An jeder nicht-synonymen Stelle wurde der Anteil der Proben mit fehlgepaarten Allelen von Haupt- und Nebenklonen geschätzt. Der Anteil der Fehlpaarungen wurde dann zwischen signifikant differenzierten Stellen und allen verbleibenden variablen Stellen aus dem Genom verglichen. Die P-Wert wurde durch Durchführung eines Wilcoxon-Mann-Whitney-Tests geschätzt, um festzustellen, ob es einen signifikanten Unterschied in den Fehlpaarungen zwischen Klonen an verschiedenen Standorten gibt gegen verbleibenden genomweiten variablen Stellen.

Gepaarte Infektionsanalyse

In den Vergleich von Infektionen, die innerhalb desselben Wirts auftraten, mit Infektionen, die bei verschiedenen Wirten auftraten, wurden Individuen mit Sequenzdaten des gesamten Genoms des Parasiten von mindestens zwei symptomatischen Infektionen, die im Abstand von mindestens 14 Tagen auftraten, eingeschlossen. Im Gegensatz zu Analysen der genetischen Differenzierung wurden multiallelische Stellen in die Analyse gepaarter Infektionen einbezogen. Die „innerhalb“-Gruppe umfasste alle Parasitenpaare, die zu verschiedenen Zeitpunkten von demselben Individuum gesammelt wurden. Die „Zwischengruppe“ umfasste alle Parasitenpaare verschiedener Individuen. Insgesamt wurden 116 Proben in diese Analyse eingeschlossen. Die innere Gruppe enthielt 124 Probenpaare und die Zwischengruppe enthielt 6546 Probenpaare. Für alle Paare wurde der Allelzustand an jeder Stelle verglichen und der Anteil von Paaren mit nicht übereinstimmenden Allelzuständen wurde nach Stelle geschätzt (in Fig. 3 dargestellt). Der Unterschied zwischen der Gruppe innerhalb der Gruppe und der Gruppe zwischen den Gruppen wurde durch Subtrahieren des Anteils von Paaren mit nicht übereinstimmenden Allelzuständen für jede Stelle berechnet. Die P-Der Wert wurde geschätzt, indem ein einseitiger z-Test durchgeführt wurde, wobei der Unterschied im Anteil der nicht übereinstimmenden Allele zwischen den beiden Gruppen verwendet wurde. PlasmoDB [22] wurde verwendet, um Gene zu identifizieren, die die SNPs von Interesse enthalten.

Globale Vielfalt in clag8

Die Daten der Version 5.1 des MalariaGEN Pf3K-Projekts [52] wurden verwendet, um die globale Diversität dieser in dieser Studie identifizierten Gene abzuschätzen. Der Pf3K-Datensatz enthält Sequenzierungsdaten des gesamten Genoms aus 2.512 Proben, die an mehreren Standorten in Asien und Afrika gesammelt wurden. In die Analyse wurden auch Daten [53,54] von 156 weiteren Isolaten aus Papua-Neuguinea einbezogen. VaxPack (https://github.com/BarryLab01/vaxpack) wurde für die globale genetische Analyse der Population verwendet. Für Variantenaufrufe wurde GATKv4.0 verwendet. Proben mit mehrdeutigen Basen wurden entfernt. Singleton-SNPs wurden zurück in Referenz umgewandelt, um falsch positive Varianten zu verhindern. Nukleotiddiversität und Tajimas D wurden für alle polymorphen Stellen separat für jedes Land mit einer Stichprobengröße von mehr als 50 berechnet. Die Templeton, Crandall, and Sing (TCS) [75]-Methode auf PopArt [76] wurde verwendet, um das Haplotyp-Netzwerk unter Verwendung von . zu konstruieren nicht-synonyme SNPs. Die Proteinstörungsregion und B-Zell-Epitopregionen wurden mit PlasmoSIP vorhergesagt [62]. Die Haplotyphäufigkeiten der C-terminalen Region in malawischen Isolaten aus verschiedenen Immunitätsgruppen wurden für nicht-synonyme Stellen mit DnaSP v6 geschätzt [77].


Einführung

Trotz der Flut an gewonnenen Datensätzen mit Hochdurchsatz-Gen-Störungs-Screening (HT-GPS) bleibt die Funktion einer Vielzahl menschlicher Gene kaum verstanden (Dey et al, 2015). Darüber hinaus beschränkt sich die Genontologie (GO), die umfassendste und strukturierteste Annotation von Genfunktionen, weitgehend auf zelltyp- und kontextunabhängige Genfunktionen (Huntley et al, 2015). Die Genfunktion ist jedoch stark kontextabhängig, selbst bei einzelligen Organismen (Radivojac et al, 2013 Liberale et al, 2014). Daher besteht ein dringender Bedarf an neuen Methoden, die eine datengesteuerte und kontextabhängige Entdeckung funktioneller Gene basierend auf komplexeren Phänotypen mehrzelliger Organismen ermöglichen.

Obwohl sich HT-GPS als leistungsfähige Methode zur Entdeckung neuer Genfunktionen erwiesen hat, blieb die Analyse dieser Datensätze eine anspruchsvolle Aufgabe. Dies liegt an der Komplexität der Phänotypen, zu der die Störung eines einzelnen Gens führen kann, da ein Gen an verschiedenen Funktionen auf unterschiedlichen Skalen beteiligt sein kann. Diese Funktionen hängen von der Lokalisierung des Genprodukts in der Zelle (z. B. Zytoplasma versus Nukleus für Transkriptionsfaktoren), dem Zustand des Zellzyklus (z. B. G1-, G2- oder S-Phase), Zelltyp, Zell-Zell- und Zell-Mikroumgebung-Interaktionen und Behandlungsbedingungen ab (Sero et al, 2015). Vorhandene Analysepipelines, die auf unüberwachtem Clustering basieren, berücksichtigen diese Faktoren im Allgemeinen nicht. Folglich sind die resultierenden phänotypischen Cluster schwer zu interpretieren, da sie aus verschiedenen Subphänotypen (Yin et al, 2013 Sailem et al, 2014). Diese Herausforderungen werden insbesondere bei bildbasierten Bildschirmen oft dadurch umgangen, dass nur ein kleiner Bruchteil der in HT-GPS-Datensätzen enthaltenen Informationen analysiert wird (Singh et al, 2014 ), die ihr Potenzial stark ausschöpfen.

Überwachtes maschinelles Lernen wurde in vielen HT-GPS-Studien erfolgreich angewendet (Held et al, 2010 Neumann et al, 2010 Shariff et al, 2010 Sullivan et al, 2018 Eraslan et al, 2019). Eine attraktive Lösung, um dem Mangel an phänotypischen Annotationen zu begegnen, ist die Nutzung des vorhandenen biologischen Wissens zum Aufbau intelligenter Systeme, die funktionsrelevante Merkmale und Phänotypen identifizieren können.Dieser Ansatz wird nur schwach überwacht, da vorhandenes Wissen nur verrauschte Labels liefern kann (Dutta et al, 2020). Ansätze, die vorhandene funktionale Annotationen nutzen, wurden erfolgreich auf die Inferenz der Aktivität von Signalwegen angewendet (Schubert et al, 2018 ) sowie Vorhersage von Proteinfunktionen aus mehreren Datentypen, einschließlich Proteinsequenz und -struktur, Phylogenie sowie Protein-Protein-Wechselwirkungen und Gen-Co-Expressionsnetzwerken (Radivojac et al, 2013 Dey et al, 2015 Jiang et al, 2016). Darüber hinaus wurden Pionierarbeit bei der Ableitung einer datengesteuerten Genontologie in Hefe geleistet (Kramer et al, 2014 et al, Mai 2016 et al, 2018). Unseres Wissens wurde dieser Ansatz jedoch nicht im Zusammenhang mit groß angelegten HT-GPS-Datensätzen in mehrzelligen Organismen angewendet, bei denen die genetische Redundanz und die phänotypische Komplexität viel höher sind.

Die systematische Bewertung von Gensets in anderen biologischen Kontexten als denen, in denen sie funktionieren, kann wertvolle Erkenntnisse über die Regulation biologischer Systeme gewinnen. Zum Beispiel werden die Rollen von Genen im Rahmen der Entwicklung, wie der Mesodermentwicklung (MSD), die die Koordination von Zellmigration, Zelladhäsion und Zytoskelettorganisation durch TGFβ- und WNT-Signalgebung beinhaltet, im Kontext von Dickdarmkrebs oft dereguliert ( Klnowska et al, 1994 McMahon et al, 2010 Kiecker et al, 2016). Daher könnte die Identifizierung phänotypischer Signaturen, die mit störenden MSD-Genen verbunden sind, Aufschluss darüber geben, wie eine Fehlregulation von MSD-Genen zur Entwicklung von Darmkrebs beitragen kann.

Die Bedeutung der Charakterisierung kontextabhängiger Genfunktionen kann durch die zunehmende Evidenz zur Rolle von Geruchsrezeptoren bei Krankheiten wie Krebs (Lee et al, 2019). Geruchsrezeptoren bilden die größte Genfamilie des Menschen (

400 Gene), die 1991 in sensorischen Neuronen entdeckt wurden. Ihre Funktionen in nicht-sensorischen Geweben sind jedoch kaum verstanden (Maßberg & Hatt, 2018). Die Untersuchung der Ähnlichkeit von Geruchsrezeptor-Störungsphänotypen mit der Störung bekannter Genprogramme würde die Entdeckung ihrer Funktionen in verschiedenen Gewebetypen ermöglichen.

Hier schlagen wir KCML vor, ein neuartiges Framework für die automatisierte Wissensentdeckung aus groß angelegtem HT-GPS. KCML wurde entwickelt, um pleiotrope und teilweise penetrante phänotypische Effekte des Genverlusts zu berücksichtigen. Wir wenden dieses Framework auf drei groß angelegte Datensätze an, die mit unterschiedlichen Methoden generiert wurden, die Phänotypen auf molekularer, zellulärer und Gewebeebene beschreiben und zeigen, dass es bestehende Analysepipelines übertrifft. Wir analysieren einen Phänotyp der Zellorganisation, den KCML identifiziert und mit Genen verknüpft, die mit dem Begriff Mesoderm Development (MSD) annotiert sind. KCML-Vorhersagen beinhalten viele Gene in TGFβ- und WNT-Signalwegen sowie viele Geruchsrezeptoren. Durch eine integrative Analyse mit Genexpressionsdaten von Darmkrebspatienten validieren wir den Zusammenhang zwischen der Expression von olfaktorischen Rezeptoren und der TGFβ- und WNT-Signalgebung und zeigen, dass die Expression einiger olfaktorischer Rezeptoren das Outcome von höhergradigen Darmkrebspatienten stratifizieren kann. Zusammenfassend ist KCML ein flexibler und systematischer Rahmen für die umfassende Analyse von HT-GPS-Datensätzen und die Identifizierung kontext- und gewebeabhängiger Genfunktionen.


Inhalt

Buchbeschreibung

Dieses „Lehrbuch“ ist interaktiv, d. h. jedes Kapitel enthält zwar Text, aber auch interaktive HTML5-Inhalte wie Quizfragen, Simulationen, interaktive Videos und Bilder mit anklickbaren Hotspots. Die Schüler erhalten sofortiges Feedback, wenn sie den interaktiven Inhalt fertiggestellt haben, und können daher alles an einem Ort lernen und ihr Verständnis überprüfen. Ich halte dieses Lehrbuch immer noch für ziemlich textlastig und werde es weiterhin interaktiver gestalten!

Das Bild auf dem Cover zeigt die Entstehung dieses Buches. Ich habe den größten Teil des Inhalts aus offenen Ressourcen entnommen, modifiziert, Fragen hinzugefügt und jetzt für Sie zur Verfügung gestellt!

Ich habe den Inhalt so gewählt, dass er mit zwei Kursen übereinstimmt, die ich unterrichte: Umwelt- und Organismenanwendungen und biomedizinische Anwendungen. Einheit 1 führt die Studierenden in die Naturwissenschaften ein, die beide Kurse verwenden. Einheit 2 behandelt Inhalte, die für das Verständnis der Auswirkungen auf den Naturschutz erforderlich sind (das zugrunde liegende Thema des Kurses ist De-Extinktion), und Einheit 3 ​​konzentriert sich auf Proteine, damit die Schüler die Auswirkungen der Modifikation der DNA verstehen können (das zugrunde liegende Thema ist CRISPR).

Bitte verwenden Sie dieses Buch so, wie Sie es für Ihren Unterricht für richtig halten. Ich freue mich darauf zu hören, wie dieses Buch in Zukunft noch nützlicher werden kann!