Information

Wie groß ist die relative Aussagekraft von GWAS-Studien bei verschiedenen Arten?

Wie groß ist die relative Aussagekraft von GWAS-Studien bei verschiedenen Arten?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich würde gerne von einer Veröffentlichung wissen, die die relative Stärke von GWAS-Studien bei verschiedenen Arten untersucht. Zum Beispiel habe ich Berichte gesehen, die besagen, dass Genotypisierung und GWAS bei Hunderassen aufgrund des Ausmaßes des Kopplungsungleichgewichts und anderer populationsgenetischer Überlegungen viel stärker sind als beim Menschen. Einige Behauptungen besagen, dass viele GWAS-Studien bei Hunden 10-20x stärker sind als viele GWAS-Studien beim Menschen. Ich habe auch von Tauben (Pigeon-Omics) gehört, dass es ein ähnlicher Fall ist. Ich würde gerne wissen, ob es andere Vergleiche für andere Arten und die relative Entdeckungskraft von GWAS-Studien im Vergleich zum Menschen gibt. Gibt es zum Beispiel Zahlen für Hefe, Drosophila sp., C.elegans, Zebrafisch und dann auch für Pflanzen wie Mais, Reis etc.?


Ein Teil der erhöhten Fähigkeit, eine genetische Assoziation über die GWAS-Genotypisierung zu erkennen, kommt von langen Haplotypen. Viele Hunderassen durchliefen vor 100-200 Jahren selektive Zuchtengpässe. Viele Labormodellorganismen wie Fliegen, Würmer und Pflanzen haben rekombinante Inzuchtlinien, die auch bei der GWAS-Entdeckung helfen. Der Preis, den man für diese erhöhte Leistung zahlt, beispielsweise für Hunde-GWAS, ist nicht die lässige Variante lokalisieren zu können. Die gefundenen Assoziations-SNP(s) können aufgrund der langen LD weit, weit entfernt von dem für den Phänotyp verantwortlichen Gen sein.

Ein weiterer nicht zu vernachlässigender Aspekt ist der Phänotyp. Beim Menschen kann der Phänotyp einen 3-fachen Bereich aufweisen P, während dieser Wert beim Hund nur 35% (1,35x) beträgt. Das kann bedeuten, dass der Phänotyp schwer (genau) zu messen und mit statistischer Sicherheit einem gegebenen Allel zuzuordnen ist.

Ein dritter zu berücksichtigender Aspekt ist die Effektstärke der Assoziation, beispielsweise pro (Risiko-)Allel.

Obwohl mir keine Veröffentlichungen bekannt sind, die spezifisch solche Elemente wie Haplotyplänge, Phänotypbereich und Effektgröße in eine Analyse der GWAS-Leistung über verschiedene Arten einbeziehen, glaube ich, dass jemand, der sich mit der Genetik des Organismus der Wahl auskennt, dies leicht für die bestimmte(s) Merkmal(e) von Interesse.


Die Frage sieht so aus, als ob sie eine Weile inaktiv war, aber ich denke, hier gibt es einige Diskussionen.

Ich würde argumentieren, dass in vielen (meisten?) Modellorganismen die Macht viel größer wäre als die des Menschen. Häufig (Würmer, Mäuse, Pflanzen, Hefen) kann man mit grundsätzlich isogenen Inzuchtlinien arbeiten. Ich würde argumentieren, dass dies viel wichtiger ist als lange Haplotypen: a) weniger wichtig, keine Heterozygotie. b) Noch wichtiger ist, dass Sie dieselbe Linie wiederholt neu phänotypisieren können, um die experimentelle/Umweltvariation direkt abzuschätzen und eine sehr genaue Schätzung des tatsächlichen E(Phänotyp | Genotyp) zu erhalten. Dies steht im Gegensatz zu Menschen, bei denen Sie das eine Individuum haben, also müssen Sie nur beten, dass Ihre experimentelle/Umwelt-Variation gering ist und Ihre Vererbung in der Stichprobenpopulation hoch ist.

Beispielsweise erhält man für nur 100 Inzuchtlinien einer Pflanze massive, schöne GWAS-Peaks für viele Phänotypen: Atwell et al. 2010. Human-GWAS-Stichprobengrößen müssen im Allgemeinen im Bereich von 1000 liegen, bevor sie ausreichend gepowert sind (Ref).

Dieses Thema wird hier etwas weiter diskutiert.

Beachten Sie in direktem Bezug auf die langen Haplotypen, dass Leistung und Kartierungspräzision verschiedene Dinge sind. Das heißt, Ihre Fähigkeit, eine Assoziation zu erkennen, kann extrem hoch sein, aber Sie haben möglicherweise ein sehr breites Chromosomenintervall, in dem Sie dann auf die Jagd gehen müssen, um den kausalen Locus zu finden. Beachten Sie, dass dieses Problem bei großen Effekten sogar noch schlimmer sein kann, die wahrscheinlich ausgewählt werden, wenn sie interessant sind, und daher wahrscheinlich ein erhebliches Kopplungsungleichgewicht zwischen dem kausalen Ort und den umgebenden Regionen besteht. Wenn die Effektstärke klein ist (im Allgemeinen bei Menschen der Fall, aber nicht in anderen Organisationen), ist dies natürlich weniger problematisch.


Kapitel 11: Genomweite Assoziationsstudien

Genomweite Assoziationsstudien (GWAS) haben sich in den letzten zehn Jahren zu einem leistungsfähigen Instrument zur Untersuchung der genetischen Architektur menschlicher Krankheiten entwickelt. In dieser Arbeit überprüfen wir die Schlüsselkonzepte, die GWAS zugrunde liegen, einschließlich der Architektur von Volkskrankheiten, der Struktur der gemeinsamen genetischen Variation beim Menschen, Technologien zur Erfassung genetischer Informationen, Studiendesigns und statistischen Methoden zur Datenanalyse. Wir freuen uns auch auf die Zukunft über GWAS hinaus.

Zitat: Bush WS, Moore JH (2012) Kapitel 11: Genomweite Assoziationsstudien. PLoS Comput Biol 8(12): e1002822. https://doi.org/10.1371/journal.pcbi.1002822

Herausgeber: Fran Lewitter (Whitehead Institute, Vereinigte Staaten von Amerika) und Maricel Kann (Universität Maryland, Baltimore County, Vereinigte Staaten von Amerika)

Veröffentlicht: 27. Dezember 2012

Urheberrechte ©: © 2012 Bush, Moore. Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Finanzierung: Diese Arbeit wurde durch die NIH-Zuschüsse ROI-LM010098, ROI-LM009012, ROI-AI59694, RO1-EY022300 und RO1-LM011360 unterstützt. Die Geldgeber hatten keine Rolle bei der Erstellung des Manuskripts.

Konkurrierende Interessen: Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.


Effizienz einer genomweiten Assoziationsstudie in offen bestäubten Populationen

Genomweite Assoziationsstudien (GWAS) mit Pflanzenarten haben Inzuchtlinien-Panels verwendet. Daher liegen unseres Wissens keine Informationen zur Theorie und Effizienz von GWAS in offen bestäubten Populationen vor. Unsere Ziele sind die Präsentation der quantitativen Genetiktheorie für GWAS, die Bewertung der relativen Effizienz von GWAS in Nicht-Inzucht- und Inzuchtpopulationen sowie in einem Inzuchtlinien-Panel und die Bewertung von Faktoren, die GWAS beeinflussen, wie Kopplungsungleichgewicht (LD), Stichprobengröße und quantitative Trait-Locus (QTL)-Heritabilität. Fünfzig Proben von 400 Individuen aus Populationen mit LD wurden simuliert. Individuen wurden für 10.000 Einzelnukleotidpolymorphismen (SNPs) genotypisiert und für Merkmale mit unterschiedlichen Dominanzgraden, die durch 10 QTLs und 90 Nebengene kontrolliert werden, phänotypisiert. Die durchschnittliche SNP-Dichte betrug 0,1 CentiMorgan und die Merkmalsheritabilitäten betrugen 0,4 und 0,8. Wir bewerteten die GWAS-Effizienz basierend auf der Leistung der QTL-Erkennung, der Anzahl der falsch-positiven Assoziationen, der Verzerrung in der geschätzten QTL-Position und dem Bereich der signifikanten SNPs für denselben QTL. Wenn die LD zwischen einem QTL und einem oder mehreren SNPs auf Marker beschränkt ist, die sehr nahe am oder innerhalb des QTL liegen, kann GWAS in offen bestäubten Populationen sehr effizient sein, hauptsächlich abhängig von der QTL-Heritabilität und der Stichprobengröße. GWAS erreichte die höchste Leistung der QTL-Erkennung, die kleinste Anzahl falsch-positiver Assoziationen und den niedrigsten Bias in der geschätzten QTL-Position für das Inzuchtlinien-Panel, das die Populationsstruktur korrigiert. Bei niedriger QTL-Heritabilität und reduziertem Stichprobenumfang ist GWAS für Nicht-Inzucht- und Inzuchtpopulationen sowie für Inzuchtlinien-Panels unwirksam.


Meta-GWAS Accuracy and Power (MetaGAP)-Rechner zeigt, dass das Verbergen der Heritabilität teilweise auf unvollkommene genetische Korrelationen zwischen den Studien zurückzuführen ist

Genomweite Assoziationsergebnisse im großen Maßstab werden typischerweise aus einer Metaanalyse mit festen Effekten von GWAS-Zusammenfassungsstatistiken aus mehreren Studien gewonnen, die sich über verschiedene Regionen und/oder Zeiträume erstrecken. Bei diesem Ansatz werden die geschätzten Auswirkungen genetischer Varianten über Studien hinweg gemittelt. Falls genetische Effekte in den Studien heterogen sind, werden die statistische Aussagekraft eines GWAS und die Vorhersagegenauigkeit von polygenen Scores abgeschwächt, was zur sogenannten „fehlenden Heritabilität“ beiträgt. Hier beschreiben wir den Online-Rechner Meta-GWAS Accuracy and Power (MetaGAP) (verfügbar unter www.devlaming.eu), der diese Dämpfung basierend auf einem neuartigen Multi-Study-Framework quantifiziert. Anhand von Simulationsstudien zeigen wir, dass die statistische Aussagekraft und Vorhersagegenauigkeit dieses Rechners unter einer Vielzahl genetischer Architekturen genau ist. Wir vergleichen die Vorhersagen des MetaGAP-Rechners mit tatsächlichen Ergebnissen aus der GWAS-Literatur. Konkret verwenden wir genomische Bezug-Matrix-beschränkte maximale Wahrscheinlichkeit, um die SNP-Heritabilität und die studienübergreifende genetische Korrelation von Größe, BMI, Bildungsjahren und selbstbewerteter Gesundheit in drei großen Stichproben zu schätzen. Diese Schätzungen werden als Eingabeparameter für den MetaGAP-Rechner verwendet. Die Ergebnisse des Rechners deuten darauf hin, dass die studienübergreifende Heterogenität bei den jüngsten groß angelegten GWAS-Bemühungen zu diesen Merkmalen zu einer Abschwächung der statistischen Aussagekraft und Vorhersagegenauigkeit geführt hat (z Anzahl genomweiter signifikanter Loci und ein relativer Verlust des polygenen Scores R2 von 36-38%). Daher trägt die studienübergreifende Heterogenität zur fehlenden Heritabilität bei.

Interessenkonflikt-Erklärung

Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.

Figuren

Abb. 1. Theoretische Vorhersagen der Leistung pro…

Abb. 1. Theoretische Vorhersagen der Power pro kausalem SNP (oberes Feld) und Out-of-Sample R 2…

Abb. 2. Theoretische Vorhersagen der Leistung pro…

Abb. 2. Theoretische Vorhersagen der Power pro kausalem SNP (oberes Feld) und Out-of-Sample R 2…

Abb. 3. Theoretische Vorhersagen der Leistung pro…

Abb. 3. Theoretische Vorhersagen der Power pro kausalem SNP (oberes Feld) und Out-of-Sample R 2…

Abb. 4. Theoretische Vorhersagen von Out-of-Sample R…

Abb. 4. Theoretische Vorhersagen von Out-of-Sample R 2 der PGS, für die SNP-Erbbarkeit…

Abb. 5. Theoretische Vorhersagen der Leistung pro…

Abb. 5. Theoretische Vorhersagen der Trennschärfe pro kausalem SNP für die Gesamtstichprobe ( x…


Ahnenvielfalt, geografische Konzentration und verwendete Datensätze

Aus technischen Gründen wie Bevölkerungsschichtung 14 , verringerte Kopplungsungleichgewichte 15 , genetische Vielfalt und Beimischung 16 , kulturelles Misstrauen und sozialer Missbrauch sowie Interpretationen 17,18 wurde den Unterschieden, die der Vielfalt der Vorfahren der Studienteilnehmer zugrunde liegen, große Aufmerksamkeit gewidmet. Die Einbeziehung verschiedener Teilnehmer ist entscheidend für das Verständnis der genetischen Heterogenität bei Krankheitsphänotypen und die Schaffung einer gerechten Verteilung der personalisierten Medizin 19 . Es gibt auch eine begrenzte Übertragbarkeit von polygenen Scores über Populationen hinweg, auf die wir in unserer abschließenden Diskussion zurückkommen 20 .

Abbildung 2 visualisiert ein benutzerdefiniertes Feld der erweiterten Ancestral-Kategorie 21, das Hunderte von Kombinationen aus siebzehn verschiedenen breiten Ancestral-Kategorien umfasst, die sieben eindeutigen breiteren Kategorien zugeordnet sind. Unsere Ergebnisse (wenn Zeilen des Katalogs gelöscht werden, die nicht erfasste Vorfahren enthalten) stimmen mit bestehenden Schätzungen 21,22 überein und zeigen, dass die Vorfahren in der genetischen Entdeckung insgesamt sehr ungleich waren und von Teilnehmern europäischer Vorfahren dominiert wurden (86,03 % Entdeckung, 76,69 %). Replikation, 83,19 % kombiniert). Andere prominent untersuchte Vorfahren sind asiatische (9,92% Entdeckung, 17,97% Replikation, 12,37% kombiniert), Afroamerikaner oder Afro-Karibik (1,96% Entdeckung, 1,96% Replikation, 1,96% kombiniert), Hispanoamerikaner oder Lateinamerikaner (1,30% Entdeckung, 1,33 .). % Replikation, 1,30 % kombiniert), Andere oder gemischt (0,48 % Entdeckung, 1,77 % Replikation, 0,87 % kombiniert) und afrikanischer Vorfahren (0,31 % Entdeckung, 0,28 % Replikation, 0,30 % kombiniert). Tabelle 1 zeigt, dass der prozentuale Anteil der Stichproben europäischer Abstammung pro Jahr stark schwankt und im Jahr 2016 90,76 % und 2012 nur 71,98 % betrug. 2008 wurden in keiner einzigen Studie Teilnehmer afrikanischer Abstammung verwendet. Durch die Aufteilung der Daten in Entdeckungs- und Replikationsproben zeigen wir, dass der Prozentsatz der europäischen Abstammungsproben, die für die erste Entdeckung verwendet wurden, wesentlich höher ist als für die Replikation, und dass Proben asiatischer Abstammung einen erheblich höheren Anteil an den Replikationen ausmachen als für die anfängliche Entdeckung.

Vorfahren der GWAS-Teilnehmer im Zeitverlauf, 2007–2017. Das Hauptfeld zeigt eine Aufgliederung unseres Felds mit den weit gefassten Vorfahrenkategorien, das eine direkte Zuordnung der 17 im Katalog identifizierten Vorfahrenkategorien ist. Wir löschen alle Zeilen, in denen kein Anteil der Vorfahren aufgezeichnet ist, und erstellen für Kombinationen von Vorfahren (z. B. europäisch und afrikanisch) ein neues Feld: Sonstiges/Gemischt. Der Einschub aggregiert dies über die gesamte Stichprobe hinweg, partitioniert die Daten jedoch nach Erkennungs- und Replikationsphasen. 2007–2017 ist ausgewählt, da vor 2007 nur 10 Einträge aufgetreten sind und wir vollständige Informationen für das Jahr 2017 haben. Quelle: NHGRI-EBI GWAS-Katalog und Autorenzuordnung

Eine auf regulären Ausdrücken basierende Übung zum Extrahieren von Informationen aus dem freien Text in Bezug auf Entdeckungs- und Replikationsbeispielbeschreibungen identifiziert 212 bzw. 150 eindeutige Begriffe, um die Teilnehmer nach Rasse, Region, Land, ethnischer Zugehörigkeit oder Abstammung zu klassifizieren. Dies reicht vom gebräuchlichsten europäischen Begriff bis hin zu hybriden Begriffen wie dem kaukasischen östlichen Mittelmeerraum sowie mehreren anderen Beispielen für Mehrstimmigkeit. Unser begleitendes Replikationsmaterial bietet eine empirisch transparentere und strengere Evidenzbasis im Vergleich zu früheren Untersuchungen, die berichteten, dass etwa ein Fünftel der Arbeiten Klassifikationsschemata auf logisch mehrdeutige Weise verwenden 23 und schätzt, dass es bis zu 26 Begriffe gab, um Teilnehmer afrikanischer Abstammung zu beschreiben 22 .

Diese Zerlegung des Freitextfeldes ermöglicht es uns auch, Kategorisierungen indigener oder indigener Bevölkerungsgruppen zu untersuchen. Diese Gruppen hatten eine besonders komplexe Beziehung zur Genomforschung, haben aber auch einige wichtige genetische Assoziationen aufgedeckt 17,24 . Unsere Analyse zeigt acht Begriffe, die explizit Nomenklaturen verwenden, die sich auf indigene, indigene oder Aborigine-Populationen beziehen, wie Aboriginal Canadian (ein Begriff, der zweimal vorkommt, insgesamt 15 Beobachtungen), Martu Australian Aboriginal (ein Begriff, der dreimal vorkommt, insgesamt 752 Beobachtungen) oder verschiedene Begriffe, die sich auf indigene Hawaiianer beziehen (ein Begriff, der 11 Mal gesehen wurde, insgesamt 3179 Beobachtungen) und dass sie 0,006% aller verwendeten Proben ausmachen (wobei der Begriff indigene Hawaiianer am häufigsten verwendet wird und Alaska-Indianer dreimal erwähnt werden). Bei Verwendung einer kuratierten Nachschlagetabelle basierend auf der Erklärung der Vereinten Nationen über die Rechte indigener Völker (einschließlich Begriffen wie Pima-Indianer) 25 erhöht sich diese Zahl auf 0,022%.

Einzigartig ist auch, dass wir die erste systematische Aufschlüsselung der Rekrutierung von GWAS-Teilnehmern liefern, indem wir das im Katalog bereitgestellte Feld „Land der Rekrutierung“ 21 für Studien untersuchen, aus denen nur ein einziges Land rekrutiert wurde (Abb. 3). Wir zeigen, dass 71,80% der Teilnehmer aus nur drei Ländern, den USA, Großbritannien und Island, rekrutiert werden. Obwohl Teilnehmer aus den USA am häufigsten die Basis für die meisten Studien sind (41,01 % aller Studien), dominiert Großbritannien bei der Anzahl der analysierten Teilnehmer (40,50 % aller Teilnehmer). Umgekehrt, obwohl 1,13 % der aufgezeichneten Studien isländische Teilnehmer einbeziehen, repräsentiert die kleine isländische Bevölkerung (rund 334.000) 11,52 % aller Teilnehmer, die zur GWAS-Forschung beigetragen haben. Bezogen auf das Verhältnis der von einem Land beigesteuerten Beobachtungen zur Bevölkerung des Landes 26 ist Island mit Abstand am größten (19,13), gefolgt vom Vereinigten Königreich (0,32). Beachten Sie, dass diese Zahlen aufgrund der Art und Weise, in der Daten über Einstellungen aus mehreren Ländern kuratiert werden, nur zum Vergleich zwischen den Ländern und nicht in absoluten Zahlen verwendet werden können. Dieses Ergebnis basiert hauptsächlich auf Daten von deCODE Genetik, einem großen Biotech-Unternehmen, das 1996 in Reykjavík, Island, gegründet wurde. Auf kontinentaler Ebene aggregiert zeigt Tabelle 2 ein ähnliches, aber deutliches globales Bild der Genomforschung: Europäische Länder tragen 58,54 % der rekrutierten Teilnehmer bei und Nordamerika weitere 19,99 % (29,09 bzw. 42,57 % aller Studien).

Eine Choroplethenkarte der Konzentration der GWAS-Teilnehmerrekrutierung. Eine Choroplethenkarte (Robinson-Projektion), die die geografische Rekrutierung von GWAS-Teilnehmern detailliert beschreibt. Quelle: NHGRI-EBI GWAS-Katalog, Natural Earth (v4.0.0) und das CIA World Factbook. Replikationsmaterial bietet eine pro Kopf angepasste Version

Wir haben manuell eine Liste der am häufigsten verwendeten Datensätze (manchmal als Kohorten bezeichnet) über die Mehrheit der größten 1250 GWAS (Stand 29. August 2018) extrahiert, mit dem Ziel, die erste systematische Schätzung der Häufigkeit und Identifizierung der verwendeten Datenquellen in GWAS (Tabelle 3). Die am häufigsten verwendeten Datensätze weisen mehrere wesentliche Unterscheidungsmerkmale auf 27 . Erstens stammen, entsprechend unserer geografischen Analyse, häufig verwendete Daten aus Industrieländern (Niederlande, USA, Großbritannien, Irland, Deutschland, Island), die ähnliche Krankheitsprävalenzraten und Bevölkerungsprofile aufweisen. Zweitens beschäftigen sich die meisten mit Zufallsstichproben oder Bevölkerungsstichproben, um eine möglichst repräsentative Stichprobe zu erhalten, was für neue große Datensätze wie die gesunden, älteren und höheren sozioökonomischen Teilnehmer in der UK Biobank 28 oder Direct-to- genetische Daten des Verbrauchers. Drittens handelt es sich um Kohorten, die für viele Krankheiten tief und reich phänotypisiert sind, was sie für mehrere Bedürfnisse zukunftssicher macht. Viertens handelt es sich bei vielen um ältere Bevölkerungsgruppen mit Krankheitsdiagnosen, die darauf abzielen, die Wege zu Krankheiten und Behinderungen im Alter aufzudecken. Insofern vermissen sie die längerfristige Krankheitsentwicklung und Interventionsmöglichkeiten, die sich eine asymptomatische jüngere Bevölkerung leisten könnte (mit Ausnahme der britischen Geburtskohorte 1958 oder zusätzlicher Datenerhebungen in Kohorten wie der FHS). Fünftens sind es prospektive Längsschnittdatensätze, die Einzelpersonen oder Geburtskohorten über einen längeren Zeitraum verfolgen und so einen lebensverlaufsbezogenen Ansatz zum Verständnis der Wege zu bestimmten Krankheiten, Behinderungen und Sterblichkeit erleichtern. Sechstens bestehen alle bis auf eine dieser Kohorten überwiegend aus weiblichen Teilnehmern (von 48 bis 100 %). Dieses Ungleichgewicht des Geschlechterverhältnisses wird selten thematisiert, dennoch sind sexueller Dimorphismus oder Geschlechtsunterschiede bei Krankheiten hoch relevant 29,30 . Obwohl viele als fokussierte, hypothesengetriebene klinische Proben zur Untersuchung einer Krankheitsart begannen, haben sich die meisten schließlich erweitert, um eine breite Palette von Phänotypen zu enthalten und dokumentieren einen Trend, im Laufe der Zeit neue Proben oder Generationen hinzuzufügen.


Säule 3: Individuelle kausale Polymorphismen segregieren in mittleren bis mittleren Frequenzen

Die Debatte über „Common-Mutation-Common-Krankheit“- und „Selten-Mutations-Common-Krankheit“-Modelle hat sich als Quelle für eine Vielzahl von Manuskripten erwiesen, darunter auch viele neuere Übersichtsartikel (z. B. Manolio et al., 2009). Wir sprechen dieses Thema nur insoweit an, als es die Aussicht auf GWAS betrifft. Erinnern Sie sich, Hill et al. (2008). Wenn kausale Polymorphismen mit geringer Häufigkeit auftreten, tragen sie zur additiven Variation bei. Die Aussagekraft, solche Polymorphismen zu erkennen, ist jedoch eher gering, was möglicherweise unerschwingliche Stichprobengrößen erfordert (Zuk et al., 2012). Seltsamerweise nimmt die resultierende erwartete Überschätzung der Effektstärke zu (Lynch und Walsh, 1998), wenn die Power mit der Allelfrequenz abnimmt. Dementsprechend scheinen weniger häufige kausale Polymorphismen einen stärkeren Effekt zu haben, als dies tatsächlich der Fall ist (Mackay et al. Tennessen ua (2012).

Welcher Anteil der phänotypischen Variation ist dann auf niederfrequente (im Vergleich zu mittelfrequenten) Allelen zurückzuführen? Unter Rückbezug auf Mackay et al. (2012), Jordanet al. (2012) und Weber et al. (2012) sind niederfrequente Mutationen von Bedeutung. Dies ist für GWAS problematisch, wenn die Effektstärken relativ klein sind. Nach der Analyse von Ober et al. (2012) sind die Zwischenfrequenz-Allele von Bedeutung. Dies allein kann Probleme für GWAS-Analysen aufwerfen, die sich auf den Nachweis additiver Effekte konzentrieren, da, wie oben diskutiert, scheinbare Additivität für seltene Varianten wahrscheinlich ist, aber für Allele mit mittlerer Frequenz keine notwendige Folge ist.

Zusammenfassend lässt sich sagen, dass GWAS am erfolgreichsten sein wird, wenn (i) die additive genetische Variation reichlich vorhanden ist, (ii) einzelne kausale Polymorphismen beträchtliche Auswirkungen haben und (iii) sie sich in moderaten bis mittleren Frequenzen segregieren. Ist genetische Variation also meist additiv? Im Allgemeinen wissen wir es nicht. Haben einzelne kausale Polymorphismen beträchtliche Auswirkungen? Auch hier wissen wir es im Allgemeinen nicht. Segregieren sie bei mittleren bis mittleren Frequenzen? Wir wissen es wieder einmal nicht genau. Insgesamt scheint es, als ob wir diese Forderungen zumindest in der Drosophila Modell, das wir in dieser Mini-Rezension vorstellen.


Nachdem dieser Review geschrieben wurde, wurde ein GWAS der bakteriellen Phyllosphäre von Mais veröffentlicht. Wallace et al. ( 2018 ) sequenzierten 16S-Transkripte von 300 Mais-Genotypen, die in einer gemeinsamen Feldumgebung angebaut wurden, und sie nutzten diese Daten, um Dutzende von Diversitätsindizes der Gemeinschaft, die relative Häufigkeit von Hunderten von OTUs und die Darstellung Tausender vorhergesagter Stoffwechselfunktionen in Gemeinschaftsmetagenomen zu schätzen für jede Blattprobe. Einige Prozent der Metriken in jeder dieser drei Kategorien waren vererbbar, von denen viele anscheinend hauptsächlich durch die Variation der Häufigkeit von Methylobakterien bestimmt wurden. Interessanterweise waren Funktionen im Zusammenhang mit dem Stoffwechsel von kurzkettigen Kohlenstoffmolekülen überrepräsentiert, was die Hypothese nahelegt, dass diese bakteriellen Stoffwechselmerkmale ein wichtiger Teil des kausalen Zusammenhangs zwischen dem Pflanzengenotyp und der Zusammensetzung der Phyllosphärengemeinschaft sein könnten. GWAS identifizierte jedoch nur wenige signifikante Assoziationen mit diesen Merkmalen und zeigte folglich nicht, welche Pflanzengene oder -merkmale die Phyllosphärenzusammensetzung in Mais am stärksten beeinflussen. Diese Studie veranschaulicht sowohl die Fülle an Erkenntnissen, die aus GWAS der Phyllosphäre gewonnen werden können, insbesondere wenn man über die bakterielle Taxonomie hinausgeht, indem man sich auf metagenomische Merkmale konzentriert, aber auch die Schwierigkeit, die Verbindungen zwischen Pflanzengenen und der Zusammensetzung der Phyllosphärengemeinschaft in Freilandumgebungen aufzudecken. Wir warten gespannt auf zukünftige Studien, die die Ansätze von Horton . erweitern et al. ( 2014 ) und Wallace et al. ( 2018 ) zu größeren Sammlungen von Pflanzengenotypen und zusätzlichen Arten, leistungsfähigeren Werkzeugen zur Quantifizierung der taxonomischen und funktionellen Zusammensetzung mikrobieller Gemeinschaften und leistungsstarken Multi-Trait-GWAS-Methoden in der Hoffnung, diese Herausforderung zu meistern.

Die Autoren geben keinen Interessenkonflikt an.

Dateiname Beschreibung
tpj14170-sup-0001-MethodsS1.docxWord-Dokument, 135,1 KB Methode S1. Methoden zur Erzeugung von Abbildung 2 werden in Methoden S1 beschrieben.

Bitte beachten Sie: Der Herausgeber ist nicht verantwortlich für den Inhalt oder die Funktionalität der von den Autoren bereitgestellten unterstützenden Informationen. Alle Anfragen (außer fehlenden Inhalten) sollten an den entsprechenden Autor des Artikels gerichtet werden.


Gewebespezifische Expression und Zielgenidentifizierung bei Endometriose

Zusammengenommen zeigen die oben besprochenen Studien komplexe Interaktionen zwischen Genotyp (DNA-Sequenzvariation), Epigenetik und Gentranskription. Darüber hinaus sind gewebespezifische und entwicklungsbedingte Unterschiede in der Regulation der Genexpression weitere komplizierende Faktoren [ 92]. Obwohl viele cis-eQTLs werden in allen Geweben beobachtet, etwa 30 % von cis-eQTLs sind gewebespezifisch [ 92]. Dies hat wichtige Konsequenzen, da wir die Genexpression in Geweben untersuchen müssen, die für die Krankheit relevant sind. Bisher wurden die meisten Studien mit ausreichendem Umfang mit Proben aus Blut oder lymphoblastoiden Zelllinien durchgeführt, obwohl sich dies ändert.

Wir wissen nicht, welche Gewebe und Zelltypen Ziele für regulatorische Effekte der SNP-Variation sind, die das Endometrioserisiko erhöhen. Gewebe, die zur Entwicklung und zum Wachstum von Endometriose-Läsionen beitragen, können die Ablagerung von lebensfähigem Endometriumgewebe oder Endometrium-Stammzellen über die retrograde Menstruation [ 93 – 95], Epithelzellen aus den Eileitern [ 96], embryonale Zellreste [ 97], Mesothel [ 98] ] und das Immunsystem [ 99]. Es ist auch möglich, dass das Ursprungsgewebe für verschiedene Präsentationen der Endometriose variiert.

Die Daten für relevante Zelllinien für reproduktive Gewebe im ENCODE-Projekt sind begrenzt, und umfassende Daten, die kritische regulatorische Sequenzen in reproduktiven Geweben abbilden, sind derzeit nicht verfügbar. Dies schränkt unsere Fähigkeit ein, die SNP-Variation schnell mit Zielgenen zu verknüpfen. Wir haben das Endometrial Gene Expression Project (EGEP) für eQTL-Studien im Endometrium initiiert, um die Priorisierung von Genen und Signalwegen für Folgestudien zu unterstützen. Wir wählten das Endometrium für diese Studien als ein wichtiges Gewebe, in dem wir die regulatorischen Auswirkungen der SNP-Variation auf die Endometriose untersuchen können.

Große Probengrößen werden wesentlich sein, um eine ausreichende Aussagekraft zu haben, um die wichtige gewebespezifische Regulation der Genexpression zu bewerten. Die Effektstärken von eQTL sind im Vergleich zu Ergebnissen für GWAS groß. Unsere Fähigkeit, eQTL signifikant zu erkennen, wird jedoch auch durch den erhöhten Mehrfachtestaufwand eingeschränkt, der ein Merkmal von eQTL-Analysen ist. Power-Berechnungen zeigen, dass eine Stichprobengröße von 100 Gewebeproben erforderlich ist, um einen eQTL nachzuweisen, der ∼10 % der Varianz in der Genexpression mit 80 % Power erklärt (bei einer studienweiten korrigierten P Wert von 10 –9 ). Durch die Erhöhung der Stichprobengröße auf 400 Personen bei gleicher Typ-I-Fehlerrate (10 −9 ) und Power (80%) konnten wir eQTLs nachweisen, die ∼6,3% der Varianz in der Genexpression erklären. Da die Verteilung der Effektstärken nicht einheitlich ist und basierend auf unseren Daten für Vollblut, würde eine Erhöhung der Probengröße von 100 auf 400 zu einer Erhöhung der Anzahl der nachgewiesenen eQTL von ∼ 1200 mit >10% Varianz auf ∼3100 mit >6 führen. 3% Abweichung. Angesichts der Tatsache, dass die Genexpression des Endometriums während des Menstruationszyklus variiert, werden noch größere Stichproben mit genau definiertem Stadium des Menstruationszyklus erforderlich sein, um die Genregulation im Endometrium und die Auswirkungen des Stadiums des Menstruationszyklus zu verstehen.


Fortschritte bei mikrobiellem GWAS

Angesichts des klaren Verlaufs menschlicher GWAS von mangelhaften Studien zu fortgeschritteneren Methoden, die einen erheblichen Anteil des Risikos erklären, ist es sinnvoll zu fragen, ob mikrobielles GWAS in gleicher Weise voranschreiten wird. Trotz der oben erwähnten Komplexität wurde in letzter Zeit eine wachsende Zahl von mikrobiellen GWAS veröffentlicht (Tabelle 2). Mit Ausnahme von HIV und Plasmodium falciparum, haben sich diese Veröffentlichungen im Allgemeinen auf Bakterien konzentriert und haben sich fast ausschließlich auf Krankheitserreger in menschlichen Wirten konzentriert. Die meisten Genomdaten stammen von WGS, obwohl Genotypisierungschips für P. falciparum bestehen seit mehreren Jahren 34,35 . Aufgrund der viel kürzeren Genome von Mikroorganismen liegt die Zahl der analysierten Varianten in mikrobiellen GWAS im Zehntausenderbereich und ist damit um Größenordnungen geringer als in humanen GWAS. Auch die Stichprobengrößen wurden deutlich kleiner. Das bisher kleinste mikrobielle GWAS war eine Studie von 75 Staphylococcus aureus Stämme 36 und die größte war eine Studie mit 3.701 Streptococcus pneumoniae isoliert 37. Die Mehrheit der Studien hatte Stichprobengrößen von weniger als 500 (Tabelle 2). Dies verspricht sich jedoch zu ändern, da große länderübergreifende Konsortien wie MalariaGEN 38 und PANGEA_HIV 39 WGS in viel größerem Umfang generieren.

Trotz der derzeit geringen Stichprobengröße ist es mit mikrobiellen GWAS bereits gelungen, kausale Varianten zu identifizieren. Dies liegt zum Teil an den Studien, die sich auf Phänotypen konzentrierten, die einer starken Selektion unterliegen, von denen die meisten Studien zur Arzneimittelresistenz waren. Zum Beispiel mikrobielles GWAS von Mycobacterium tuberculosis 40 , S. aureus 36 , S. pneumoniae 37 , P. falciparum 41 und HIV haben alle erfolgreich neue Varianten der Arzneimittelresistenz identifiziert, die oft fast die gesamte phänotypische Variation erklärten. Selbst bei Phänotypen unter starker Selektion gibt es Hinweise auf eine hohe Polygenität innerhalb von Mikroorganismen. Zum Beispiel die Untersuchung der Arzneimittelresistenz in 3.701 S. pneumoniae Sequenzen identifizierten 301 signifikante SNPs mit einem medianen Odds Ratio von 11 (Ref. 37). Angesichts der großen Effektstärken überrascht es nicht, dass viele der durch mikrobielle GWAS identifizierten Varianten der Arzneimittelresistenz bereits bekannt waren. Dies schmälert zwar die Neuheit der Ergebnisse, stärkt aber auch das Vertrauen in die Fähigkeit des mikrobiellen GWAS, kausale Varianten korrekt zu identifizieren. Ein weiterer Phänotyp unter starker Selektion ist die Wirtsspezifität. Mikrobielle GWAS mit Wirtsspezifität haben signifikante Ergebnisse für Campylobacter jejuni 42 und HIV43. In derselben Studie zur HIV-Wirtsspezifität fanden die Autoren jedoch keine Assoziationen zwischen Virusvarianten und Infektiosität. Die erfolgreichste Virulenzstudie war von 90 S. aureus Proben 44 . Die Autoren identifizierten 121 SNPs mit genomweiter Bedeutung. Funktionelle Nachuntersuchungen einer Untergruppe von SNPs zeigten, dass vier von 13 die Toxizität beeinflussten in vivo, was darauf hindeutet, dass ein Teil der identifizierten Assoziationen wirklich kausal waren.

Die meisten mikrobiellen GWAS haben sich bisher auf die Analyse von Merkmalen konzentriert, die einer starken Selektion unterliegen, aber diese Studien haben eine bemerkenswerte Vielfalt in ihren analytischen Ansätzen gezeigt (Abb. 2). Es wurden zwei Analysen von HIV-Sequenzen durchgeführt 43,45, beide mit der GWAS-Software PLINK 46 . Auf der Grundlage von Fixed-Effect-Modellen legten diese Studien nahe, dass das Virus eine geringe Populationsstratifizierung innerhalb eines einzelnen viralen Subtyps aufweist. Allerdings sind Analysen von M. tuberkulose betonte, dass PLINK zwar viele Varianten der Arzneimittelresistenz identifizieren konnte, aber aufgrund von Verwechslungen mit der Populationsstruktur auch zu falsch positiven Ergebnissen führte 47 . Um diese Einschränkung zu beheben, entwickelten die Autoren die Software PhyC 23 , ein Werkzeug, das phylogenetische Bäume verwendet, um SNPs unter rezenten konvergenten . zu identifizieren Evolution. Dieser Ansatz identifizierte viele der gleichen Arzneimittelresistenzvarianten wie PLINK, reduzierte jedoch das Ausmaß der Verwechslung durch die Populationsstruktur. Andere Studien haben die phylogenetische Struktur als zufälligen Effekt in gemischten Modellen unter Verwendung von Software wie ROADTRIPS 48 und FaST-LMM 49 eingeschlossen. Diese gemischten Modelle haben den Effekt der Populationsstruktur bei einer Reihe von Mikroorganismen erfolgreich reduziert 36,41 . Eine der Einschränkungen dieser Software besteht darin, dass diese Programme für humane Genomdaten entwickelt wurden und nicht mit Funktionen wie der mikrobiellen Diversität innerhalb des Wirts umgehen können. Eine kürzlich durchgeführte Studie entwickelte einen maßgeschneiderten Ansatz für mikrobielles GWAS bei der Analyse von C. jejuni 42. Die Autoren generierten multi-allelische k-mere anstelle von SNPs und testeten diese auf eine Assoziation mit der Wirtspräferenz. Dies ist bisher die einzige Studie, die eine Analyse von SNPs mit der Anwesenheit oder Abwesenheit von Genen kombiniert, was ein zentrales genomisches Merkmal von Bakterien ist.

Beispiele für drei mikrobielle genomweite Assoziationsstudien (GWAS) Ansätze bis heute 40,41,43 . ein | Der in jeder Studie analysierte Organismus: HIV, ein Retrovirus, das AIDS verursacht Plasmodium falciparum, ein parasitäres Protozoa, das die Ursache von Malaria ist und Mycobacterium tuberculosis, ein Bakterium, das Tuberkulose verursacht. B | Die in jedem Organismus beobachtete Form der geographischen, Populations- oder phylogenetischen Verwechslung, die die Fähigkeit behindert, Single-Nukleotid-Polymorphismen (SNPs) mit echter Wirkung von systematischen falschen Positiven zu unterscheiden. Für HIV wurde nur eine minimale Bevölkerungsstruktur beobachtet, während für P. falciparum größere Bevölkerungsunterschiede bestanden. M. tuberkulose zeigte den höchsten Grad an Verwechslung, wobei die verschiedenen Phänotypen (repräsentiert durch die roten und weißen Knoten des phylogenetischen Baums) meist innerhalb derselben Abstammungslinien gruppierten. C | Aufgrund der unterschiedlichen Populations- und phylogenetischen Strukturen der drei Organismen wurden drei verschiedene Ansätze verwendet, um die mikrobielle GWAS durchzuführen. Das Fehlen von Confounding bei HIV ermöglichte die Anwendung typischer humaner GWAS-Modelle mit festem Effekt. Die substanziellere Bevölkerungsstruktur in P. falciparum wurde durch die Einbeziehung der phylogenetischen Verwandtschaft als zufälliger Effekt in ein gemischtes Modell berücksichtigt. Schließlich ist die klare phylogenetische Struktur von M. tuberkulose wurde verwendet, um eine genomweite Analyse der konvergenten Selektion durchzuführen. D | How the results of each microbial GWAS were taken forwards to better understand the microorganism. For HIV, the viral genomic data were combined with human GWAS data to carry out a genome-to-genome analysis of HIV viral load. Zum P. falciparum, the information on drug resistance variants was combined with geographic data to highlight the spread of resistance variants through Southeast Asia. Finally, for M. tuberkulose, the identified drug resistance variant (Δald) was functionally validated by showing that carriers had improved growth comparable to other resistant strains (Bacillus Calmette–Guérin (BCG)) and sensitivity was partially resotored by complementation (Δald-comp), to levels similar to those of the wild type (WT). BD, Bangladesh MM, Myanmar TH, Thailand LA, Laos VN, Vietnam. The left part of panel D is adapted from Ref. 43. The middle part of panel D is from Ref. 41, Nature Publishing Group. The right part of panel D is from Ref. 40, Nature Publishing Group.

Overall, it is clear that although microbial GWAS are yielding important insights into infectious disease, the field has yet to settle on a consistent analytical approach and current methods are not yet ideally suited to microbial genomes. More refined analytical methods will become particularly important as the focus of microbial GWAS expands beyond drug resistance and towards phenotypes in which variants have subtler polygenic effects.


Present address: Department of Plant Sciences, University of California, Davis, CA, USA

Mitgliedschaften

Department of Plant and Microbial Biology, University of California, Berkeley, CA, USA

Siwen Deng, Lindsay Dahlen, Lorenzo Washington & Devin Coleman-Derr

Plant Gene Expression Center, USDA-ARS, Albany, CA, USA

Siwen Deng, Daniel F. Caddell & Devin Coleman-Derr

Department of Agronomy and Horticulture, University of Nebraska-Lincoln, Lincoln, NE, USA

Center for Plant Science Innovation, University of Nebraska-Lincoln, Lincoln, NE, USA

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Beiträge

SD conceived and designed the experiments, performed the experiments, analyzed the data, and prepared figures and/or tables DC conceived and designed the experiments, analyzed the data, and prepared figures and/or tables GX analyzed the data and prepared figures and/or tables LD performed the experiments LW performed the experiments and analyzed the data JY conceived and designed the experiments, and analyzed the data DC-D conceived and designed the experiments, analyzed the data, and prepared figures and/or tables All authors authored or reviewed drafts of the paper and approved the final draft.

Korrespondierender Autor


Schau das Video: BLUPs and Heritability, Mixed Model Tutorial in R (Kann 2022).