Information

Wie bewerte ich die unterschiedliche Aktivität von zellulären Signalwegen in Microarray-Daten (nicht Anreicherung)?


Ich möchte zelluläre Signalwege (KEGG) mit diskriminierenden Veränderungen der durchschnittlichen Aktivität (Expressionsniveaus) ihrer Genmitglieder in einem Mikroarray-Datensatz mit zwei Bedingungen identifizieren. Das Ziel ist es, die durchschnittliche Signalpfadaktivität für maschinelles Lernen (Stichprobenklassifizierung) zu verwenden, nicht um Signalwege zu identifizieren, die an unterschiedlich exprimierten Genen angereichert sind (d. h. keine klassische Geneset-Anreicherungsanalyse durchzuführen).


Wie bewerte ich die unterschiedliche Aktivität von zellulären Signalwegen in Microarray-Daten (nicht Anreicherung)?

Sie würden sich nachgelagerte Gene ansehen, die für einzelne Wege selektiv sind – oder Gene, die Bindungsstellen für Transkriptionsfaktoren haben, die am Ende Ihres Weges sitzen. Abhängig von der vorhandenen Literatur und Ihrem Experiment und dem spezifischen Signalweg können dies Gene umfassen, die selbst Teil des Signalwegs sind (sofern Feedback). Aus Gründen der Interpretierbarkeit würden Sie Gene bevorzugen, die zuvor in der Literatur als Wegbereiter nachgewiesen wurden.

Ich möchte zelluläre Signalwege (KEGG) mit diskriminierenden Veränderungen der durchschnittlichen Aktivität (Expressionsniveaus) ihrer Genmitglieder in einem Zwei-Bedingungs-Microarray-Datensatz identifizieren.

Dies kann schwierig sein, da die Mittelwertbildung mehrere Annahmen einführt, wie z Mitglieder) und erzwingen eine etwas willkürliche Entscheidung, ob log-transformierte Daten gemittelt werden sollen (was für viele Gene gerechtfertigt ist, aber nicht für Gene, die nicht multiplikativ skalieren, wie z. B. viele Stressgene) oder nicht log-transformiert.

Ziel ist es, die durchschnittliche Pfadaktivität für maschinelles Lernen zu verwenden (Beispielklassifizierung),

Sie können dies zu Ihrem Vorteil nutzen und mehrere Funktionen pro Pfad erstellen (z. B.: Median, Mittelwert, Varianz, nicht/log-transformiert usw. , manuell kuratierte Signaturgene von Pfaden) und dann durch maschinelles Lernen die besten Funktionen auswählen lassen Ihre Klassifikation (zB: wie bei der Verwendung von Random Forest-Klassifikatoren)


Sie können die hier erhältliche PathVar-Software verwenden: www.pathvar.embl.de

Siehe auch die entsprechende Publikation: http://bioinformatics.oxfordjournals.org/content/28/3/446.long


Verwenden Sie das GSVA R-Paket, um Genexpressionsdaten zu Pathway-Aktivitäts-Scores zusammenzufassen. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-7


Verwendung von -score zur Identifizierung von onkogenen Signalwegen von Cholangiokarzinomen

Das Extrahieren maximaler Informationen aus Gensignatursätzen (GSSs) über Microarray-basierte Transkriptionsprofile umfasst die Zuweisung von Funktionen zu hoch- und herunterregulierten Genen. Hier präsentieren wir eine neuartige Probenbewertungsmethode namens Signature-Score (S-Score), die verwendet werden kann, um das Expressionsmuster von Tumorproben aus zuvor identifizierten Gensignatursätzen zu quantifizieren. Ein Simulationsergebnis zeigte eine verbesserte Genauigkeit und Robustheit durch das S-Score-Verfahren im Vergleich zu anderen Scoring-Verfahren. Durch die Anwendung der S-Score-Methode auf das Cholangiokarzinom (CAC), einen aggressiven Leberkrebs, der aus Gallengangszellen entsteht, haben wir in zwei großen CAC-Datensätzen angereicherte onkogene Signalwege identifiziert. 13 Wege waren in CAC im Vergleich zu normaler Leber und Gallengang angereichert. Darüber hinaus konnten wir mit dem S-Score Korrelationen zwischen CAC-assoziierten onkogenen Signalwegen und der Funktion der Gen-Ontologie analysieren. Zwei wichtige onkogene Cluster und assoziierte Funktionen wurden identifiziert. Cluster 1, der Beta-Catenin und Ras enthielt, zeigte eine positive Korrelation mit dem Zellzyklus, während Cluster 2, der TGF-beta, Cytokeratin 19 und EpCAM enthielt, invers mit der Immunfunktion korreliert war. Wir verwendeten auch den S-Score, um Signalwege zu identifizieren, die bei CAC und hepatozellulärem Karzinom (HCC), dem häufigeren Subtyp von Leberkrebs, unterschiedlich exprimiert werden. Unsere Ergebnisse demonstrieren die Nützlichkeit und Wirksamkeit von -score bei der Zuordnung von funktionellen Rollen zu tumorassoziierten Gensignatursätzen und bei der Identifizierung potenzieller therapeutischer Angriffspunkte für bestimmte Leberkrebs-Subtypen.

Schlüsselwörter: Gensignatursatz-Pfadanalyse S-Score-Methode Tumorklassifikation

Eingereicht am 15. November 2012. Zur Veröffentlichung angenommen 24. Dezember 2012.


Zugehörige Daten

Hintergrund

Die Entwicklung von Hochdurchsatz-Omics-Technologien ermöglichte genomweite Messungen der Aktivität zellulärer Elemente und liefert die analytischen Ressourcen für den Fortschritt der Disziplin Systembiologie. Die Analyse und Interpretation von Genexpressionsdaten hat sich von der Gen- bis zur Pathway- und Interaktionsebene entwickelt, d. h. vom Nachweis von unterschiedlich exprimierten Genen bis hin zur Etablierung von Geninteraktionsnetzwerken und der Identifizierung angereicherter funktioneller Kategorien. Dennoch erfordert das Verständnis biologischer Systeme eine weitere Analyseebene, die sich mit der Charakterisierung der Interaktion zwischen Funktionsmodulen befasst.

Ergebnisse

Wir präsentieren eine neuartige Computermethodik zur Untersuchung der funktionellen Verbindungen zwischen den molekularen Elementen eines biologischen Systems. Der PANA-Ansatz verwendet genomische Hochdurchsatzmessungen und ein Schema für funktionelle Annotationen, um ein Aktivitätsprofil aus jedem Funktionsblock – oder Signalweg – zu extrahieren, gefolgt von Methoden des maschinellen Lernens, um die Beziehungen zwischen diesen Funktionsprofilen abzuleiten. Das Ergebnis ist ein globales, miteinander verbundenes Netzwerk von Signalwegen, das den funktionellen Cross-Talk innerhalb des molekularen Systems darstellt. Wir haben diesen Ansatz angewendet, um die funktionellen Transkriptionsverbindungen während des Hefezellzyklus zu beschreiben und Wege zu identifizieren, die ihre Konnektivität in einem Krankheitszustand am Beispiel von Alzheimer ändern.

Schlussfolgerungen

PANA ist ein nützliches Werkzeug, um unser Verständnis der funktionalen Interdependenzen innerhalb komplexer biologischer Systeme zu vertiefen. Wir zeigen, dass der Ansatz algorithmisch konsistent ist und das abgeleitete Netzwerk durch die verfügbaren funktionalen Daten gut unterstützt wird. Die Methode ermöglicht die Analyse der molekularen Basis der funktionellen Verbindungen und wir beschreiben die verschiedenen Regulationsmechanismen, die die Topologie des Netzwerks erklären, die für die Daten des Hefezellzyklus erhalten wurde.


Methoden

In diesem Beitrag stellen wir einen graphenbasierten und einen Erwartungsmaximierungsansatz vor, um spezifische Unterschiede zwischen biologischen Systemen auf der Ebene von Orthologengruppen und Signalwegen zu identifizieren.

Abbildung 1 zeigt den gesamten Ablauf der XPathway-Tools. Beim graphbasierten Ansatz berechnen wir a P-Wert unter Verwendung von Parametern, die aus dem Netzwerk extrahiert wurden, um zwei verschiedene statistische Fragen zu beantworten: (1) Wann und basierend auf welchem ​​Parameter können wir sagen, dass ein Satz von Proteinen einem Signalweg signifikant zugeordnet ist? (2) Wie groß ist die Wahrscheinlichkeit, aufgrund der Daten (Transkripte/Reads/Proteine) und einer Pfadtopologie zufällig eine solche Kartierung zu finden? Schließlich werden signifikante Stoffwechselwege durch Vergleich der P-Wert des ursprünglichen Pfads mit denen aus verschiedenen Bootstrapping-Samples. Die Methode der Erwartungsmaximierung verwendet andererseits die Interaktion zwischen identifizierten Orthologengruppen, um auf die Aktivität des Signalwegs zu schließen. Der letzte Teil des Flows besteht darin, beide Zweige zu validieren. Zuerst führen wir eine differentielle Expressionsanalyse an allen Contigs durch, die aus den von beiden Zweigen ausgegebenen Signalwegen extrahiert wurden. Zweitens wird ein qPCR-Experiment an den Contigs durchgeführt, die eine Faltungsänderung von 1,2 oder mehr aufweisen.

Ablauf der XPathway-Analyse. Die Zweige stellen die beiden Ansätze dar, die verwendet werden, um die Signalwegsignifikanz im Fall von Graphen basierend auf der linken Seite und das Pfadaktivitätsniveau im Fall des Erwartungsmaximierungsansatzes auf der rechten Seite zu berechnen. Beide Methoden werden validiert, indem man Contigs/Transcripts-Differentialausdrücke und qPCR als letzten Schritt des Ablaufs berechnet

Erwartungsmaximierungsmodell der Pfadaktivität

In diesem Abschnitt präsentieren wir einen EM-basierten Algorithmus zur Ableitung von Signalweg-Aktivitätsniveaus basierend auf Metatranskriptom-Sequenzdaten. Lassen w ein Stoffwechselweg sein, der als eine Reihe von Enzymen betrachtet wird, die durch ihre orthologen Gruppen dargestellt werden w=<P 1,…,P k>. Da eine Orthologegruppe mehrere Funktionen haben und an mehreren Pfaden beteiligt sein kann, können die Pfade als eine Familie von Untergruppen betrachtet werden W der Menge aller Orthologengruppen P. Im Folgenden beginnen wir mit der Einführung eines einheitlichen Binärpfad-Aktivitätsmodells, das auf einem diskreten Orthologengruppen-Expressionsmodell basiert.

Das Aktivitätsmodell des einheitlichen Binärpfads basiert auf den Annahmen von Gleichmäßigkeit, nämlich dass jedes Molekül einer orthologen Gruppe an jedem aktiven Weg mit der gleichen Wahrscheinlichkeit (d. h. zu gleichen Anteilen) teilnimmt und von binäre Aktivität, die postuliert, dass ein Signalweg aktiv ist, wenn die Aktivität der Orthologengruppe einen bestimmten (möglicherweise bahnabhängigen) Schwellenwert überschreitet. Lassen Sie sich formal δ(w) eine binäre Variable sein, die die Aktivitätsstatus von w, d.h., δ(w)=1 wenn w ist aktiv und δ(w)=0, sonst. Lassen Sie auch die Aktivitätslevel des Weges w sei die Summation über konstituierende Orthologegruppen g ihrer Teilnahme g w in w. Da wir annehmen, dass jede Orthologegruppe g mit gleicher Wahrscheinlichkeit an jedem Pfad beteiligt ist, der es enthält, folgt daraus, dass (g_ = links (1+ sum _ delta (w') ight)^<-1>) und das Aktivitätsniveau F w des Weges w wird gegeben von

Der binäre Aktivitätsstatus von w wird aus seinem Aktivitätsgrad berechnet F w und die Schwelle T w wie folgt

Das durch Gl. (1)–(2) können mit einem einfachen iterativen Algorithmus gelöst werden. Der Algorithmus beginnt mit der Zuweisung des Aktivitätsstatus δ(w)=1 zu jedem Pfad wW, d.h., Δ 0 (W)=<δ 0 (w)|wW>←1 und aktualisiert dann wiederholt das Aktivitätsniveau gemäß (1) und den Aktivitätsstatus gemäß (2). Die Prozedur endet, wenn die Statussequenz Δ 0 (W)=1,Δ 1 (W),Δ 2 (W),… beginnt zu schwingen Δ n+k (W)=Δ n (W) oder konvergiert. In all unseren Vorversuchen wurde eine Schwingung mit der Periode k=2 wird in höchstens 10 Iterationen erreicht. Auch die Schwelle T w ändert die Reihenfolge der Pfade, sortiert nach ihrem Aktivitätsniveau, das als Mittelwert geschätzt wird, nicht signifikant F w nach Konvergenz. Das Modell ist in Abb. 2 dargestellt.

Erwartungsmaximierungsansatz zur Berechnung der Pfadaktivität. Dieser zweiteilige Graph besteht aus einem Satz A, der Reads/Contigs/ORF/Proteine ​​darstellt, und der Satz B ist für ORFs/Proteine/orthologe Gruppen/EC (Enzyme Commission)-Zahlen. Die Bögen repräsentieren die Zuordnung zwischen Elementen beider Mengen. Für unser binäres EM besteht die Menge A aus Contigs, die auf Orthologengruppen abgebildet sind und das Gewicht jedes Bogens beträgt 1

Obwohl das einheitliche binäre Modell die Berechnung der Pfadaktivität durch Zuweisen von Orthologengruppen zu Pfaden ermöglicht, weist es einige Einschränkungen auf, die es daran hindern, spezifische Attribute des metabolischen Netzwerks zu erfassen. Das binäre einheitliche Modell weist beispielsweise nur den Wert 1 oder 0 zu, wenn die Orthologe-Gruppe zu einem Pfad gehört oder nicht. Diese Ja-oder-Nein-Annahme trifft nicht immer zu, da es einen Bruchteil einer Orthologengruppe geben kann, die zu unterschiedlichen Pfaden gehört. Darüber hinaus ist das Uniformitätsmodell nicht ohne weiteres auf natürliche Prozesse anwendbar, da nie alle Zuordnungen gleich wahrscheinlich sind. Schließlich ist das Modell nicht vollständig stabil, sondern eher periodisch, wobei einige Teilmengen von Orthologengruppen zwischen den Pfaden schwanken.

Graphbasierte Schätzung der Signalwegsignifikanz

Idealerweise würde eine umfassende Pathway-Analysemethode die Position und Rolle jedes Gens in einem Pathway, die Effizienz, mit der eine bestimmte Reaktion durchgeführt wird, und einige einschränkende Faktoren (z. B. Umgang mit metagenomischen Daten oder nicht) berücksichtigen. Mit Genomdaten ist es möglich, die Größe der Pfade, die Genlänge und die Überlappung des Gengehalts zwischen den Pfaden zu berücksichtigen [5], um die relative Häufigkeit der Pfade und die Rangfolge der Pfade zu berechnen, aber dieser Ansatz funktioniert möglicherweise nicht mit RNA-Seq-Daten, insbesondere in deren Abwesenheit einer Genomreferenz.

Fortan wird in unserem zweiten Ansatz jeder Stoffwechselweg als ein Netzwerk von Enzymen betrachtet, die auch EC-Nummern (Enzyme Commission Numbers) genannt werden, um ihre statistische Signifikanz zu berechnen. Die Signifikanz der Stoffwechselaktivität in einer Probe wird durch die Zufälligkeit der Positionen übereinstimmender Enzyme im entsprechenden KEGG-Pfaddiagramm gemessen. Die Zufälligkeit wird unter Verwendung eines Permutationsmodells gemessen, um signifikante Pfad-Alignments und Motive zu finden [10].

Dieses Modell geht davon aus, dass die Untergruppe der exprimierten Enzyme in einem aktiv annotierten Weg verbunden sein sollte. Das Enzympermutationsmodell findet den durchschnittlichen Vertexgrad im Untergraphen, der durch exprimierte Enzyme induziert wird. Dann wird derselbe Parameter für ausreichend viele zufällige Permutationen von Enzymmarkierungen berechnet. Die statistisch signifikante Übereinstimmung sollte eine Dichte von mehr als 95 % der Permutationen aufweisen. Spezifische Merkmale des in unserer Analyse berücksichtigten Diagramms sind:

Anzahl der Knoten. Ein Knoten repräsentiert ein Protein, das während BLAST kartiert wurde. KEGG weist diesen Proteinen im Diagramm normalerweise eine grüne Farbe zu.

Dichte = (Anzahl Kanten)/(Anzahl Knoten − 1)

Bruchteil von 0 In- und Out-Grad-Knoten. Lass diese Nummer anrufen x. x ist definiert durch:

x = ((Anzahl Knoten mit Out-Grad = 0) + (Anzahl Knoten mit In-Grad = 0)) / 2 * (Anzahl Knoten)

Wir berücksichtigen auch andere Kriterien wie (1) Anzahl grüner zusammenhängender Komponenten, (2) größte Anzahl von Knoten in einer zusammenhängenden Komponente und (3) größte Anzahl von Kanten in einer zusammenhängenden Komponente.

Unter Verwendung dieser Metriken berechnen wir die Dichte des induzierten Graphen, der nur aus kartierten Proteinen besteht. Wir erhalten die Namen dieser Proteine ​​durch EC-Nummern in der Grafik. Im Folgenden stellen wir zwei graphenbasierte Modelle vor, das Vertex-Label-Swapping und das Edge-Swapping für die zufällige Graphgenerierung, um Pfade zu analysieren. Dieses Modell wird durch die linke Seite von Abb. 1 erklärt.

Modell 1: Vertex Label Swapping für zufällige Graphgenerierung

In diesem Modell behalten wir die gleiche Topologie bei, erlauben jedoch das Vertauschen von Labels zwischen zwei Scheitelpunkten (Abb. 3 zeigt ein Beispiel). Ein bekanntes Problem dieses Ansatzes besteht darin, dass Scheitelpunkte mit hohem Grad immer verbunden werden. Dies kann zu zu vielen signifikanten Übereinstimmungen führen und somit die Falsch-Positiv-Rate erhöhen. Der Vertex-Label-Swapping-Algorithmus kann wie folgt dargestellt werden:

Modell zum Austausch von Vertex-Labels für die zufällige Graphgenerierung. Wir tauschen nur Scheitelpunkte aus, die unterschiedliche Labels haben. Ein Label ist ein Attribut eines Scheitelpunkts, der ein abgebildetes oder nicht abgebildetes Protein darstellt

Modell 2: Edge-Swapping für zufällige Graphgenerierung

Aufgrund der Verzerrung im Vertex-Label-Swap-Modell haben wir auch Edge-Swapping implementiert. Hier besteht die Idee darin, den In- und Out-Grad jedes Knotens gleich zu halten und Knoten nur dann auszutauschen, wenn sich diese Werte nicht ändern. Wir behalten die Vertex-Labels bei. Abbildung 4 zeigt ein Beispiel, wenn wir zwei Kanten permutieren.

Edge-Swapping-Modell für die Generierung zufälliger Graphen. Bevor wir die Kanten vertauschen, überprüfen wir, ob der In- und Out-Grad der beteiligten Knoten gleich bleibt

Der Edge-Swapping-Algorithmus kann wie folgt dargestellt werden:

Differenzielle Analyse der Pfadaktivität und Signifikanz

Differentielle Analyse der Pfadaktivität

Ziel dieser Analyse ist es herauszufinden, welcher Stoffwechselweg genauer betrachtet werden muss, um den Unterschied im Stoffwechsel zweier Organismen zu verstehen. Zu diesem Zweck verwenden wir den Pathway-Ausdruck, der aus dem zuvor vorgestellten binären Modell berechnet wurde. Zuerst berechnen wir die Expression jedes Pfads, der in der Menge von Pfaden vorhanden ist, die wir von KEGG für eine gegebene Probe erhalten. Dann berechnen wir die Differenz zwischen der Expression jedes Weges. Unter diesem Modell sind die Pfade, die als unterschiedliche Aktivität aufweisend ausgewählt wurden, diejenigen, bei denen das Verhältnis ihrer Expression größer als ein bestimmter Schwellenwert ist. Tabelle 3 präsentiert unsere Ergebnisse zur differentiellen Analyse der Pathway-Aktivität.

Differenzielle Analyse der Signalwegsignifikanz

Die differenzielle Analyse der Signalwegsignifikanz basiert auf der P-Wert im grafikbasierten Unterabschnitt von Methoden beschrieben. Wir permutieren jeden Pfadgraphen zufällig und erzeugen m verschiedene Grafiken. Beachten Sie, dass selbst die kleinsten Pfadgraphen mindestens 15 Knoten und etwa 40 Kanten enthalten, was ausreicht, um einen Standardwert zu erzeugen m=200 verschiedene Zufallsgraphen. Ein Pfad ist signifikant, wenn der P-Wert der Abbildung weniger als 5 % beträgt. Die P-Wert ist die Position des ursprünglichen Graphen, wenn er in der sortierten Liste aller zufällig generierten Graphen platziert wird, zuerst nach „Dichte“ (vom größten zum kleinsten) und dann nach der Anzahl der Knoten mit 0 In-Grad oder 0 Out-Grad (vom kleinsten zum größten) ). Ein Weg ist wesentlich wenn es P-Wert weniger als 5 % beträgt, sehr bedeutend wenn es P-Wert weniger als 1 % beträgt und das bedeutendste wenn es P-Wert kleiner oder gleich 0,5 % ist.

Lassen P1 sei der P-Wert für Weg x in Beispiel 1 und lassen Sie P2 sei der P-Wert für Weg x in Beispiel 2. Wir sagen, dass Weg x ist zwischen den beiden Stichproben differentiell signifikant, wenn die Wahrscheinlichkeit, die durch die Gleichung von berechnet wird, P R Ö B D ich F F(x) unten ist größer als 50 %.

Betrachten wir zum Beispiel m=200 zufällig generierte Graphen und das Vertex-Label-Swapping-Modell. In Abb. 5, die einen Teil des Fettsäure-Elongationswegs (ko00062) darstellt, bilden die abgebildeten Enzyme (ausgefüllte Rechtecke) in Probe 1 ein Unterdiagramm mit einer Dichte = 1,875 und der Zahl von 0 in/out-Grad = 0,11 für diese Unter- Graph. Nach dem Sortieren des Graphen ist die Position unseres ursprünglichen Graphen die erste, daher P-Wert P1=0.5 % (wichtigster Pfad angesichts der 200 Diagramme). In Probe 2 bilden die abgebildeten Enzyme (gefüllte Rechtecke) einen Untergraphen mit einer Dichte = 1,375, einer Zahl von 0 Ein-/Aus-Grad = 0,22 für diesen Untergraphen und seiner Position nach dem Sortieren ist 148. Dies ergibt a P-Wert P2=74.5 % (keine signifikante Zuordnung).

Pathway-Differentialanalyse. In Probe 1 bilden die abgebildeten Enzyme (ausgefüllte Rechtecke) einen Untergraphen mit einer Dichte = 1,475, der Zahl von 0 in/out-Grad = 0,11 und P-Wert = 0,5. In Probe 2 bilden die abgebildeten Enzyme (gefüllte Rechtecke) einen Untergraphen mit der Dichte = 1,375, der Zahl der 0 in/out-Grad = 0,22 und P-Wert =.74. Aufgrund dieser P-Wert sagen wir, dass dieser Pfad unterschiedlich signifikant ist

Basierend auf dem Wert von p1 und p2, P R Ö B D ich F F(k Ö00062)=.74 was größer als 50 % ist. Wir schließen daraus, dass ko00062 in den beiden Stichproben unterschiedlich signifikant ist.


Diskussion

Die osteogene Differenzierung ist ein komplexer Prozess, bei dem die Interaktion zwischen Genen und Signalwegen noch nicht vollständig entdeckt wurde. Gemäß dem Protokoll der International Society of Cell Therapy sollten MSCs die folgenden drei Eigenschaften aufweisen: (i) die Fähigkeit haben, an Kunststoffoberflächen zu haften (ii) positiv auf CD90, CD73 und CD105 und negativ auf CD79, CD19, CD45 testen, CD34, CD14 oder CD11b und HLA-DR und (iii) haben das Potenzial, sich in vitro in Osteoblasten, Chondrozyten und Adipozyten zu differenzieren [18]. In dieser Studie wollten wir weitere Einblicke in die Identifizierung von Hub-Genen und Schlüsselwegen während des frühen, mittleren und späten Stadiums der osteogenen Differenzierung (Tage 0, 8, 12 und 25) als gemeinsame und individuelle Wege gewinnen.

Sowohl kanonische als auch nicht-kanonische Wnt-Wege tragen zur Regulation der Osteogenese bei

Der Wnt-Weg spielt eine Rolle bei der Migration, dem Wachstum, der Bestimmung des Zellschicksals, der Differenzierung und [19, 20] der Knochendifferenzierung [21]. Es gibt vier hochregulierte Gene (FRZB, FZD4, SFK, und FZD1) im nicht-kanonischen Wnt-Weg. Dieser Weg wird häufig an den Tagen 8, 12 und 25 hochreguliert (Abb. 1a). FRZB hatte den höchsten logFC für 3 Tage. Die Überexpression von FRZB durch den Wnt/CaMKII-Weg förderte die Osteogenese, aber nicht durch die Aktivierung des kanonischen Weges [22]. FRZB scheint im Gennetzwerk wichtig zu sein (Abb. 2a). Über seine Wechselwirkung mit kanonischen und nicht-kanonischen Liganden wurde berichtet. FZD4 gehört zur Frizzled (FZD)-Familie. Die Bindung von Wnt an FZD4 aktiviert den kanonischen Wnt/β-Catenin-Signalweg und fördert die osteogene Differenzierung. Neuere Studien haben gezeigt, dass miR-139-5p an CTNNB1 und FZD4 bindet, deren Expression reduziert und dann die osteogene Differenzierung verringert wird [23]. Es wurde berichtet, dass mechanische Stimulation die Osteogenese durch den Wnt5a/FZD4-Weg in BM-MSCs über den nicht-kanonischen Wnt-Weg fördert [24]. SFRP1 ist ein weiteres hochreguliertes Gen in diesem Weg, das eine Rolle bei der Hemmung sowohl des kanonischen als auch des nicht-kanonischen Weges spielt [25].

NF-κB ist ein wichtiger Mediator bei der Förderung der Osteogenese durch den Toll-like-Rezeptor 4 über den BMP2-Weg

Der LPS-vermittelte Signalweg war ein weiterer BP, der alle 3 Tage hochreguliert war ( 1a ). An diesem BP-Term waren fünf Gene beteiligt (IL18, NFKBIA, TLR4, SCARB1, und CD14). TLR4 und CD14 aus diesem Signalweg sind zwei Gene, die am TLR4-Signalweg beteiligt sind. Drei akzessorische Proteine, einschließlich MD2, LBP und CD14, spielen eine Rolle bei der TLR4-Aktivierung. LBP und CD14 erleichtern den Transfer von LPS auf den TLR4/MD2-Komplex [26]. Eine Studie berichtete, dass TLR2- und TLR4-Liganden (Peptidoglycan bzw. LPS) und TNF-α die osteogene Differenzierung über die Aktivierung von NF-κB in humanen Fettgewebestammzellen (hADSC) erhöhen [27]. Zusammengenommen legen diese Ergebnisse nahe, dass NF-κB ein wichtiger Transkriptionsfaktor bei der Regulation der Osteogenese ist ( 4a ). Heß et al. haben gezeigt, dass die durch TNF-α induzierte NF-κB-Aktivierung die osteogene Differenzierung fördert, indem sie die Expression von BMP-2 und alkalischer Phosphatase (ALP) erhöht [28].

Modell der PI3K/AKT-Regulation und Wnt/β-Catenin bei der osteogenen Differenzierung. Wichtige Stoffwechselwege in Osteoblasten, die die Osteogenese über PI3K/AKT und β-Catenin fördern. ein PI3K/AKT und seine Beziehung zu Wachstumsfaktoren, ECM-Anhaftung, IGF1, IGF2, LPS und BMP2 sind im oberen Teil dieser Abbildung dargestellt. Das Fragezeichen neben PI3K/AKT/NF-κB zeigt an, ob PI3K/AKT direkt über den BMP2-Signalweg oder indirekt über die Hochregulation von NF-κB eine signifikante Rolle bei der Osteogenese spielt. B Die Wechselwirkung oder Verbindungen von Genen und Signalwegen mit β-Catenin werden gezeigt. Wnt/β-Catenin interagiert oder wird beeinflusst durch FGF, IGF-1/IGF-2, IGFBP7, VEGF, Integrin-ILK, ITGA11/β1, ITGA5/β1, CDH11, ERK/MAPK, PI3K/AKT, IL-6, und Adiponektin. Der rote Stern steht für allgemein hochregulierte Gene an allen 3 Tagen. Nur die Expression von MAPK3 (ERK1) am Tag 8, ITGA5 an den Tagen 8 und 25 und sowohl IGFBP7 als auch ITGA11 am Tag 25 sind vertreten. ECM, extrazelluläre Matrix PI3K, Phosphoinositid-3-Kinase MKK, MAP-Kinase-Kinasen

Stammzellnische und Mikroumgebung vermitteln Osteogenese über den PI3K/AKT-Signalweg

Wir beobachteten, dass der PI3K/AKT-Signalweg alle 3 Tage hochreguliert wurde. An diesem Signalweg waren 21 Gene beteiligt (Abb. 2b). Kürzlich haben Ergebnisse einer Studie gezeigt, dass der Platelet-Derived Growth Factor (PDGF) die durch TGF-β induzierte osteogene Differenzierung erhöht. PDGF allein beeinflusste die osteogene Differenzierung jedoch nicht, sondern es gab einen synergischen Cross-Talk zwischen den PI3K/AKT (PDGF-vermittelten ( und der Mitogen-aktivierten Proteinkinase (MAPK)/ERK-Kinase (TGF-β-vermittelten)-Wege [29]. Es wurde berichtet, dass der Suppressor von PDGF die Adipogenese über den PI3K-Signalweg fördert [30] Wir beobachteten, dass nach Stimulation von Wachstumsfaktoren PDGFD und VEGFBwurden die Rezeptor-Tyrosin-Kinasen PDGFRA und PDGFRB aktiviert, gefolgt von einer Hochregulation der Mitogen-aktivierten Proteinkinase 2 (MAP2K2) von MAPK (weitere Details siehe nächster Abschnitt) und der dazugehörigen Phosphoinositid-3-Kinase-Regulationsuntereinheit 1 (PIK3R1) zum PI3K-Weg (Abb. 4a).

Obwohl der PI3K/AKT-Signalweg am Osteogeneseprozess bei Mensch und Maus beteiligt ist [31, 32]. Bei Mäusen wird die Rolle dieses Weges bei der enchondralen Ossifikation gezeigt [33], dieser Weg hat auch eine Rolle bei vielen MSC-Funktionen [34]. In vitro trägt AKT zur Chondrogenese und Osteoblastenentwicklung beim Metatarsalwachstum bei, das aus Mäusen isoliert wurde [35]. Es wurde berichtet, dass die Aktivierung des PI3K/AKT-Signalwegs in nicht-caveolären cholesterinreichen Membran-Rafts wichtig war, wahrscheinlich für die menschliche MSC-Osteogenese [31].

Die osteogene Differenzierung in Rattensehnen-Stammzellen (TSCs) wird durch Prostaglandin E2 beeinflusst, das die PI3K/AKT-Signalgebung aktiviert, was zu einer durch BMP induzierten osteogenen Differenzierung führt [36]. Interessanterweise scheint BMP-2 die Auswirkungen des PI3K/AKT-Signalwegs auf die Osteogenese zu vermitteln. Die Rolle von BMP-2 wurde bei der Bindung von Vorläuferzellen in Osteoblasten und bei der Stimulation von Runx2 und anderen Transkriptionsfaktoren wie Dlx3 und Dlx5 gezeigt, die die Osteogenese fördern [37, 38]. In einer anderen Studie wurde vorgeschlagen, dass AKT die BMP-2-Expression möglicherweise nicht direkt vermittelt, sondern die Osteogenese möglicherweise durch einen Transkriptionsfaktor wie NF-κB fördert [36]. Die Induktion dieses Weges durch den insulinähnlichen Wachstumsfaktor (IGF) förderte die Osteoblastendifferenzierung durch BMP. Die Rolle von IGFs auch bei der Knochenbildung und -entwicklung erfolgt über den PI3K/AKT-Weg [32].

Mukherjeeet al. haben gezeigt, dass AKT in allen Stadien der osteogenen Differenzierung eine Rolle spielt. Die Ergebnisse einer Studie zeigten, dass AKT2, aber nicht AKT1, wichtig für die osteogene Differenzierung durch BMP-2 war, das die Expression des Runx2-Gens stimulierte [39]. Insgesamt haben die PPI-Ergebnisse in diesem Weg die Interaktion der PIK3R1 und der Integrin-Untereinheit alpha V (ITGAV) gezeigt, die wichtige Gene in diesem Netzwerk sind (Abb. 2b).

Die Hochregulation beteiligter Gene des MAPK-Signalwegs führte zur Regulation der Osteogenese

In unserer Studie wurden MAP2K2 aus dem PI3K-AKT-Signalweg (an Tag 3) und MAPK3 (an Tag 8) als Hub-Gen hochreguliert. MAP2Ks, einschließlich MEK1 (MAP2K1) und MEK2 (MAP2K2), aktivieren ERK1 (MAPK3) und ERK2 (MAPK1) [40]. Studien haben gezeigt, dass der MAPK-Weg für die Knochenbildung wichtig ist [41,42,43]. Die Rolle von MAPKs bei der Osteogenese ist jedoch widersprüchlich. Eine aktuelle Studie hat gezeigt, dass TRIB3 die Proliferation und Differenzierung im mittleren Differenzierungsstadium durch Hemmung des ERK1/2 beeinflusst [44]. Wie oben erwähnt, ist der molekulare Mechanismus, der TLR4 an der Steuerung des Schicksals von MSCs in Richtung Osteogenese beteiligt ist, noch nicht bekannt. Bei Aktivierung von MAP-Kinase-Kinasen (MKKs) im TLR4-Weg wurden p38, JNK und ERK1/2 aktiviert [45]. In der aktuellen Studie wurde eine maximale ERK-Aktivierung während der Osteogenese von hADSCs am Tag 7 gezeigt, als die LPS-Stimulation verstärkt wurde [46].

Kürzlich wurde gezeigt, dass JNK1 ein negativer Regulator der Osteogenese durch BMP-2 durch Runx2-Phosphorylierung ist [47]. JNK2 wird im späten Stadium der osteogenen Differenzierung benötigt [48]. Interessanterweise zeigten die Ergebnisse in einer Studie, dass JNK1 an der Mineralisierung im späten Stadium der osteogenen Differenzierung beteiligt ist und eine erhöhte Expression von IGF2 und VEGFα durch proangiogene Faktoren vermittelt [49]. p38 ist ein positiver Regulator der OCN-Synthese [50]. Die MAPK-Signalgebung könnte durch verschiedene Faktoren beeinflusst werden, wie Wachstumsfaktoren (TGF-β, BMPs und FGF2), Integrine (ECM) und mechanische Belastung [51], die bei Wachstumsfaktoren und Integrinen mit unserer Studie übereinstimmten (Abb .4a). ERK und p38 MAP Kinase könnten eine Rolle bei der Osteoblastendifferenzierung durch Phosphorylierung von osteogenen Differenzierungs-bezogenen Genen wie RUNX2, Osx und DLX5 spielen [51].

Gene im fokalen Adhäsionssignalisieren fördern die osteogene Differenzierung

Es gab 14 Gene (ITGA1, ITGA10, ITGB5, CTNNB1, MYL9, VEGFB, LAMA2, KOMP, ITGAV, PDGFRA, PDGFRB, PDGFD, COL11A1, und PIK3R1) am fokalen Adhäsionsweg beteiligt, der an den Tagen 8–25 hochreguliert wurde. Wir haben die Hochregulation der Integrin-Untereinheit alpha 5 beobachtet (ITGA5) an den Tagen 8 und 12. Hamidouche et al. stellten fest, dass FAK/ERK1/2-MAPKs und PI3K-Signalwege die osteogene Differenzierung durch Induktion von ITGA5-hMSCs förderten [52]. Es wurde berichtet, dass die Aktivierung von ITGA5 sowohl die IGF2- als auch die IGFBP2-Expression über die FAK-, ERK1/2- und PI3K-Signalgebung induzierte, was zu einer osteogenen Differenzierung in hMSCs führte [53]. In einer anderen Studie ist Cilengitide (ein zyklisches RGD-Pentapeptid) ein ITGAV-Inhibitor [54], der die Ossifikation bei BM-MSCs aufheben kann [55]. Die Interaktion zwischen Osteopontin und Integrin αv/β1 induzierte Osteogenese und hemmte Adipogenese bei MSCs [56]. Daher könnte die Bindung von Osteopontin, Fibronektin und anderen Molekülen, die an der osteogenen Differenzierung beteiligt sind, das mögliche Gleichgewicht zwischen MSCs bestimmen, die sich einer adipogenen oder osteogenen Differenzierung widmen [57]. Wir haben die Hochregulation von Cadherin 11 (CDH11) an allen 3 Tagen beobachtet. CDH11 ist an Zellverbindungen beteiligt und spielt eine Rolle bei der Zellsignalisierung. CDH11 wird in Osteoblasten-Osteogenese exprimiert. Es wurde über seine Rolle bei der Osteoblastenbindung und der osteogenen Differenzierung berichtet [58]. Unsere Daten zeigten, dass Gene, die mit der Zelladhäsion zusammenhängen, wie z ITGA11 und insulinähnlicher Wachstumsfaktor-bindendes Protein 7 (IGFBP7) ebenfalls am 25. Tag hochreguliert. Integrin α11 (ITGA11) ist ein Rezeptor für Osteolectin, der den Wnt-Signalweg aktiviert und die Osteogenese fördert [59]. Vor kurzem haben Zhang et al. berichtete auch, dass die IGFBP7 Gen förderte die osteogene Differenzierung von hBM-MSCs durch Hochregulation des β-Catenin-Signalwegs [60].

Beziehung zwischen Hub-Genen und Wnt-Signalweg während der Osteogenese

Die Rolle wichtiger Hub-Gene einschließlich Interleukin (IL)-6, AKT1, VEGFA, CDK1, PLK1, CDC20, CCNA2, MAPK3 (an Tag 8) und CTNNB1 (an Tag 8 und 25) im Wnt-Signalweg wurde untersucht (Ergänzung Tabelle 2).

Die hemmende Wirkung von IL-6 auf die Osteoblastendifferenzierung bei rheumatoider Arthritis beruht auf seiner negativen Wechselwirkung mit dem Wnt-Signalweg [61]. In einer Studie haben Li et al. schlugen vor, dass die Wirkung von IL-6 auf die Hemmung der osteogenen Differenzierung auf seine hemmende Wirkung auf den kanonischen Wnt-Weg zurückzuführen ist [62].

AKT1 ist ein wichtiges Gen im PI3K/AKT-Signalweg. Es wurden Studien zum Cross-Talk zwischen Wnt/β-Catenin und PI3K/AKT-Signalwegen durchgeführt [63, 64]. Hanet al. haben berichtet, dass die Hemmung von PI3K/AKT die Transkription durch β-Catenin in Glioblastomzellen unterdrückt [64]. β-Catenin kann direkt an Ser552 durch AKT phosphoryliert werden, was es vom Zell-Zell-Kontakt trennt und die Translokation von β-Catenin in den Zellkern sowohl in vitro als auch in vivo erhöht [65].

VEGFA spielt eine zentrale Rolle bei der Angiogenese. Zahlreiche Studien haben die Rolle von VEGFA bei der Verknüpfung von Osteogenese und Angiogenese untersucht [66, 67]. In Osteoblasten- und Endothelzellen induzierte VEGF die Knochenbildung über den β-Catenin-Weg [68]. Die Hemmung von β-Catenin oder Knockdown von Wnt4 in den MSCs führte zur Rückkehr der durch Wnt-Signalgebung induzierten proangiogenen Effekte [69].

CDK1, PLK1, CDC20 und CCNA2 sind Gene, die am Zellzyklus beteiligt sind. Proliferation und Differenzierung haben gegensätzliche Verbindungen [70]. In Übereinstimmung mit früheren Studien wurden die mit dem Zellzyklus zusammenhängenden Gene herunterreguliert [71, 72]. Die Assoziation zwischen dem Wnt-System und Genen im Zusammenhang mit dem Zellzyklus während der Osteogenese wurde weniger beobachtet. Eine Studie legte nahe, dass die Induktion von Wnt/β-Catenin durch LRP6-Phosphorylierung über Cyclin Y/CDK in der G2/M-Phase reguliert wird [73]. Auch der kanonische Wnt-Weg spielt eine wichtige Rolle bei der Zellzykluskontrolle [74].

MAPK3 ist mit dem MAPK-Weg verwandt. Die Ergebnisse zeigten, dass das ERK mit dem Wnt/β-Catenin-Signalweg interagiert. Es wurde auch gezeigt, dass der ERK-Signalweg an der Differenzierung von Osteoblasten durch die Regulation von RUNX2, β-Catenin und ATF4 beteiligt ist [43]. Der Wnt-Weg wird indirekt durch die ERK/MAPK-Signalgebung über die Hemmung von GSK-3β durch p38, JNK und ERK beeinflusst [75].

Die Rolle von β-Catenin wurde sowohl an den kanonischen Wnt-Wegen als auch an der Zell-Zell-Adhäsion beteiligt [16, 76]. Im kanonischen Weg werden Frizzled und LRP5/6 durch Wnt-Liganden aktiviert. In Gegenwart von Wnt-Liganden wird der Zerstörungskomplex (GSK3, AXIN und APC) gehemmt und diese Hemmung hilft bei der Stabilisierung und Translokation von β-Catenin in den Zellkern [77,78,79,80]. Es gibt eine Stelle auf dem Promotor von Runx2 für β-Catenin/TCF-1, die die Expression dieses Gens aktiviert und die osteogene Differenzierung fördert [81]. Tornero-Estebanet al. untersuchten die Beteiligung des Wnt und mögliche kompensatorische Mechanismen an der Pathophysiologie der Osteoarthritis (OA). Sie zeigten, dass die erhöhten Spiegel von β-Catenin in OA-MSCs nicht mit einer erhöhten Osteogenese einhergingen, was darauf hindeutet, dass kompensatorische Mechanismen an der Modulation der Transkription der osteogenen Differenzierung beteiligt sind [82]. Aufgrund der wichtigen Rolle von β-Catenin im Wnt-Weg haben wir im nächsten Abschnitt das β-Catenin untersucht, das mit anderen Signalwegen interagiert/beeinflusst wird.

Der Wnt/β-Catenin-Weg könnte wechselwirken/oder wurde durch andere mit der Osteogenese assoziierte Wege beeinflusst

Die Interaktion zwischen Integrin-verwandten Signalmolekülen und dem Wnt-Weg deutete darauf hin, dass Integrinrezeptoren mit Integrin-linked Kinase (ILK) assoziiert sind [83]. GSK3β wird nach Aktivierung von ILK phosphoryliert [84]. Die Aktivierung von Wnt/β-Catenin- und PI3K-Akt-Signalwegen treibt die osteogene Differenzierung nach geprimtem α5β1-Integrin unter Verwendung von Peptiden in mesenchymalen Skelettzellen an [85]. Eine andere Studie zeigte, dass Osteolectin/α11β1 zu einer Aktivierung des Wnt-Signalwegs führt, die das nukleäre β-Catenin erhöht und schließlich die Osteogenese fördert [59]. CDH11 ist an Osteoblasten beteiligt, die in die osteogene Linie eingetreten sind. Interessanterweise wurde die Adipogenese durch CDH11 nicht beeinflusst und kann über β-Catenin vermittelt werden [58]. Es wurde über eine Beziehung zwischen Wachstumsfaktoren und dem Wnt-Signalweg während der Osteogenese berichtet. (IGF)-I und IGF-II können auch den β-Catenin-Signalweg beeinflussen [86, 87]. IGFBP7 induzierte auch am Tag 25 Osteogenese. FGF interagiert mit dem Wnt/β-Catenin-Weg bei der Osteogenese während der Regulation des Transkriptionsfaktors von Osx [88]. Die Rolle von Adiponektin als Adipozytokin wurde bei der Knochenbildung über den Wnt/β-Catenin-Weg gezeigt [89]. Insgesamt interagiert Wnt/β-Catenin oder wird beeinflusst durch PI3K/AKT, ERK/MAPK, CDH11, Integrine (Integrin-ILK, Integrin α5β1, Integrin α11β1), Wachstumsfaktoren (FGF, IGF1/IGF2, IGFBP7 und VEGF), IL6 und Adiponektin (Abb. 4b).


Clustering, Pathway-Enrichment und Protein-Protein-Interaktionsanalyse der Genexpression bei neurologischen Entwicklungsstörungen

Neuronale Entwicklungsstörungen sind eine Klasse von Krankheiten, bei denen das zentrale Nervensystem und die Gehirnfunktion beeinträchtigt sind. Das Gehirn in seiner Entwicklungsphase durchläuft je nach Stadium und Umweltfaktoren enorme Veränderungen. Neurologische Entwicklungsstörungen umfassen Anomalien im Zusammenhang mit kognitiven, Sprech-, Lese-, Schreib-, Sprach-, Kommunikations- und Wachstumsstörungen mit Auswirkungen auf das ganze Leben. Computergestützte Methoden bieten ein großes Potenzial für die Verbesserung der Forschung und Einblicke in die molekularen Mechanismen von Krankheiten. In dieser Studie haben wir vier Proben neuronaler Entwicklungsdaten von Microarrays verwendet: Kontrolle, RV (Resveratrol), NGF (Nervenwachstumsfaktor) und RV + NGF. Mit computergestützten Methoden haben wir Gene identifiziert, die im frühen Stadium der neuronalen Entwicklung exprimiert werden und auch an neuronalen Erkrankungen beteiligt sind. Wir haben die MeV-Anwendung verwendet, um die Rohdaten unter Verwendung des entfernungsmetrischen Pearson-Korrelationskoeffizienten zu gruppieren. Schließlich wurden 60 Gene auf der Grundlage einer Koexpressionsanalyse ausgewählt. Eine weitere Pathway-Analyse wurde mit dem Metascape-Tool durchgeführt, und der biologische Prozess wurde mit einer Gen-Ontologie-Datenbank untersucht. Insgesamt wurden 13 Gene AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 und CYCS identifiziert, die in allen Clustern vorkommen. Diese Gene sind an neuronalen Entwicklungsstörungen und Krebsarten wie Darmkrebs, Apoptose, Tuberkulose, amyotropher Lateralsklerose (ALS), Neuronentod und Prostatakrebs beteiligt. Eine Protein-Protein-Interaktionsstudie wurde durchgeführt, um Proteine ​​zu identifizieren, die zum gleichen Stoffwechselweg gehören. Diese Gene können verwendet werden, um potenzielle Inhibitoren gegen neurologische Störungen im frühen Stadium der neuronalen Entwicklung zu entwickeln. Die in dieser Veröffentlichung diskutierten Microarray-Proben sind Teil der im Gene Expression Omnibus des NCBI hinterlegten Daten (Yadav et al., 2018) und sind über die GEO Series (Zugangsnummer GSE121261) zugänglich.

1. Einleitung

1.1. Neuronale Entwicklungsstörung

Neurogenese ist ein Prozess zur Erzeugung neuer und funktioneller Neuronen aus neuronalen Vorläufern, die als NSC (neuronale Stammzellen) bekannt sind [1, 2]. Funktionelle Neuronen werden im embryonalen Stadium in verschiedenen Entwicklungsstadien im Laufe des Lebens gebildet [3, 4].Mit dem schnellen Fortschritt in den Techniken und der Neugier, neuronale Erkrankungen in der Entwicklungsphase zu verstehen, haben Forscher ein breites Gebiet neuronaler Entwicklungskrankheiten und deren Ursachen erforscht [5–8]. Neuronale Stammzellen haben zwei Hauptmerkmale, nämlich die Regenerationsfähigkeit, d. h. die Fähigkeit zur Selbsterneuerung durch den Prozess der Zellteilung, und die Differenzierungskapazität, d. h. den Prozess der Erzeugung neuer und spezialisierter Zelltypen [9]. Entwickelte Neuronen tragen keine Dendriten und Axone, aber sie spielen eine wichtige Rolle beim Empfangen und Senden von Signalen an andere Neuronen [10]. Es wurden bedeutende Entwicklungen unternommen, um Gene zu identifizieren, die an neuronalen Erkrankungen im Entwicklungsstadium beteiligt sind [11]. Es ist wichtig, verschiedene Stadien der Entwicklung des Nervensystems zu studieren und Anomalien zu identifizieren, die durch eine falsche Entwicklung des Gehirns in seinem frühen Stadium entstehen können [12]. Wissenschaftler haben einen bedeutenden Beitrag geleistet, um neuronale Störungen zu identifizieren, die in einem frühen Stadium der Entwicklung auftreten [13]. Neuronale Störungen umfassen Anomalien im Zusammenhang mit geistiger Behinderung, Aufmerksamkeitsdefizit-Hyperaktivitätsstörung (ADHS) und Störungen der kognitiven Fähigkeiten wie Legasthenie und Dysgraphie sowie Sprachentwicklungsstörungen wie Ausdrucksstörungen [14-18]. Wissenschaftliche Erkenntnisse zeigen, dass neurologische Störungen in der ersten Woche oder im ersten Monat eines Lebenszyklus im Frühstadium erkannt werden können [19–21]. Es ist wichtig zu identifizieren, welche Gene entscheidend sind und zu neurologischen Störungen führen.

Wir haben ein Hochdurchsatz-Microarray-Experiment verwendet, um Gene zu identifizieren, die in der frühen Phase der Neuroentwicklung beteiligt sind. Unser Ziel war es, Gene zu identifizieren, die exprimiert wurden, wenn Stammzellen MCP (Monocrotophos), einem Neurotoxin, ausgesetzt wurden, und die effektive Rolle von Resveratrol (RV) und Nervenwachstumsfaktor (NGF) als Neuroprotektivum zu bewerten.

1.2. Klinische Perspektiven von Resveratrol

Resveratrol ist ein natürliches Phenol und Phytoalexin, das natürlich von mehreren Pflanzen als Reaktion auf Verletzungen produziert wird [22]. Seit 1939 gibt es in der Literatur exponentielle Hinweise darauf, dass Resveratrol ein vielversprechender natürlicher Wirkstoff zur Vorbeugung und Behandlung einer Vielzahl von menschlichen Erkrankungen ist [23]. Resveratrol soll auch gegen neuronale Zelldysfunktion und Zelltod, Huntington-Krankheit und Alzheimer-Krankheit wirksam sein [24–27]. Molekulare Studien zeigen, dass Resveratrol mit einer Induktion von Genen für die oxidative Phosphorylierung und mitochondriale Biogenese assoziiert ist [28]. Es ist bekannt, dass die Wirkung von Resveratrol die Lebensdauer verlängert und die mitochondriale Funktion und die metabolische Homöostase beeinflusst [29]. In der aktuellen Arbeit haben wir die Wirksamkeit von Resveratrol gegen verletzte neurologische Entwicklungsproben kartiert. In dieser Studie wurden vier Proben hergestellt (Kontrolle, Resveratrol, NGF und RV + NGF). Datensätze von präparierten Proben wurden entnommen, um die neuroprotektive Rolle von Resveratrol gegen die Exposition von Monocrotophos zu untersuchen. In silico-Expressionsanalysen verschiedener Datensätze werden durchgeführt, um Gene zu identifizieren, die koexprimiert werden.

1.3. Microarray-Datenanalyse

Microarrays bieten eine reichhaltige Datenquelle zum molekularen Mechanismus der Zellfunktion. Jeder Microarray berichtet über die Expression von Tausenden von mRNAs [30]. Nahezu jede menschliche Krankheit wird mit Mikroarray-Experimenten untersucht, mit dem Ziel, die neuen Gene, die an Krankheiten und Krankheitsmarkern beteiligt sind, zu finden und Wirkstoffziele zu identifizieren [31]. Die bioinformatische Analyse spielt eine wichtige Rolle bei der Verarbeitung der Informationen, eingebettet in groß angelegte Expressionsprofilierungsstudien, und für die biologische Interpretation von Hochdurchsatz-Mikroarray-Daten [32]. Eine grundlegende, aber herausfordernde Aufgabe bei der Analyse von Microarray-Genexpressionsdaten ist die Identifizierung von Veränderungen der Genexpression, die mit bestimmten biologischen Bedingungen assoziiert sind [33, 34]. Ein sorgfältiges statistisches Design und eine sorgfältige Analyse sind unerlässlich, um Gene zu identifizieren, die an jedem biologischen Zustand beteiligt sind.

Ein Standard-Workflow ist erforderlich, um Rechenwerkzeuge in verschiedenen Schritten der Mikroarray-Analyse zu verwenden. Dieses Papier beschreibt auch die Verwendung verschiedener bioinformatischer Werkzeuge zur Qualitätskontrolle, Normalisierung, Koexpression, Annotation und Analyse von Signalwegen und Protein-Protein-Interaktionen.

1.4. Clustering- und Coexpressionsanalyse

Clustering ist eine Methode zur Identifizierung von Genen, die in jedem biologischen Zustand koexprimiert werden [35]. Clustering-Methoden verwenden ein Distanzmaß (z. B. euklidische Metrik), um die Expressionswerte von Genpaaren für jedes Experiment zu vergleichen [36]. Wenn der Abstand zwischen einem Genpaar klein ist, können die beiden Gene geclustert werden. Cluster werden analysiert, um Gene zu identifizieren, die koexprimiert und koreguliert werden.

1.5. Biologische Annotation und Interpretation

Nach einer umfangreichen Analyse der Microarray-Daten muss man die Affymetrix-IDs auf ihre Bedeutung hin annotieren. Die Annotation enthüllt die biologische Bedeutung von Genen wie ihren molekularen Weg, beteiligte Krankheiten, Genontologie und so weiter [37]. Eine sorgfältige Untersuchung ist erforderlich, um Gene zu identifizieren, die in jeder Bedingung des Mikroarray-Experiments exprimiert werden. Die Anreicherung von Signalwegen und Prozessen ist ein entscheidender Teil der Annotation, da sie zur Identifizierung einer Reihe von Genen führt, die an denselben Signalwegen beteiligt sind [38]. Die Pathway-Analyse hebt auch den Satz von Proteinen hervor, die miteinander interagieren. Diese Informationen werden verwendet, um Protein-Interaktionspartner zu kategorisieren und Protein-Protein-Interaktionsnetzwerke zu untersuchen [39].

2. Materialien und Methoden

2.1. Microarray-Daten

Die MSCs (mesenchymale Stammzellen) wurden verwendet, um die Wirkung von Monocrotophos (MCP) und die Reparaturfähigkeit von Resveratrol und Nervenwachstumsfaktor zu untersuchen. MSCs wurden RV, NGF bzw. RV + NGF ausgesetzt. Insgesamt wurden vier Proben erzeugt, um Gene zu identifizieren, die im Stadium der neuronalen Entwicklung koexprimiert wurden. Die Affymetrix-Genchip-Plattform (Prime view.CDF) wurde verwendet, um die Genexpression unter Verwendung von vier Proben zu identifizieren, wie in Tabelle 1 beschrieben.

2.2. Microarray-Datenanalyse und Annotation

Computersoftware und -werkzeuge wurden verwendet, um Gene zu identifizieren, die koexprimiert werden. Abbildung 1 zeigt den Arbeitsablauf für die Mikroarray-Datenanalyse und Annotation. Es wurden Rohdateien verwendet, d. h. eine elektronische Chipdatei (CEL) und eine Chipbeschreibungsdatei (CDF) für die Qualitätskontrollanalyse. R and Bioconductor, Affy-Paket, wurde für die Datennormalisierung und Datentransformation verwendet. Die Genexpressionsmatrix wurde aus dem Affy-Paket unter Verwendung von RMA (robuster Multiarray-Durchschnitt) erzeugt.

Signifikante Analysen von Microarray (SAM) [40] und Clustering wurden unter Verwendung der MeV-Anwendung [41] durchgeführt. Die Clustering-Methode wurde verwendet, um signifikante Gene zu clustern, die aus der SAM-Methode erhalten wurden. Für das Clustering wurde der entfernungsmetrische Pearson-Korrelationskoeffizient verwendet, wobei der Parameter des k-means-Algorithmus, die Anzahl der Cluster 10 und die Anzahl der Iterationen 50 verwendet wurden. Koexprimierte Gene wurden durch die Analyse von jeweils zehn Clustern identifiziert.

2.3. Pathway-Anreicherung und Protein-Protein-Interaktionsanalyse

Koexprimierte Gene, die aus der Clustering-Analyse identifiziert wurden, wurden für die biologische Interventions- und Pathway-Analyse weiter annotiert. Die Liste der koexprimierten Gene wurde mit dem Metascape-Tool (http://metascape.org) gegen die Pathway- und GO-Datenbank durchsucht [42]. Jedes Gen wurde auf seinen Weg- und Prozessanreicherungswert für die statistische Signifikanz der Gene in jedem biologischen Prozess untersucht. Gene wurden auch nach ihren Pfaden gruppiert. Die Beziehung zwischen den Genen wurde auch unter Verwendung der Netzwerkkarte identifiziert, die mit dem Metascape-Tool erstellt und im Cytoscape-Tool visualisiert wurde [43].

Die Analyse der Protein-Protein-Interaktion wird von verschiedenen Protein-Interaktionsdatenbanken wie BioGrid, InWeb_IM und OmniPath unter Verwendung des Metascape-Tools durchgeführt. Der Molecular Complex Detection (MCODE)-Algorithmus wurde vom Metascape-Tool verwendet, um dicht verbundene Netzwerke der Protein-Protein-Interaktion zu identifizieren [44].

3. Ergebnisse

3.1. Analyse der Qualitätskontrolle

Die Qualitätskontrolle (QC) ist ein wichtiger Aspekt bei der Untersuchung von Microarray-Daten, bevor eine statistische Analyse durchgeführt wird. Die QC-Analyse wurde mit dem Affy-Paket von R und Bioconductor [45] durchgeführt. Abbildung 2 zeigt das Chipbild von vier Proben: (a) Kontrollprobe, (b) NGF-Probe, (c) RV-Probe und (d) RV + NGF-Probe es bedeutet, dass in den Chips aller vier Proben kein Fehler vorliegt, und sie können zur Datenexploration und -analyse verwendet werden.

3.2. Datennormalisierung und -transformation

Die Suche nach biologisch relevanten Antworten aus Mikroarray-Experimenten ist eine Hauptanforderung für jedes Mikroarray-Experiment. Variationen in der Genexpression sollten biologisch nicht auf Fehlerquellen wie Biasness in Farbstoffen, Lasern, Proben und Chip-Spotting während des Microarray-Experiments zurückzuführen sein [46]. Um Mikroarray-Daten zu analysieren, müssen diese Verzerrungen und Fehler im Mikroarray-Experiment beseitigt werden. Die Normalisierung ist eine Methode zur Beseitigung dieser systematischen Fehler, die sich auf die Genexpressionsmessungen auswirken [47]. Nach der QC-Analyse erfolgte die Normalisierung unter Verwendung des Affy-Pakets von R und Bioconductor. Wir haben die RMA-Normalisierungsmethode verwendet. Abbildung 3 zeigt den Boxplot von vier Stichproben nach der Datennormalisierung. Boxplot zeigt statistische Werte wie Mittelwert oder Median und Variationen zwischen den Stichproben [48]. Abbildung 3 zeigt, dass die Mittelwerte aller vier Stichproben in Position sind. Die Daten wurden in den Logarithmus-Basis-2-Wert des Expressionsverhältnisses transformiert und die Expressionsmatrix wurde für weitere statistische Analysen und Vergleiche geschrieben.

3.3. Clustering- und Coexpressionsanalyse

Eine signifikante Analyse von Microarray (SAM) wurde durchgeführt, um die Anzahl der Gene zu identifizieren, die statistisch signifikant waren. Von 49.495 Genen erwiesen sich 49.022 Gene als nicht signifikant und 473 Gene waren statistisch signifikant. Das K-Mittelwert-Clustering wurde an signifikanten Genen mit dem Parameter . durchgeführt k = 10. Zehn Cluster wurden erzeugt und auf die Koexpression von Genen untersucht. 4 zeigt Cluster 1 (nur ein Cluster ist gezeigt, aber alle zehn Cluster wurden für die Koexpressionsanalyse untersucht), der die Koexpression von Tp53 und dem B-Zell-cII/Lymphom2-Gen zeigt. Darüber hinaus werden auch Caspase-8, Caspase-10 und der Dopaminrezeptor koreguliert.

Die Analyse aller zehn Cluster führt zur Identifizierung von koexprimierten Genen. Eine strenge Analyse der Clusterbildung zeigt, dass 60 Gene koexprimiert wurden (AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 und CYCS). Diese Gene wurden für die Genontologie, biologische Funktions- und Signalweganalyse verwendet. Beschreibungen einschließlich der Funktion dieser 60 Gene wurden in der Pathway- und Process-Anreicherungsanalyse gezeigt.

3.4. Pathway- und Prozessanreicherungsanalyse

Koexprimierte Gene, die im Clustering-Schritt geclustert wurden, wurden für die biologische Annotation und Interpretation verwendet. Das Metascape-Tool wurde verwendet, um den Weg und die Verarbeitung dieser 60 Gene zu untersuchen. Ein Protein-Protein-Interaktionsnetzwerk wurde konstruiert, um mehr Proteine ​​zu identifizieren, die eine ähnliche Funktion haben und zum gleichen Stoffwechselweg gehören. 60 Gene wurden auf der Grundlage ihres Anreicherungsscores (der Anreicherungsscore ist der Wert zwischen beobachteter Anzahl und erwarteter zufälliger Anzahl) weiter in 20 Gruppen zusammengefasst [49].

In jedem Cluster repräsentiert ein Term den Cluster, der am statistisch signifikantesten ist [42]. Abbildung 5 zeigt die Heatmap der angereicherten Terme, eingefärbt mit dem

Wert. Die Analyse der Pathway-Anreicherung zeigt, dass die meisten Gene an Darmkrebs, Neurotrophin-Signalweg, Neuronentod und Schilddrüsenhormon-Signalweg beteiligt waren. Andere Cluster weisen auf Gene hin, die an der zellulären Reaktion auf Organostickstoffverbindungen, der Reaktion auf Nikotin und der Kopfentwicklung beteiligt waren. Gene, die zu diesen Clustern gehören, wurden für die Funktions- und Signalweganalyse weiter im Detail untersucht.

Die Top-5-Cluster sind in Tabelle 2 aufgeführt count ist die Anzahl der Gene in jedem Cluster Prozent ist die gesamte Gen-Ontologie, die in der Liste der Gene angegeben ist Log10(P) ist der logarithmische Basis-10-Wert und Log10(q) ist der logarithmisch-basierende 10-Wert [42].

Die Pathway-Anreicherung zeigt, dass neuronale Entwicklungsgene an Darmkrebs, Neuronentod und anderen Krankheiten wie Leukämie und Sklerose beteiligt sind [50]. Die Gene AKT1, BAD, BAX, BCL2, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 und CYCS werden häufig im Cluster von Darmkrebs, neuronalen Signalwegen, neuronalem Tod, amytropher Lateralsklerose und Tuberkulose exprimiert [51 ]. Auf der Grundlage von Protein-Protein-Interaktionsstudien werden weitere Proteine ​​identifiziert, die eine Wechselwirkung mit diesen Proteinen zeigen.

3.5. Anreicherungsanalyse der Protein-Protein-Interaktion

Die Anreicherung der Protein-Protein-Interaktion (PPI) wurde unter der Liste der Gene durchgeführt, die in der Pathway- und Prozessanreicherungsanalyse geclustert wurden. Das Metascape-Tool sagt das PPI-Netzwerk vorher, indem es es mit Proteininteraktionsdatenbanken (BioGrid, InWeb_IM und OmniPath) vergleicht [42]. PPI wird zwischen Proteinen hergestellt, die physikalische Wechselwirkungen aufweisen, und das PPI-Netzwerk wird auf der Grundlage des Wertescores weiter unterteilt. Abbildung 6 zeigt die PPI-Karte zwischen den Eingangsgenen. Drei Gene mit der besten Bewertung nach dem Wert werden identifiziert, diese Proteine ​​definieren die Funktionalität des PPI-Netzwerks. Gene mit der besten Bewertung gehören zu Apoptose (hsa04210) [52], Dickdarmkrebs (hsa05210) [53] und Hepatitis B (hsa05161) [54]. Das PPI-Netzwerk repräsentiert die Beteiligung neuronaler Entwicklungsgene an Krankheiten wie Krebs.

Die Molecular Complex Detection (MCODE)-Methode wurde angewendet, um eng verwandte Proteine ​​aus dem PPI-Netzwerk zu identifizieren. Der MCODE-Algorithmus unterteilt das PPI-Netzwerk in 3 Subcluster. Abbildung 7 zeigt MCODE-Komponenten (rot, blau und grün als MCODE 1, 2 und 3). Drei dichte PPI wurden erstellt und Details zu jedem Cluster sind in Tabelle 3 angegeben. Die MCODE-Vorhersage validiert die Ergebnisse der Clusterbildung, wie zuvor in Abbildung 4 gezeigt. Der gleiche Satz von Proteinen wurde durch den MCODE-Algorithmus identifiziert, wie er durch die Clusterbildung mit dem MeV-Tool vorhergesagt wurde. Diese Proteine ​​haben den gleichen GO und Weg.

Die Clusteranalyse der MCODE-Komponenten wird durchgeführt und Einzelheiten zu den an jedem Cluster beteiligten Proteinen und ihren entsprechenden Signalwegen sind in Tabelle 3 aufgeführt. Cluster 1 umfasst die Proteine ​​CASP3, CASP9, BAX, TP53, BAD, GSK3B, POU5F1, MAPK14, CREB1, SOX2, und KLF4. Genontologische Daten zeigen, dass diese Proteine ​​mit amyotropher Lateralsklerose (hsa05014) [55], Dickdarmkrebs (hsa05210) [56] und positiver Regulation des Neuronentods (GO: 1901216) [57] assoziiert sind.

Cluster-2-Gene werden in Tabelle 3 erwähnt. Die GO-Analyse zeigt, dass diese Proteine ​​zum Schilddrüsenhormon-Signalweg (hsa04919) [55], zu Erkrankungen der Signalübertragung (R-HSA-5663202) [56] und zu Signalwegen bei Krebs (hsa05200) gehören. [57]. Cluster-3-Proteine ​​sind an den Signalwegen der Toxoplasmose (hsa05145) [55], der Tuberkulose (hsa05152) [56] und der Flüssigkeitsscherbelastung und der Arteriosklerose (hsa05418) [55] beteiligt.

MCODE-Cluster und Cluster von MeV-Software zeigen, dass einige Gene häufig exprimiert und koreguliert wurden. Die Gene AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 und CYCS werden koreguliert. Die PPI-Analyse identifiziert andere Proteine, die mit den oben genannten Proteinen interagieren. Diese Proteine ​​sind wichtig bei der neuronalen Differenzierung, und Regenerationsproteine ​​wie ACTB, GSK3B, CREB1 und CTNNB1 haben eine physikalische Wechselwirkung mit koexprimierten Proteinen [58]. Tabelle 3 enthält auch Informationen über Proteine ​​und die Assoziation mit Krankheiten. Die Analyse von mit Proteinen assoziierten Krankheiten zeigt, dass einige Proteine ​​zu verschiedenen Krebsklassen gehören. 12 Proteine ​​(CASP3, CASP9, BAX, TP53, BAD, GSK3B, MTOR, BCL2L11, SIRT1, CASP8, AKT1 und C TNNB1-Proteine) sind an verschiedenen Krebsarten wie Lungenkrebs, Brustkrebs, Eierstockkrebs, Darmkrebs, und Leukämie [59].

Während andere Proteine ​​(GSK3B, POU5F1, MAPK14, CREB1, SOX2, KLF4, PRKACA, MAPK10, STAT1, ACTB, TUBB3, MYC, GAPDH, AKT1 und CTNNB1) mit dem Alterungsprozess, neuronalen Erkrankungen, Herz-Kreislauf-Erkrankungen, anormalem Gehirn Entwicklung, geistige Behinderung, Schizophrenie und mykobakterielle und virale Infektionen [60–62].

Die wichtigsten Ergebnisse der Pathway- und Disease-Assoziationsstudie sind die Identifizierung von Proteinen, die an neurologischen Erkrankungen beteiligt sind und auch im frühen Stadium der neuronalen Entwicklung exprimiert werden. SOX2-Protein wurde bei Sehnervenhypoplasie und Anomalien des zentralen Nervensystems exprimiert [63], STAT1 wurde während mykobakterieller und viraler Infektionen exprimiert [64], TUBB3 wurde mit Fibrose und kortikaler Dysplasie und Gehirndeformitäten in Verbindung gebracht, AKT1 wurde bei Brustkrebs exprimiert, Darmkrebs, Eierstockkrebs und Schizophrenie [65] und CTNNB1 wurde bei Darmkrebs, hepatozellulärem Karzinom, Eierstockkrebs und geistiger Behinderung exprimiert [66]. Die Studie zeigt, dass Proteine ​​(SOX2, STAT1, AKT1 und CTNNB1) als Marker für neurologische Erkrankungen im frühen Stadium der neuronalen Entwicklung verwendet werden können und potenzielle Wirkstoffziele für die therapeutische Entwicklung sein können.

4. Fazit und Diskussion

Das Microarray-Experiment wurde entwickelt, um die Gene zu untersuchen, die im frühen Stadium der neuronalen Entwicklung exprimiert werden. Genexpressionsdaten von Mikroarrays aus der Neuroentwicklung werden verwendet, um Gene zu identifizieren, die in neuronalen Störungen im Anfangsstadium des Fortschritts exprimiert werden [67]. Vier Proben wurden hergestellt, nämlich Kontrolle, Resveratrol, Nervenwachstumsfaktor und RV + NGF und hybridisiert mit dem Affymetrix-Chip (Prime-Ansicht). Die Genexpressionsmatrix wurde konstruiert und eine Computeranalyse wurde durchgeführt. Das Protokoll wurde entwickelt, um biologisch signifikante Gene zu untersuchen. Der Arbeitsablauf der Microarray-Datenanalyse umfasst Qualitätskontrolle, Datennormalisierung, Clustering, Pfadanreicherung und PPI-Studie. Die Clustering-Analyse identifiziert Gene, die koexprimiert werden. Diese Sätze von koexprimierten Genen werden für die Analyse der Signalweg- und Prozessanreicherung verwendet. Genontologie und Pathway-Studie zeigen Proteine, die gemeinsame Pathways und Funktionen teilen. Ein weiteres Protein-Protein-Interaktionsnetzwerk wird konstruiert, um eine größere Anzahl von Proteinen zu identifizieren, die eine physikalische Wechselwirkung mit koexprimierten Proteinen haben. Das PPI-Netzwerk wird in Subcluster unterteilt, um eng verwandte Proteine ​​vorherzusagen. Genontologische Informationen dieser Proteine ​​werden verwendet, um mit Proteinen verbundene Funktionen und Krankheiten zu identifizieren. 12 Proteine ​​CASP3, CASP9, BAX, TP53, BAD, GSK3B, MTOR, BCL2L11, SIRT1, CASP8, AKT1 und CTNNB1-Proteine ​​werden vorhergesagt, die an verschiedenen Krebsarten wie Lungenkrebs, Brustkrebs, Eierstockkrebs, Darmkrebs, und Leukämie [60, 61, 62].Einige Proteine ​​wie SOX2-, STAT1-, AKT1- und CTNNB1-Proteine ​​werden mit neurologischen Erkrankungen wie abnormaler Gehirnentwicklung, geistiger Behinderung, Schizophrenie und mykobakteriellen und viralen Infektionen in Verbindung gebracht [63–66]. Diese Gene können als Marker für neurologische Erkrankungen verwendet werden, um Anomalien im frühen Stadium der neuronalen Entwicklung zu erkennen [67]. Vorhergesagte Proteine ​​können auch als potenzielle Wirkstoffziele für den Wirkstoffentwicklungsprozess fungieren. Weitere Arbeiten sind erforderlich, um die vorhergesagten Gene, die bei neurologischen Erkrankungen exprimiert werden und sich im Entwicklungsstadium exprimieren, im Nasslabor zu verifizieren. Auf dem Gebiet der neurologischen Entwicklungsbiologie ist weitere Forschung erforderlich, um neurologische Anomalien in der Entwicklungsphase zu identifizieren. Dieses Papier hebt auch die Bedeutung von Microarray-Experimenten für das Verständnis neurologischer Erkrankungen und Methodik hervor, um verschiedene Ergebnisse von Genexpressionsdaten zu untersuchen, wie z.

Datenverfügbarkeit

Die zur Unterstützung der Ergebnisse dieser Studie verwendeten Microarray-Daten sind in der ergänzenden Informationsdatei enthalten.

Interessenskonflikte

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Zusatzmaterialien

Genexpressionsmatrix-Microarray-Rohdateien (CEL- und CDF-Dateien) wurden verwendet, um eine Genexpressionsmatrix unter Verwendung des Affy-Pakets und der RMA-Methode (robuster Multiarray Average) herzustellen. Diese Matrixdatei wurde für weitere Microarray-Analysen wie Clustering-, Pathway- und Protein-Protein-Interaktionsanalyse verwendet. Das Pathway- und Protein-Protein-Interaktionsergebnis, wie es vom Metascape-Tool generiert wurde, ist angegeben. Diese Datei enthält Informationen über Clusterbildung innerhalb von Genen und Netzwerkdetails mit Scores. Annotation und Anreicherung Die Annotationsdatei und das Pfadanreicherungsergebnis, wie es vom Metascape-Tool generiert wurde, werden angegeben. Die Anmerkungsdatei enthält Informationen über Gene wie Gensymbol, Genbeschreibung, biologischer GO-Prozess, Proteinfunktion usw. (Zusatzmaterialien)

Verweise

  1. P. S. Eriksson, E. Perfilieva, T. B. Eriksson et al., „Neurogenese im erwachsenen menschlichen Hippocampus“, Naturmedizin, Bd. 4, nein. 11, s. 1313, 1998. Ansicht auf: Website des Herausgebers | Google Scholar
  2. H. Van Praag, G. Kempermann und F. H. Gage, „Laufen erhöht die Zellproliferation und Neurogenese im Gyrus dentatus der erwachsenen Maus“, Natur Neurowissenschaften, Bd. 2, nein. 3, s. 266, 1999. View at: Publisher Site | Google Scholar
  3. H. Van Praag, A. F. Schinder, B. R. Christie, N. Toni, T. D. Palmer und F. H. Gage, „Funktionale Neurogenese im erwachsenen Hippocampus“, Natur, Bd. 415, Nr. 6875, s. 1030, 2002. View at: Publisher Site | Google Scholar
  4. J. Wegiel, I. Kuchna, K. Nowicki et al., „Die Neuropathologie des Autismus: Defekte der Neurogenese und neuronaler Migration und dysplastische Veränderungen“, Acta Neuropathologica, Bd. 119, Nr. 6, S. 755–770, 2010. Ansicht auf: Publisher Site | Google Scholar
  5. M. V. Johnston, M. E. Blue und N. Sakkubai, „Rett-Syndrom und neuronale Entwicklung“, Zeitschrift für Kinderneurologie, Bd. 20, nein. 8, S. 759–763, 2005. View at: Publisher Site | Google Scholar
  6. A. M. Galaburda, J. LoTurco, F. Ramus, R. H. Fitch und G. D. Rosen, „From Genes to Behavior in Developmental Legasthenie“, Natur Neurowissenschaften, Bd. 9, nein. 10, S. 1213–1217, 2006. Ansicht auf: Verlagsseite | Google Scholar
  7. D. A. Lewis und P. Levitt, „Schizophrenie als Störung der neurologischen Entwicklung“, Jährliche Überprüfung der Neurowissenschaften, Bd. 25, nein. 1, S. 409–432, 2002. View at: Publisher Site | Google Scholar
  8. B. D. Trapp und K.-A. Nave, "Multiple Sklerose: eine Immun- oder neurodegenerative Erkrankung?" Jährliche Überprüfung der Neurowissenschaften, Bd. 31, S. 247–269, 2008. View at: Publisher Site | Google Scholar
  9. G. Muñoz-Elías, W. Dale und I. B. Black, „Stromazellen des Marks, Mitose und neuronale Differenzierung: Stammzellen- und Vorläuferfunktionen“, Stammzellen, Bd. 21, nein. 4, S. 437–448, 2003. View at: Publisher Site | Google Scholar
  10. M. Schuldiner, R. Eiges, A. Eden et al., „Induzierte neuronale Differenzierung humaner embryonaler Stammzellen“, Gehirnforschung, Bd. 913, Nr. 2, S. 201–205, 2001. Ansicht auf: Verlagsseite | Google Scholar
  11. D. P. Purpura, „Normale und aberrante neuronale Entwicklung in der Großhirnrinde des menschlichen Fötus und des jungen Säuglings“, in Gehirnmechanismen bei geistiger Behinderung, Elsevier Inc., Amsterdam, Niederlande, 1975. Ansicht auf: Website des Herausgebers | Google Scholar
  12. A. E. West und M. E. Greenberg, „Neuronale Aktivität-regulierte Gentranskription in der Synapsenentwicklung und kognitiven Funktion“, Cold Spring Harbor Perspektiven in der Biologie, Bd. 3, nein. 6, Artikel-ID a005744, 2011. Ansicht auf: Publisher-Site | Google Scholar
  13. M. P. Whitaker-Azmitia, „Serotonin und Gehirnentwicklung: Rolle bei menschlichen Entwicklungskrankheiten“, Gehirnforschungsbulletin, Bd. 56, nein. 5, S. 479–485, 2001. View at: Publisher Site | Google Scholar
  14. T. L. Bale, T. Z. Baram, A. S. Brown et al., „Early Life Programmierung und neurologische Entwicklungsstörungen“, Biologische Psychiatrie, Bd. 68, Nr. 4, S. 314–319, 2010. Ansicht auf: Verlagsseite | Google Scholar
  15. H. Y. Zoghbi, „Postnatale neurologische Entwicklungsstörungen: Treffen an der Synapse?“ Wissenschaft, Bd. 302, Nr. 5646, S. 826–830, 2003. Ansicht auf: Verlagsseite | Google Scholar
  16. M. Dennis, D. J. Francis, P. T. Cirino, R. Schachar, M. A. Barnes und J. M. Fletcher: „Warum der IQ keine Kovariate in kognitiven Studien über neurologische Entwicklungsstörungen ist“ Zeitschrift der Internationalen Neuropsychologischen Gesellschaft, Bd. 15, nein. 3, S. 331–343, 2009. Ansicht auf: Verlagsseite | Google Scholar
  17. P. Krakowiak, C. K. Walker, A. A. Bremer et al., „Stoffwechselzustände der Mutter und Risiko für Autismus und andere neurologische Entwicklungsstörungen“, Pädiatrie, Bd. 129, Nr. 5, S. e1121–e1128, 2012. Ansicht auf: Verlagsseite | Google Scholar
  18. P. Levitt, K. L. Eagleson und E. M. Powell, „Regulierung der neokortikalen Interneuronentwicklung und die Auswirkungen auf neurologische Entwicklungsstörungen“, Trends in den Neurowissenschaften, Bd. 27, nein. 7, S. 400–406, 2004. Ansicht auf: Publisher Site | Google Scholar
  19. I. C. Gillberg und C. Gillberg, „Kinder mit geringfügigen neurologischen Entwicklungsstörungen im Vorschulalter. IV: Verhalten und schulische Leistungen im Alter von 13 Jahren“, Entwicklungsmedizin und Kinderneurologie, Bd. 31, Nr. 1, S. 3–13, 1989. Ansicht bei: Publisher Site | Google Scholar
  20. M. J. Millan, "Ein epigenetischer Rahmen für neurologische Entwicklungsstörungen: von der Pathogenese zur möglichen Therapie", Neuropharmakologie, Bd. 68, S. 2–82, 2013. View at: Publisher Site | Google Scholar
  21. J. A. Baur und D. A. Sinclair, „Therapeutisches Potenzial von Resveratrol: der in-vivo-Beweis“, Natur Bewertungen Dug Entdeckung, Bd. 5, nein. 6, s. 493, 2006. Ansicht auf: Publisher-Site | Google Scholar
  22. L. Frémont, „Biologische Wirkungen von Resveratrol“, Biowissenschaften, Bd. 66, Nr. 8, S. 663–673, 2000. Ansicht auf: Publisher Site | Google Scholar
  23. M. Lagouge, C. Argmann, Z. Gerhart-Hines et al., „Resveratrol verbessert die mitochondriale Funktion und schützt vor Stoffwechselerkrankungen durch die Aktivierung von SIRT1 und PGC-1α“, Zelle, Bd. 127, Nr. 6, S. 1109–1122, 2006. View at: Publisher Site | Google Scholar
  24. M. H. Aziz, S. Reagan-Shaw, J. Wu, B. J. Longley und N. Ahmad, „Chemoprävention von Hautkrebs durch Traubenbestandteil Resveratrol: Relevanz für die menschliche Krankheit?“ FASEB-Journal, Bd. 19, nein. 9, S. 1193–1195, 2005. Ansicht auf: Publisher Site | Google Scholar
  25. K. Magyar, R. Halmosi, A. Palfi et al., „Kardioprotektion durch Resveratrol: eine klinische Studie am Menschen bei Patienten mit stabiler koronarer Herzkrankheit“, Klinische Hämorheologie und Mikrozirkulation, Bd. 50, nein. 3, S. 179–187, 2012. View at: Publisher Site | Google Scholar
  26. V. Vingtdeux, U. Dreses-Werringloer, H. Zhao, P. Davies und P. Marambaud, „Therapeutisches Potenzial von Resveratrol bei Alzheimer-Krankheit“, BMC Neurowissenschaften, Bd. 9, nein. 2, s. S6, 2008. Ansicht auf: Website des Herausgebers | Google Scholar
  27. E. N. Frankel, A. L. Waterhouse und J. E. Kinsella, „Hemmung der menschlichen LDL-Oxidation durch Resveratrol“, Die Lanzette, Bd. 341, nein. 8852, S. 1103-1104, 1993. Ansicht auf: Verlagsseite | Google Scholar
  28. G. López-Lluch, P. M. Irusta, P. Navas und R. de Cabo, „Mitochondriale Biogenese und gesundes Altern“, Experimentelle Gerontologie, Bd. 43, nein. 9, S. 813–819, 2008. View at: Publisher Site | Google Scholar
  29. A. Biala, E. Tauriainen, A. Siltanen et al., „Resveratrol induziert die mitochondriale Biogenese und verbessert das Ang II-induzierte kardiale Remodeling in transgenen Ratten, die humane Renin- und Angiotensinogen-Gene enthalten.“ Blutdruck, Bd. 19, nein. 3, S. 196–205, 2010. Ansicht auf: Verlagsseite | Google Scholar
  30. de M. X. Renée, J. M. Boer und H. C. van Houwelingen, „Mikroarray-Datenanalyse“, Angewandte Bioinformatik, Bd. 3, nein. 4, S. 229–235, 2004. View at: Publisher Site | Google Scholar
  31. A. T. Weeraratna und D. D. Taub, Microarray-Datenanalyse, Humana Press, New York City, NY, USA, 2007.
  32. P. Behzadi, E. Behzadi und R. Ranjbar, „Mikroarray-Datenanalyse“, Herausforderung, Bd. 7, s. 8, 2014. Ansicht bei: Google Scholar
  33. G. K. Smyth, Y. H. Yang und T. Speed, „Statistische Probleme bei der Datenanalyse von cDNA-Mikroarrays“, Funktionelle Genomik, Humana Press, New York City, NY, USA, 2003. Ansicht auf: Verlagsseite | Google Scholar
  34. T. Jirapech-Umpai und S. Aitken, „Merkmalsauswahl und Klassifizierung für die Mikroarray-Datenanalyse: Evolutionäre Methoden zur Identifizierung prädiktiver Gene“, BMC Bioinformatik, Bd. 6, nein. 1, s. 148, 2005. View at: Publisher Site | Google Scholar
  35. G. Getz, E. Levine und E. Domany, „Coupled two-way clustering analysis of gene microarray data“, Proceedings of the National Academy of Sciences, Bd. 97, Nr. 22, S. 12079–12084, 2000. Ansicht auf: Verlagsseite | Google Scholar
  36. R. K. Curtis, M. Orešič und A. Vidal-Puig, „Wege zur Analyse von Mikroarray-Daten“, TRENDS in der Biotechnologie, Bd. 23, nein. 8, S. 429–435, 2005. View at: Publisher Site | Google Scholar
  37. T. Werner, „Bioinformatik-Anwendungen für die Pathway-Analyse von Microarray-Daten“, Aktuelle Meinung in der Biotechnologie, Bd. 19, nein. 1, S. 50–54, 2008. View at: Publisher Site | Google Scholar
  38. G. Wu, X. Feng und L. Stein, „Ein menschliches funktionelles Proteininteraktionsnetzwerk und seine Anwendung auf die Krebsdatenanalyse“, Genombiologie, Bd. 11, nein. 5, s. R53, 2010. Ansicht auf: Website des Herausgebers | Google Scholar
  39. S. Dudoit, R. C. Gentleman und J. Quackenbush, „Open-Source-Software zur Analyse von Microarray-Daten“, Biotechniken, Bd. 34, Nr. 13, S. 45–51, 2003. View at: Publisher Site | Google Scholar
  40. E. Howe, K. Holton, S. Nair, D. Schlauch, R. Sinha und J. Quackenbush, „Mev: Multiexperiment Viewer“, Biomedizinische Informatik für die Krebsforschung, Springer, Boston, MA, USA, 2010. Ansicht bei: Google Scholar
  41. S. Tripathi, M. O. Pohl, Y. Zhou et al., „Meta-and orthogonal integration of Influenza OMICs data defines a role for UBR4 in virus budding“, Zellwirt und Mikrobe, Bd. 18, nein. 6, S. 723–735, 2015. View at: Publisher Site | Google Scholar
  42. L. Shuaichen und G. Wang, „Bioinformatische Analyse zeigt CYP2C9 als potentiellen prognostischen Marker für HCC und Leberkrebszelllinien, die für seine Mechanismusstudie geeignet sind.“ Zell- und Molekularbiologie, Bd. 64, nein. 7, S. 70–74, 2018. View at: Publisher Site | Google Scholar
  43. A. Kuno, K. Nishimura und S. Takahashi: „Die Transkriptomanalyse der menschlichen zellulären Reprogrammierung aus mehreren Zelltypen im Zeitverlauf zeigt die drastische Veränderung zwischen der Mittelphase und der Spätphase.“ BMC Genomics, Bd. 19, nein. 1, s. 9, 2018. View at: Publisher Site | Google Scholar
  44. C. L. Wilson und C. J. Miller, „Simpleaffy: a BioConductor package for Affymetrix quality control and data analysis“, Bioinformatik, Bd. 21, nein. 18, S. 3683–3685, 2005. Ansicht auf: Verlagsseite | Google Scholar
  45. R. A. Irizarry, „Exploration, Normalisierung und Zusammenfassungen von Daten auf Sondenebene von Oligonukleotid-Arrays mit hoher Dichte“, Bio-Statistiken, Bd. 4, nein. 2, S. 249–264, 2003. View at: Publisher Site | Google Scholar
  46. D. P. Kreil, N. A. Karp und K. S. Lilley, „DNA-Microarray-Normalisierungsmethoden können Verzerrungen aus der differentiellen Proteinexpressionsanalyse von 2D-Differenz-Gelelektrophoreseergebnissen entfernen.“ Bioinformatik, Bd. 20, nein. 13, S. 2026–2034, 2004. View at: Publisher Site | Google Scholar
  47. Y. H. Yang, „Normalisierung für cDNA-Mikroarray-Daten: eine robuste zusammengesetzte Methode, die systematische Variation auf einzelnen und mehreren Objektträgern anspricht“, Nukleinsäureforschung, Bd. 30, nein. 4, s. e15, 2002. Ansicht auf: Website des Herausgebers | Google Scholar
  48. Da W. Huang, B. T. Sherman und R. A. Lempicki, „Bioinformatics Enrichment Tools: Paths to the Comprehensive Functional Analysis of Large Gene Lists“, Nukleinsäureforschung, Bd. 37, nein. 1, S. 1–13, 2008. Ansicht auf: Verlagsseite | Google Scholar
  49. S. E. Soden, C. J. Saunders, L. K. Willig et al., „Wirksamkeit der Exom- und Genomsequenzierung, die von der Krankheitsschärfe zur Diagnose von neurologischen Entwicklungsstörungen geleitet wird“, Wissenschaft Translationale Medizin, Bd. 6, nein. 265, Artikel-ID 265ra168, 2014. Ansicht auf: Publisher-Site | Google Scholar
  50. S. Wang, Z. Z. Chong, Y. C. Shang und K. Maiese, „Wnt1 inducible signaling path protein 1 (WISP1) blockiert die Neurodegeneration durch Phosphoinositid-3-Kinase/Akt1 und apoptotische mitochondriale Signalübertragung mit Bad, Bax, Bim und Bcl-xL“, Aktuelle neurovaskuläre Forschung, Bd. 9, nein. 1, S. 20–31, 2012. View at: Publisher Site | Google Scholar
  51. Y. S. Lee, S. G. Hwang, J. K. Kim et al., „Identifizierung neuer therapeutischer Zielgene bei erworbenem Lapatinib-resistentem Brustkrebs durch integrative Metaanalyse“, Tumorbiologie, Bd. 37, nein. 2, S. 2285–2297, 2016. View at: Publisher Site | Google Scholar
  52. A. L. Tarca, S. Draghici, G. Bhatti und R. Romero, „Das Heruntergewichten überlappender Gene verbessert die Gen-Set-Analyse“ BMC Bioinformatik, Bd. 13, nein. 1, s. 136, 2012. Ansicht auf: Website des Herausgebers | Google Scholar
  53. S.-L. Chen, Z.-M. Wang, Z.-Y. Hu und B. Li, „Genomweite Analyse von differentiell exprimierten langen nichtkodierenden RNAs, die durch geringen Scherstress in menschlichen Nabelvenen-Endothelzellen induziert werden“, Integrative Molekulare Medizin, Bd. 2, S. 276–289, 2015. View at: Publisher Site | Google Scholar
  54. Z.-P. Liu, Y. Wang, X.-S. Zhang und L. Chen, „Identifizierung eines dysfunktionalen Übersprechens von Signalwegen in verschiedenen Regionen des Gehirns der Alzheimer-Krankheit“, BMC Systembiologie, Bd. 4, nein. 2, 2010. Ansicht auf: Website des Herausgebers | Google Scholar
  55. R. Wang, J. Wei, Z. Li, Y. Tian und C. Du, „Bioinformatische Analyse der Genexpressionssignaturen verschiedener Gliom-Subtypen“, Onkologische Briefe, Bd. 15, nein. 3, S. 2807–2814, 2018. View at: Publisher Site | Google Scholar
  56. H.-Q. Wang, X.-P. Xie und C.-H. Zheng, „Eine pfadbasierte Klassifikationsmethode, die die Mikroarray-basierte Darmkrebsdiagnose verbessern kann“, in Proceedings of International Conference on Intelligent Computing, Springer, Berlin, Heidelberg, August 2011. Ansicht bei: Google Scholar
  57. J. K. Choudhari, B. P. Sahariah, J. K. Choubey, A. Patel und M. K. Verma, „Identification of potential Transcription Factor and Protein Kinases for Regulation of Differently Expression Genes for Fluorid Exposure in human using Expression2Kinases (X2K) approach“, Netzwerkmodellierungsanalyse in der Gesundheitsinformatik und Bioinformatik, Bd. 6, nein. 1, s. 7, 2017. Ansicht auf: Website des Herausgebers | Google Scholar
  58. V. Uversky, I. Na, K. Landau und R. Schenck, „Hochgradig ungeordnete Proteine ​​bei Prostatakrebs“, Aktuelle Protein- und Peptidwissenschaft, Bd. 18, nein. 5, S. 453–481, 2017. View at: Publisher Site | Google Scholar
  59. E. Weinstein, X. Cui und P. Simmons, Genomische Bearbeitung von neuronalen Entwicklungsgenen bei Tieren, US-Patentanmeldung Nr. 12/842.
  60. D. Nousome, „Identifikation genetischer Risikofaktoren für Kleinhirnmutismus bei pädiatrischen Hirntumorpatienten“, The University of Texas School of Public Health, Houston, TX, USA, 2012, Dissertation. Ansehen bei: Google Scholar
  61. C. R. Sullivan, C. Mielnik, S. M. O’Donovan et al., Konnektivitätsanalysen bioenergetischer Veränderungen bei Schizophrenie: Identifizierung neuer Behandlungsmethoden, bioRxiv, 2018.
  62. A. L. M. Ferri, „Sox2-Mangel verursacht Neurodegeneration und beeinträchtigte Neurogenese im Gehirn von erwachsenen Mäusen“, Entwicklung, Bd. 131, Nr. 15, S. 3805–3819, 2004. View at: Publisher Site | Google Scholar
  63. T. Nishibori, Y. Tanabe, L. Su und M. David, „Beeinträchtigte Entwicklung von CD4+CD25+ regulatorischen T-Zellen in Abwesenheit von STAT1: erhöhte Anfälligkeit für Autoimmunerkrankungen“, Zeitschrift für experimentelle Medizin, Bd. 199, Nr. 1, S. 25–34, 2004. Ansicht auf: Verlagsseite | Google Scholar
  64. G. Xiromerisiou, G. M. Hadjigeorgiou, A. Papadimitriou, E. Katsarogiannis, V. Gourbali und A. B. Singleton, „Assoziation zwischen dem AKT1-Gen und der Parkinson-Krankheit: ein schützender Haplotyp“, Neurowissenschaftliche Briefe, Bd. 436, Nr. 2, S. 232–234, 2008. View at: Publisher Site | Google Scholar
  65. T. Morikawa, "Assoziation von CTNNB1 (β-Catenin) -Veränderungen, Body-Mass-Index und körperlicher Aktivität mit Überleben bei Patienten mit Darmkrebs", JAMA, Bd. 305, nein. 16, S. 1685–1694, 2011. View at: Publisher Site | Google Scholar
  66. N. N. Parikshak, M. J. Gandal und D. H. Geschwind, „Systembiologie und Gennetzwerke bei neurodegenerativen und neurodegenerativen Störungen“, Natur Bewertungen Genetik, Bd. 16, nein. 8, s. 441, 2015. Ansicht auf: Website des Herausgebers | Google Scholar
  67. P. B. Crino, J. Q. Trojanowski, M. A. Dichter und J. Eberwine, „Embryonic neuronal markers in tuberous sclerose: single cell Molecular Pathology“, Proceedings of the National Academy of Sciences, Bd. 93, nein. 24, S. 14152–14157, 1996. View at: Publisher Site | Google Scholar

Urheberrechte ©

Copyright © 2018 Ruchi Yadav und Prachi Srivastava. Dies ist ein Open-Access-Artikel, der unter der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium erlaubt, vorausgesetzt, das Originalwerk wird ordnungsgemäß zitiert.


Diskussion

In einer früheren Studie (21) haben wir gezeigt, dass Transkriptome die In-vivo-Reaktion auf drei Wachstumsstadien der Spezies repräsentieren L. plantarum zeigten eine stadienspezifische Förderung von NF-κB-getriebenen Genregulationsnetzwerken und -wegen. Um zukünftige Studien zu probiotischen Mechanismen und humantherapeutischen Studien zu gestalten und unser grundlegendes Wissen über menschliche In-vivo-Reaktionen auf häufig vorkommende Laktobazillen zu erweitern, haben wir in vivo Transkriptionsreaktionen der Zwölffingerdarmschleimhaut von gesunden Erwachsenen auf drei weit verbreitete probiotische Stämme unterschiedlicher Lactobazillen Spezies und eine Placebo-Kontrolle nach einem randomisierten, doppelblinden Cross-Over-Studiendesign. Die Versuchsbedingungen wurden so gewählt, dass die Darmhomöostase nicht verloren ging. Die aufgenommenen Bakterienmengen betrugen etwa 10 10 , Dosierungen, die empfohlen wurden, um einen klinischen Nutzen zu erreichen (33). Wir haben akute Reaktionen auf Milchsäurebakterien gemessen, und zwar nach 6 h Einnahme im proximalen Teil des Duodenums. Es ist zu erwarten, dass die gemessenen Reaktionen weniger geeignet sind, Hinweise auf mögliche probiotische Effekte im distaleren Ileum oder Kolon zu geben. Derzeit ist nicht bekannt, wie sich die von uns gemessenen akuten Reaktionen auf einen längeren Konsum von Probiotika beziehen. Die geringfügigen Veränderungen in der Genexpression (höchstens moderate Veränderungen bis zu 10 für einige wenige Gene, die Zytokine codieren, normalerweise niedrigere Veränderungen, unter oder nahe 2) legen nahe, dass unsere Interventionen nicht zu einem Verlust der Immun- und Stoffwechselhomöostase führten. Wir erwarten, dass die hochregulierte Transkription von Genen, die an der Immunität beteiligte Faktoren kodieren, auf das Ausgangsniveau zurückkehrt, wenn Probiotika einmal täglich konsumiert werden. Es ist daher möglich, dass die in dieser Studie gemessenen Schleimhautreaktionen bei Individuen häufig, möglicherweise täglich, ausgelöst werden. Die probiotische Standardtherapie beinhaltet oft die tägliche Einnahme von mindestens einer einzigen Portion Probiotika über mehrere Wochen. Bei der Gestaltung klinischer Studien basierend auf den Ergebnissen dieses Manuskripts sollten diese Aspekte nach Möglichkeit berücksichtigt werden und im Idealfall Messungen an mehreren Zeitpunkten und an verschiedenen Orten im gesamten Darm umfassen.

In dieser Studie fanden wir, dass Transkriptome pro Person und nicht pro Intervention gruppiert wurden, was zeigt, dass die Variation der Genexpression von Person zu Person die größte Determinante für die Unterschiede zwischen Transkriptomen war. Trotzdem führte der Verzehr verschiedener probiotischer Laktobazillen zu deutlich unterschiedlichen Expressionsprofilen in vivo in der menschlichen Schleimhaut, was die Annahme bestätigt, dass bestimmte probiotische Stämme, möglicherweise sogar das Wachstumsstadium von Bakterien in einem Präparat (21), beim Menschen spezifische Reaktionen induzieren. Beachten Sie, dass die Ergebnisse dieser Studie möglicherweise nicht auf alle probiotischen Stämme einer bestimmten Spezies zutreffen. Wir rekonstruierten die mukosalen Expressionsprofile zu umfassenden Netzwerken, annotierten diese mit biologischer Funktion und transformierten die Gennetzwerke in miteinander verbundene Signalwege. Auffallend ist, dass die in vivo-Expressionsprofile eine signifikante Ähnlichkeit mit Expressionsprofilen aus pharmazeutischen Hochdurchsatz-Experimenten aufweisen, die darauf abzielen, die Reaktionen üblicher Zelllinien zu profilieren, die mit kleinen Molekülen mit bekannter pharmazeutischer Wirkung und Bioaktivität, einschließlich mehrerer Medikamente, behandelt wurden. Gene, die eine zentrale Rolle in regulatorischen Netzwerken spielen, weisen nur geringe Unterschiede zwischen Individuen auf, und ihre Korrelationen könnten einen Teil der in klinischen Studien beobachteten probiotischen Effekte erklären. Beachten Sie, dass unsere gemessenen in vivo-Reaktionen spezifisch für das proximale Duodenum sein können und wahrscheinlich zu lokalen Wirkungen in der Darmschleimhaut führen, während die meisten Medikamente systemisch im Blutkreislauf wirken. Die Daten und Interpretationen dieser Studie können dazu beitragen, klinische Studien mit freiwilligen Probanden rational zu gestalten, um die Auswirkungen probiotischer Behandlungen zu messen.

Verbrauch von L. acidophilus Lafti L10 führte zu einer Modulation der Transkriptionsregulation des Schleimhaut-IBD-assoziierten IL-23-Signalwegs. Bei den gesunden Freiwilligen zeigte die p40-Untereinheit von IL-23 keine unterschiedliche Expression, während die Expression der p19-Untereinheit herunterreguliert war. Die Expression von p40 und p19 wurde in der Lamina propria von Personen mit Morbus Crohn hochreguliert (27), während eine Abnahme von p19 die bakteriell induzierte Entzündung in einem Mauskolitis-Modell verbesserte (34). Die beobachtete Regulation der IL-23-Signalgebung ist daher eher mit einer Rolle bei der Immuntoleranz vereinbar. Mehrere Th1-spezifische IFN-induzierte Chemokine wie CXCL10 und CXCL11 und IFN-responsive Gene wurden hochreguliert, was darauf hindeutet, dass der Konsum von L. acidophilus Lafti L10 kann Th1-Immunantworten fördern. In einem Mausmodell orale Aufnahme von L. acidophilus Lafti L10 führte zu einer Stimulation der angeborenen Immunantwort, hauptsächlich durch eine erhöhte IFN-Produktion (35). Es kann von Interesse sein, die Wirkung von zu testen L. acidophilus in Krankheitsmodellen, die durch eine fehlende Th1-Antwort und einen damit verbundenen Verlust der Immuntoleranz gekennzeichnet sind. Es kann auch von Interesse sein, zu untersuchen, ob der Konsum von L. acidophilus hat eine positive Wirkung auf die Linderung von Hypertonie der Darmmuskulatur und die Regulierung des Wasser- und Salzhaushalts, wie die ConnMap-Analyse nahelegt.

Verbrauch von L. casei CRL-431 kann eine Verschiebung des Th1/Th2-Gleichgewichts zu einem Th2-Typ und/oder Th17-Typ fördern, wobei letzterer die beobachtete Hochregulierung von IL-17D (syn. IL-22) und IL-21 berücksichtigt (36). IL-15, IL-17D (IL-22) und IL-21 sind auch an der Entwicklung natürlicher Killerzellen beteiligt (37 ⇓ –39), von denen die stärker regulatorische Rolle in der Schleimhautimmunologie erst kürzlich erkannt wurde. Wir beobachteten eine erhöhte Expression von Oberflächenrezeptoren, die typisch für Antikörper-präsentierende Zellen sind. Eine erhöhte Expression von Rezeptoren wurde auch in Makrophagen und dendritischen Zellen in einem Mausmodell nach oraler Gabe von . beobachtet L. casei CRL-431 (40). Aus ConnMap-Analysen abgeleitete entzündungshemmende Wirkungen wurden für eine L. casei Stamm in einem humanen intestinalen Epithelzell-Infektionsmodell (41). Die Ähnlichkeit mit Profilen, die durch Verbindungen induziert wurden, die die Wasserretention und die Salzhomöostase modulieren, wurde durch die erhöhte Expression mehrerer ATPase-Transporter veranschaulicht. Es könnte von Interesse sein, mögliche immunmodulatorische, entzündungshemmende und wasserregulierende Eigenschaften von L. casei.

Verbrauch von L. rhamnosus GG wurde mit der Vorbeugung oder Linderung von allergischen Symptomen in Verbindung gebracht. In einer randomisierten, placebokontrollierten Studie wurde L. rhamnosus GG reduzierte die Entwicklung eines atopischen Ekzems bei Neugeborenen und Säuglingen um die Hälfte (15, 42), möglicherweise durch Verhinderung einer übermäßigen Produktion von Th2-Effektorzellen (10). Nach 5 Wochen täglicher oraler Aufnahme von 2 × 10 9 L. rhamnosus GG bei gesunden Erwachsenen, Messungen der Zytokinproduktion durch periphere Blutzellen deuteten darauf hin, dass die Aufnahme von L. rhamnosus GG hatte das Treg vs. Th1/Th2-Verhältnis und das Th1/Th2-Gleichgewicht verändert (43). Wir haben festgestellt, dass der Verbrauch von L. rhamnosus GG induzierte unter anderem die Zytokin-kodierenden Gene CCL24, CCL2 und CXCL3. Die beiden letztgenannten sind Frühreaktionsgene (44), die besonders wirksam bei der Stimulierung von Th1-Reaktionen sind. Die Hochregulierung mehrerer IFN-induzierter Gene und STAT4 legen nahe, dass der Konsum von L. rhamnosus möglicherweise die Expression von Genen gefördert haben, die die Entwicklung von Th1-Effektorzellen stimulieren (45, 46). In zwei verschiedenen Microarray-Studien, eine mit einer Mauszelllinie und eine, die die Darmreaktionen von Menschen mit Ösophagitis untersuchte, wurden die wichtigsten modulierten Reaktionswege auf L. rhamnosus GG beteiligte sich an der Regulierung der Immunantwort, der Apoptose sowie des Zellwachstums und der Differenzierung (47, 48) (SI-Anhang, SI-Ergebnisse), was darauf hindeutet, dass verschiedene Wirte zumindest einige ähnliche Reaktionen auf diesen Bakterienstamm zeigen.

Insgesamt scheint es eine bemerkenswerte Übereinstimmung zwischen den in vivo-Transkriptionsnetzwerken der menschlichen Schleimhaut zu geben, die nach dem Verzehr probiotischer Bakterien verändert wurden, Hochdurchsatz-Experimenten, die die Reaktionen auf bioaktive Moleküle einschließlich der kommerziellen Medizin untersuchen, und der wissenschaftlichen Literatur (SI-Anhang, Tabelle S4). Obwohl diese Studie nur eine bescheidene Anzahl von Freiwilligen einschließen konnte, sind wir der Ansicht, dass die durch die spezifischen bakteriellen Interventionen induzierten Reaktionswege allgemeiner induziert werden können. Wir leiten dies aus der Beobachtung ab, dass bei allen Freiwilligen behandlungsspezifische Reaktionswege für Bakterien identifiziert wurden, trotz der großen Unterschiede zwischen den Transkriptomen, die von den einzelnen Freiwilligen erhalten wurden. Darüber hinaus zeigten regulatorische Gene mit zentralen Rollen in Netzwerken eine deutlich geringere variable Expression zwischen Personen als Gene, die weniger zentral in Netzwerken auftraten und die direkt und indirekt durch multiple Netzwerke moduliert werden konnten. Wir fanden Hunderte von unterschiedlich exprimierten Genen, die an (der Regulierung) der basalen Schleimhautwege beteiligt sind, einige davon mit klinischer Relevanz. Dies zeigt, dass die Untersuchung der Wirkung bestimmter Bakterienstämme in Cross-Over-Studien an freiwilligen Probanden klinisch relevante Ergebnisse liefern kann. Die zentraleren, regulatorischen Gene, die mit geringer Variation in der Expression differentiell transkribiert wurden, könnten zur Entwicklung von Biomarkern für eine gesunde Duodenalfunktion führen. Die Ergebnisse dieser Studie können auch zur Identifizierung der bakteriellen Moleküle beitragen, die an der Koregulierung der menschlichen Schleimhautfunktion beteiligt sind. Solche Moleküle existieren tatsächlich, wie Studien belegen, in denen sezerniert wurde L. rhamnosus Es wurde festgestellt, dass GG-Proteine ​​TNF-induzierte Epithelzellschäden vermeiden und die Heilung und Homöostase des Darmepithels fördern (49, 50). Wir sind der Ansicht, dass die Probiotikaforschung letztendlich therapeutische Interventionen liefern könnte, die leichte Abweichungen vom normalen Darmstoffwechsel korrigieren und zur Aufrechterhaltung der Darmgesundheit unter leichten Stressbedingungen, wie z. B. körperlicher Betätigung, beitragen können. Die Forschung zu Probiotika könnte einen ähnlichen Ansatz verfolgen wie die Nutrigenomik-Forschung (51), die auf der Idee basiert, dass sich die Ernährung in erster Linie auf die Gesundheit und die Prävention von Krankheiten konzentrieren und die medizinische Therapie ergänzen sollte, die zur Vorbeugung oder Heilung weiter fortgeschrittener Krankheiten eingesetzt wird (52). Die große Variation der Antwort-Transkriptome, die wir in dieser Studie beobachtet haben, zusammen mit den hohen CoVars für diejenigen Gene, die bioaktive Moleküle kodieren, einschließlich Immunzellen anziehender und aktivierender Chemokine, hilft zu erklären, warum eine probiotische Supplementierung zu messbaren Auswirkungen bei manchen Personen, aber nicht bei anderen. Wir gehen davon aus, dass die Reaktion auf Probiotika nicht nur durch die Eigenschaften des konsumierten Bakterienstamms bestimmt wird, sondern auch durch den genetischen Hintergrund, die residente Mikrobiota, die Ernährung und den Lebensstil. Diese Studie könnte daher einer der ersten Schritte sein, um das Zusammenspiel zwischen Mikrobiota, probiotischen oder anderen Nahrungsergänzungsmitteln und der Humangenetik für eine personalisierte Ernährung zu untersuchen.


Übersetzung multifaktorieller Markermodelle in diagnostische Tests

Wege von Entdeckungen in der Omics-Forschung zu klinischen diagnostischen Assays

Omics-Messtechniken mit hohem Durchsatz sind in der Regel nicht für diagnostische Anwendungen konzipiert, sondern für umfassende Analysen auf Systemebene, die Hypothesengenerierung und die Konstruktion erster vorläufiger Modelle für maschinelles Lernen zur Probenklassifizierung. Solche vorläufigen Modelle erfordern eine anschließende Verfeinerung und Validierung unter Verwendung empfindlicherer und reproduzierbarer Messtechniken, um ihr Potenzial für diagnostische Anwendungen zu bewerten. Beispielsweise kann ein anhand von Microarray-Genexpressionsdaten erstelltes und kreuzvalidiertes Probenklassifikationsmodell mit einer eingebetteten Merkmalsauswahl, um nur die informativsten Gene als Prädiktoren auszuwählen, mithilfe einer genaueren quantitativen Reverse-Transkriptions-Polymerase-Kettenreaktion (qRT-PCR) validiert werden. Messungen für die Untergruppe der ausgewählten Gene.

Um falsche Schlussfolgerungen bei der Bewertung diagnostischer Klassifikationsmodelle zu vermeiden, müssen geeignete statistische Methoden gewählt werden, um die Vorhersageleistung eines Modells insgesamt (quantifizieren, wie nahe Vorhersagen am tatsächlichen Ergebnis liegen), seine Kalibrierung/Zuverlässigkeit (Messen, wie nah an x von 100 Personen mit einer Risikovorhersage von x% haben das Ergebnis) und seine Unterscheidungsfähigkeit (Feststellung, ob Personen mit dem Ergebnis eine höhere Risikovorhersage haben als diejenigen ohne) [ 86 ]. Aufgrund der inhärenten Unsicherheit, die mit diagnostischen Aufgaben verbunden ist, sollten Vorhersagen in probabilistischer und nicht in deterministischer Form gemacht werden [ 87 ] und die Gesamtleistung sollte mithilfe sogenannter „richtiger Scoring-Regeln“ quantifiziert werden, für die die erwartete Punktzahl optimiert, wenn die prädiktive Verteilung mit der wahren Verteilung der zu schätzenden Größe übereinstimmt (ein entsprechendes Beispiel ist der Brier-Score für Binär- und Überlebensergebnisse [ 88 ]). Umgekehrt kann die Optimierung von Modellen bezüglich konventioneller diskontinuierlicher Nicht-Fehler-Raten wie der prozentual korrekten Klassifizierung zu irreführenden Ergebnissen führen, z.B. wenn die vorhergesagten Wahrscheinlichkeiten nahe der gewählten Entscheidungsschwelle liegen, die für diese Maßnahmen erforderlich ist [ 89 ]. Um die Kalibrierung eines Modells zu beurteilen, kann der Hosmer-Lemeshow-„Goodness-of-fit“-Test verwendet werden [ 90 ] und die Konkordanzstatistik zur Quantifizierung der Unterscheidungsfähigkeit [ 91 ]. Falls bereits ein Referenzvorhersagesystem vorhanden ist, sollten zusätzlich dedizierte Maße der mit einer neuen Vorhersagemethode erzielten relativen Verbesserung berechnet werden (sog. „Skill“, z. B. quantifiziert über den Brier Skill Score [ 92 ]). Darüber hinaus sollten entscheidungsanalytische Ansätze wie die Entscheidungskurvenanalyse [ 93 ] verwendet werden, um den Nettonutzen zu bewerten, der durch Entscheidungen nach Modellvorhersagen erzielt wird, wenn das Modell zur Steuerung des klinischen Patientenmanagements verwendet werden soll [ 86 ].

Für das Studiendesign sind initiale Powerberechnungen erforderlich, um sicherzustellen, dass für alle statistischen Auswertungen ausreichende Stichprobengrößen zur Verfügung stehen [ 94 ]. Dazu gehört auch die Wahl einer adäquaten Aufteilung der Messdaten in Trainings-, Test- und Validierungssets sowie die Auswahl geeigneter Kreuzvalidierungs- oder Resampling-Techniken zur Modelloptimierung und -bewertung (z. B. mittels zweistufiger externer Kreuzvalidierung [ 95 ]) [ 96 ].

Wichtig ist, dass die klinische Validierung nicht nur deutlich größere Stichprobengrößen als die meisten Forschungsstudien erfordert, sondern auch unabhängige Replikationstests mit Daten anderer Patientenkohorten, die klare Spezifikation der biologischen Begründung der Methode und den Nachweis ihres klinischen Nutzens. Im Gegensatz zum regulatorischen Rahmen für Arzneimittel gibt es mehrere Wege für die Übersetzung von Omics-basierten Tests in validierte in vitro diagnostische Testgeräte. Diese Tests können entweder durch Überprüfung durch die Food and Drug Administration (FDA) oder durch Validierung und Durchführung durch ein spezifisches Labor entwickelt und validiert werden, das gemäß Clinical Laboratory Improvement Amendments (CLIA) [ 97 ] zertifiziert ist.

Da die Nutzung etablierter Medizinproduktentwicklungspipelines wie in pharmazeutischen Unternehmen in der Wissenschaft nicht gängige Praxis ist, ist für viele biomedizinische Forschungseinrichtungen eine frühzeitige Zusammenarbeit mit einem erfahrenen Industriepartner oft ratsam. Obwohl derzeit kein einzigartiges und allgemein anerkanntes Standardverfahren für die Umsetzung von Omics-Forschungsergebnissen in die klinische Diagnostik verfügbar ist, können allgemeine Empfehlungen von weithin anerkannten Gesundheitsorganisationen befolgt werden. Insbesondere hat ein Komitee des US Institute of Medicine eine Studie zur Omics-basierten klinischen Testentwicklung durchgeführt und einen generischen Prozess zur Entwicklung und Bewertung dieser Tests als empfohlene Leitlinie vorgeschlagen [ 97 ]. Ein entsprechender beispielhafter Prozess, der in Abbildung 1 zur Veranschaulichung kurz skizziert ist und nicht alle wichtigen Variationen abdecken soll, beginnt mit der Entdeckungsphase, in der ein Kandidaten-Biomarker-Modell auf einem Trainingsset aufgebaut, gesperrt und anhand von Testdaten ausgewertet wird Satz (dieser Satz von Stichproben sollte vollständig unabhängig vom Trainingssatz sein). In der anschließenden Testvalidierungsphase, nach Genehmigung durch das Institutional Review Board und Rücksprache mit der FDA, definiert und optimiert ein CLIA-zertifiziertes Labor die diagnostische Testmethode, validiert den Test klinisch und biologisch an einem verblindeten Probenset und führt den Test gemäß aktueller klinischer Standards durch Laborstandards.

Beispielhafte Darstellung gängiger Stadien bei der Entwicklung von Omics-basierten Diagnosetests (vereinfachte Version des Verfahrens in einer Studie des US Institute of Medicine [ 97 ] mit Fokus auf die wichtigsten Schritte in der Pipeline). Nach dem Übergang von der zweiten in die dritte Phase (markiert durch das Schlosssymbol) muss der Diagnosetest vollständig definiert, validiert und gesperrt werden. Es gibt viele wichtige Varianten und Alternativen zu dem skizzierten Beispielprozess sowie unterschiedliche Realisierungen von generischen Prozessschritten (z sie es für richtig halten oder ob vordefinierte Verfahren bei Kontraindikationen und/oder in Abhängigkeit von den Testergebnissen befolgt werden müssen). Das Setup kann auch variieren, je nachdem, ob genau bekannt ist, wie Patienten behandelt worden wären, wenn sie in den anderen Arm randomisiert worden wären, ob der Test eine Behandlungsverzögerung mit sich bringt und ob die angemessene Cutoff-Schwelle für den Test unsicher ist.

Beispielhafte Darstellung gängiger Stadien bei der Entwicklung von Omics-basierten Diagnosetests (vereinfachte Version des Verfahrens in einer Studie des US Institute of Medicine [ 97 ] mit Fokus auf die wichtigsten Schritte in der Pipeline). Nach dem Übergang von der zweiten in die dritte Phase (markiert durch das Schlosssymbol) muss der Diagnosetest vollständig definiert, validiert und gesperrt werden. Es gibt viele wichtige Varianten und Alternativen zu dem skizzierten Beispielprozess sowie unterschiedliche Realisierungen von generischen Prozessschritten (z sie es für richtig halten oder ob vordefinierte Verfahren bei Kontraindikationen und/oder in Abhängigkeit von den Testergebnissen befolgt werden müssen). Das Setup kann auch variieren, je nachdem, ob genau bekannt ist, wie Patienten behandelt worden wären, wenn sie in den anderen Arm randomisiert worden wären, ob der Test eine Behandlungsverzögerung mit sich bringt und ob die angemessene Cutoff-Schwelle für den Test unsicher ist.

Interessanterweise heben die Autoren der Leitlinie hervor, dass ein häufiges Manko von Omics-basierten Tests das Fehlen einer biologischen Begründung für den Test ist Lernen sind oft schwieriger zu interpretieren und bergen ein größeres Risiko der Überanpassung. Neue pfad- und netzwerkbasierte Modellierungstechniken, wie in diesem Review diskutiert, könnten daher dazu beitragen, einige dieser Mängel zu beheben und besser interpretierbare und robustere Modelle im Gegensatz zu klassischen „Black Box“-Modellen für maschinelles Lernen bereitzustellen.

In der folgenden Phase des klinischen Entwicklungsprozesses wird der Lockdown-Test anhand eines der folgenden Ansätze auf seinen klinischen Nutzen hin bewertet: (i) eine prospektive-retrospektive Studie mit archivierten Proben aus früheren klinischen Studien, (ii) eine prospektive klinische Studie bei denen der Test (a) das Patientenmanagement steuert oder (b) das Patientenmanagement nicht lenkt [ 97 ]. Die Komplexität und Dauer einer entsprechenden klinischen Studie oder Studie hängt weitgehend von der spezifischen Art des entwickelten Biomarkers und dem vorgeschlagenen klinischen Nutzen ab. Bei diagnostischen Biomarkern, auf die sich dieser Review konzentriert, können die Verfahren erheblich variieren, je nachdem, ob der Test darauf ausgelegt ist, das Vorhandensein, den Schweregrad oder den Subtyp einer Krankheit zu erkennen. Auch prognostische Biomarker, die den zukünftigen klinischen Verlauf eines Patienten in Bezug auf ein bestimmtes Outcome anzeigen, und prädiktive Biomarker, die die Responder und das Ausmaß der Anfälligkeit für eine bestimmte Arzneimittelwirkung vorhersagen, werden andere Entwicklungs- und Bewertungsverfahren erfordern als diagnostische Marker. Schließlich können für jeden Biomarkertyp unterschiedliche klinische Vorteile ins Auge gefasst werden und das Design einer Studie maßgeblich beeinflussen, z. das Ziel, geeignetere Behandlungsoptionen zu wählen, oder das Ziel, die Krankheit früher zu diagnostizieren, um wirksamere Therapien zu ermöglichen, um ihr Fortschreiten zu verhindern, zu stoppen oder zu verlangsamen.

Bisherige Erfolgsgeschichten in der Omics-basierten Entwicklung diagnostischer Assays

Eine Vielzahl multifaktorieller, omics-basierter Biomarker-Modelle wurden in den letzten Jahren insbesondere im Bereich der Krebs-Subtyp-Stratifizierung erfolgreich in diagnostische Tests umgesetzt. Ein prominentes Beispiel ist der Oncotype DX-Test zur Beurteilung des Rückfallrisikos einer Frau für Östrogenrezeptor-positivem Brustkrebs im Frühstadium und der Wahrscheinlichkeit, von einer Chemotherapie nach einer Operation zu profitieren. Dieser Test misst die Aktivität von 21 Genen in Tumorproben und bestimmt dann eine Rezidiv-Score-Zahl zwischen 0 und 100 (höhere Werte spiegeln ein höheres Rezidivrisiko innerhalb von 10 Jahren wider). Im Gegensatz zu anderen diagnostischen Tests mit gefrorenen Proben verwendet der Oncotype DX-Assay chemisch konservierte und in Paraffinwachs versiegelte Tumorgewebeproben (Details zur Probenentnahme und Analytik siehe [ 98 , 99 ]).

Die Entwicklung von Oncotype DX umfasste typische Schritte eines Omics-Biomarker-Profiling- und Top-Down-Filtering-Ansatzes: Zunächst wurden durch Analyse des gesamten Transkriptoms auf Hochdurchsatz-Microarray-Daten und unter Nutzung von Wissen aus Literatur und Genomdatenbanken 250 Marker-Kandidatengene ausgewählt [ 98]. Der Zusammenhang zwischen der Expression dieser Kandidaten und dem Wiederauftreten von Brustkrebs wurde dann anhand von Daten aus drei unabhängigen klinischen Studien an 447 Patientinnen untersucht. Die Ergebnisse wurden für eine abschließende Filterung verwendet, die ein Panel von 16 krebsbezogenen Genen und 5 Referenzgenen lieferte, deren Expressionsniveaus die Berechnung von Rezidivwerten für Tumorproben über ein maschinelles Lernmodell ermöglichten. Dieser diagnostische Ansatz wurde in mehreren klinischen Studien erfolgreich validiert und wurde vom National Comprehensive Cancer Center Network und der American Society of Clinical Oncology in die Behandlungsleitlinien für Brustkrebs aufgenommen.

Während im Fall des Oncotype DX-Tests die Menge der erforderlichen Marker mit Vorkenntnissen über deren Zusammenhang mit der Krankheit auf eine kleine Anzahl von Genen eingegrenzt werden konnte, können bei anderen komplexen und heterogeneren Erkrankungen deutlich mehr molekulare Prädiktoren auftreten für eine genaue Diagnose benötigt werden. In solchen Fällen können pfad- und netzwerkbasierte Modellierungsansätze die Generierung robuster und biologisch interpretierbarer Modelle erleichtern, die anschließend ähnlichen diagnostischen Testentwicklungs- und Validierungsverfahren wie das ursprüngliche Modell des Oncotype DX Assays unterzogen werden könnten. Wichtig ist, dass der Erfolg des Oncotype DX-Ansatzes kein Einzelfall ist, sondern andere kommerzielle diagnostische Assays mit ähnlichen Strategien entwickelt und validiert wurden, darunter MammaPrint [ 100 ], Prosigna (PAM50) [ 101 ], Mammostrat [ 102 ], Tissue of Origin [ 103 ], AlloMap [ 104 ], Corus CAD [ 105 ] und OVA1 [ 106 ], unter anderem.

Zusammenfassend lässt sich sagen, dass in der Vergangenheit in mehreren Fällen eine erfolgreiche Umsetzung von Omics-basierten Biomarkermodellen in klinisch akzeptierte kommerzielle diagnostische Tests erreicht wurde. Angesichts einer großen Anzahl komplexer Krankheiten, für die noch zuverlässigere, frühere und kostengünstigere diagnostische Tests benötigt werden, besteht ein erhebliches Potenzial für die Entwicklung verbesserter Ansätze unter Verwendung von Omics-basierter Biomarker-Modellierung und der Nutzung des biologischen Vorwissens aus Signalwegen und molekularen Netzwerken.


Netzwerkbasierte Biomarker-Modellierung

Obwohl manuell kuratierte Signalwege viele Vorteile für die biologische Interpretation groß angelegter Omics-Daten bieten, sind Stoffwechsel- und Signalwege in lebenden Zellen nicht isoliert, sondern in großen und komplexen molekularen und regulatorischen Netzwerken miteinander verbunden. Diese Netzwerke umfassen oft mehrere Gene, Proteine ​​oder Metaboliten, die für keinen Pfad annotiert sind und daher von pfadbasierten Analysemethoden ignoriert werden. Um krankheitsassoziierte Module miteinander verbundener Biomoleküle unvoreingenommener zu identifizieren (d. h. ohne den Suchraum auf Biomoleküle mit bekannten Pfadannotationen einzuschränken), wurden netzwerkbasierte Analysemethoden eingeführt. Während pfadbasierte Ansätze zur Biomarker-Modellierung Vorteile hinsichtlich der Modellinterpretierbarkeit haben können, wird die Suchraumerkundung bei der netzwerkbasierten Biomarker-Entdeckung nicht durch subjektiv definierte Pfadgrenzen eingeschränkt, und die als Input verwendeten molekularen Netzwerke auf Genomskala umfassen typischerweise deutlich größere Anzahl von Biomolekülen als alle kombinierten Wege. Dennoch weisen Netzwerke, die aus öffentlichen Datenquellen aufgebaut sind, ähnlich wie subjektiv definierte Pfade verschiedene Einschränkungen auf, z. fehlende molekulare Wechselwirkungen und das Fehlen gewebespezifischer Annotationen, und diese Probleme müssen durch spezielle Methoden angegangen werden (siehe Abschnitt 𠆎inschränkungen und mögliche Lösungsstrategien’ unten). Im Folgenden werden zwei Haupttypen netzwerkbasierter Modellierungsansätze diskutiert: Zum einen zweistufige sequentielle Ansätze, die die Aktivität in molekularen Subnetzen bewerten und diese Aktivitäten anschließend für prädiktives maschinelles Lernen nutzen und zum anderen einstufige Netzwerkanalyseansätze , die Informationen zur Netzwerktopologie direkt innerhalb der prädiktiven Modellbildung nutzen.

Zweistufige Bewertungs- und Vorhersageansätze für Netzwerkaktivitäten

Die Netzwerkaktivität über mehrere miteinander verbundene Biomoleküle kann unter Verwendung ähnlicher Mittelungs- oder Dimensionsreduktionsansätze wie bei Verfahren zur Bewertung der Pfadaktivität zusammengefasst und bewertet werden. Im Gegensatz zur einfachen Verwendung vordefinierter Pfaddefinitionen muss jedoch zuerst ein molekulares oder regulatorisches Netzwerk aufgebaut oder rekonstruiert werden, entweder unter Verwendung öffentlicher Datenbanken für molekulare Interaktionen oder unter Anwendung von Netzwerkinferenzmethoden auf Omics-Daten (in Tabelle 2 , eine Übersicht über verschiedene Methoden gezeigt, die im Folgenden besprochen werden).

Tabelle 2.

Übersicht über netzwerkbasierte Methoden zur maschinellen Lernanalyse von Omics-Daten sequenzielle Bewertungs- und Vorhersagemethoden für Netzwerkaktivitäten werden oben angezeigt, während maschinelle Lernansätze, die eine eingebettete netzwerkbasierte Merkmalsauswahl verwenden, unterhalb der fetten schwarzen Linie aufgeführt sind

Methodik-Publikation Bewertungsmethode für Netzwerkaktivität/-änderungVorhersagemethode
Stecken etਊl. [39]Probenspezifische Genregulationsnetzwerke werden konstruiert und die Subnetzwerkaktivität wird durch Summieren über aktive Interaktionen bewertetNächste Nachbarn, Entscheidungsbaum, Naïve Bayes, unter anderem
Ma etਊl. [40]Die Krankheitsassoziation wird für Gene basierend auf Genexpressionsdaten und ihren Nachbarn’-Assoziationswerten in einem PPI-Netzwerk unter Verwendung der Markov-Random-Field-Theorie bewertetDer Ansatz wird für die Priorisierung von Krankheitsgenen evaluiert, ist jedoch für die prädiktive Merkmalsauswahl in Kombination mit jeder Vorhersagemethode anwendbar
Chuang etਊl. [41]Normalisierte Genexpressionsdaten werden auf ein Proteininteraktionsnetzwerk abgebildet und diskriminierende Subnetzwerke werden über ein gieriges Suchverfahren identifiziertLogistische Regression
Taylor etਊl. [42]Hub-Knoten in Proteininteraktionsnetzwerken werden bestimmt und die relative Genexpression von Hubs mit jedem ihrer interagierenden Partner wird berechnet, um Hubs mit unterschiedlicher relativer Expression über Probengruppen hinweg zu identifizierenAffinity Propagation Clustering wird verwendet, um Brustkrebspatientinnen eine Wahrscheinlichkeit einer schlechten Prognose zuzuordnen
Petrochilos etਊl. [43]Ein Random-Walk-Community-Detection-Algorithmus wird angewendet, um Module in einem molekularen Interaktionsnetzwerk zu entdecken, und Genexpressionsdaten werden verwendet, um krankheitsassoziierte Module zu identifizierenDer Ansatz wird verwendet, um krebsassoziierte Netzwerkmodule zu identifizieren und validiert, indem die Anreicherung bekannter krebsbezogener Gene bewertet wird, die aus der OMIM-Datenbank extrahiert wurden
Rapaport etਊl. [44]Die spektrale Zerlegung von Genexpressionsprofilen wird in Bezug auf die Eigenfunktionen eines Netzwerkgraphen angewendet, wobei die Hochfrequenzkomponenten der Expressionsprofile in Bezug auf die Graphtopologie abgeschwächt werdenSVM
Li etਊl. [45]Ein netzwerkbeschränktes Regularisierungsverfahren für die lineare Regressionsanalyse wird verwendet, um krankheitsbezogene diskriminierende Subnetzwerke zu identifizierenBestrafte lineare Regression
Yang etਊl. [46]Es werden drei maschinelle Lernmethoden für die graphengesteuerte Merkmalsauswahl und -gruppierung vorgeschlagen, darunter eine konvexe Funktion und zwei nicht-konvexe Formulierungen, die den Schätzfehler reduzieren sollenPenalized Least Squares-based Approach (GOSCAR: Graph octagonal Shrinkage and Clustering algorithm for Regression)
Lorbert etਊl. [47, 48]Es wird ein sparsamer Regressionsansatz vorgeschlagen, bei dem der PEN-Strafe verwendet wird, um die Gruppierung stark korrelierter Merkmale basierend auf paarweisen Ähnlichkeiten (z. B. abgeleitet von einem molekularen Interaktionsgraphen) zu bevorzugen.Bestrafte Regression (PEN-Strafe)
Vlassis etਊl. [49]Die bestrafte logistische Regression wird unter Verwendung einer konvexen PEN-Straffunktion angewendet (siehe Ansatz von Lorbert etਊl.) mit absoluten Merkmalsgewichten, um die Relevanz diskriminierender Gene bei der Merkmalsauswahl besser widerzuspiegelnBestrafte logistische Regression (PEN-Strafe mit absoluten Merkmalsgewichten)

Eine erste Methode zur Konstruktion neuer probenspezifischer Genregulationsnetzwerke für die Transkriptomik-Probenklassifizierung wurde von Tuck . vorgeschlagen etਊl. [39]. Die Netzwerke wurden generiert, indem die graphentheoretische Schnittmenge zwischen einem statischen Konnektivitätsnetzwerk (das die Bindung des Transkriptionsfaktors an Genpromotorregionen repräsentiert) mit Daten aus der TRANSFAC-Datenbank [50] mit probenspezifischen Coexpressionsnetzwerken (die den Transkriptionsfaktor repräsentiert) bestimmt wurde. x02013target gene coexpression), abgeleitet aus Genexpressionsdaten. Um diskriminierende Merkmale für die Klassifizierung von diagnostischen Proben aus diesen Netzwerken zu extrahieren, schlugen sie einen Link-basierten Klassifikationsansatz vor, der den Aktivitätsstatus von Genregulationsinteraktionen (genannt ‘links’) über verschiedene Probengruppen hinweg vergleicht, und eine gradbasierte Klassifikationsmethode. Vergleich der topologischen Zentralitätsmaße [51] für die Netzwerke. Beim Testen dieser Ansätze mit Daten aus verschiedenen Krebs-Fall-Kontroll-Studien wurden hohe kreuzvalidierte Genauigkeiten sowohl für die Zelltyp- als auch für die Patientenprobenklassifizierung berichtet. Darüber hinaus ermöglichte die netzwerkbasierte Analyse den Autoren, wichtige Transkriptionsregulatoren zu identifizieren, die unter bestimmten Krankheitsbedingungen verändert wurden.

Anstatt neue regulatorische Netzwerke aufzubauen, können diskriminierende krankheitsassoziierte Netzwerkveränderungen auch durch computergestütztes Mapping von Omics-Daten auf in Silikon Darstellungen von biochemischen Protein-Protein-Interaktions-(PPI)-Netzwerken. Ma etਊl. [40] einen entsprechenden Ansatz entwickelt, um zuverlässigere Krankheitsassoziations-Scores für Gene zu erhalten, indem Nachbarschaftsinformationen aus einem PPI-Netzwerk genutzt werden. Sie verwendeten einen modifizierten Pearson-Korrelationskoeffizienten, um die Assoziation zwischen der Microarray-Genexpression und numerischen Werten, die den Krankheitsstatus der Proben kodieren, zu beurteilen (unter Berücksichtigung, dass diese Phänotypwerte möglicherweise keine Normalverteilung aufweisen) und wiesen die Fisher-transformierte Gen-Phänotyp-Assoziation zu punktet mit den entsprechenden Proteinen in einem PPI. Als Nächstes kalibrieren sie diese Assoziationsbewertungen neu, indem sie die zugrunde liegenden wahren Bewertungen für jedes Gen unter Verwendung der Markov-Zufallsfeldtheorie [52] modellieren und ihre Werte aus den gewichteten Beiträgen ihrer ursprünglichen Assoziationsbewertungen ihrer Netzwerknachbarn neu schätzen (die Gewichtungen werden gemäß der unterschiedlichen Netzwerkumgebung bestimmt). Definitionen, die entweder direkte Nachbarn, kürzeste Pfade oder Diffusionskernel-Nachbarschaften verwenden, siehe [40] für Details). Bei der Bewertung der Nützlichkeit der rekalibrierten Scores für die Priorisierung von Krankheitsgenen auf Microarray-Daten unter Verwendung bekannter funktioneller Annotationen der Gene Ontologie wurden konventionelle Priorisierungsansätze, die nur Genexpressions- oder PPI-Daten verwenden, übertroffen (obwohl der Bewertungsansatz auch für die prädiktive Modellbildung verwendet werden könnte, dies besonders Bewerbung wurde nicht berücksichtigt).

Während der Ansatz von Ma etਊl. konzentriert sich auf die Verbesserung der Krankheitsassoziations-Scores für einzelne Gene, Chuang etਊl. [41] stellten eine Methode vor, die ganze krankheitsbezogene Subnetzwerke identifiziert und bewertet, ähnlich dem oben diskutierten Ansatz zur Bewertung der Pathway-Assoziation (siehe Lee etਊl. [29]). Nach der Berechnung der Mutual Information (MI) zwischen Proben-Phänotypwerten (die das Vorhandensein oder Fehlen einer Krankheit kodieren) und diskretisierten Expressionswerten für jedes Gen aus einem Microarray-Datensatz, der den Proteinen in einem PPI zugeordnet ist, wandten sie eine gierige Suche an, um die Seed-Knoten im Netzwerk mit lokal maximalen MI-Scores. Insbesondere wurde jeder Seed-Knoten so erweitert, dass die Summe der Bewertungen für das erweiterte Netzwerkmodul maximiert wird (die Suche stoppt, wenn keine Erweiterung die Gesamtbewertung über eine vordefinierte Verbesserungsrate erhöht). Beim Training von logistischen Regressionsklassifikatoren auf die normalisierten und gemittelten Aktivitäten der resultierenden Subnetzwerke für Brustkrebsdaten stellten die Autoren fest, dass die Subnetzwerkmarker besser reproduzierbar waren als Einzelgenmarker und eine höhere Genauigkeit bei der Unterscheidung metastatischer von nichtmetastasierten Tumoren lieferten.

Als Zwischenlösung zwischen der Fokussierung auf einzelne Biomoleküle und ganze Netzwerkmodule bietet Taylor etਊl. [42] schlugen eine Methode vor, die Netzwerkknoten mit hervorragenden topologischen Eigenschaften und ihre direkten Nachbarn untersucht. Nach der computergestützten Kartierung der Genexpressionsdaten von Brustkrebs auf die in Silikon Darstellung eines PPI-Netzwerks, bestimmten sie Proteine ​​mit einer großen Zahl biochemischer Interaktionspartner (sogenannte ‘hub-Knoten’) und berechneten deren relative Expression im Vergleich zu jedem dieser Interaktionspartner. Sie bestimmten dann, für welche Hubs sich die relative Expression zwischen Langzeitüberlebenden und Patienten, die an der Krankheit starben, signifikant unterschied und wandten einen Clustering-Ansatz an, um neuen Patientenproben eine Wahrscheinlichkeit einer schlechten Prognose zuzuordnen (die verwendete spezifische Methode ist bekannt als &# x02018Affinitätsausbreitungsclustering’ in der Literatur). Der Ansatz wurde mithilfe einer 5-fach-Kreuzvalidierung evaluiert, die Genauigkeits-, Sensitivitäts- und Spezifitätsschätzungen lieferte, die im Vergleich zu den berichteten Ergebnissen für kommerziell erhältliche genomische Brustkrebsdiagnostik günstig waren.

Anstatt topologische Eigenschaften einzelner Knoten in einem molekularen Netzwerk zu berücksichtigen, können Informationen aus einem Netzwerkgraphen auch über Algorithmen zum Auffinden von Teilgraphen extrahiert werden, die sich durch eine hohe Dichte an molekularen Wechselwirkungen auszeichnen (mit Ansätzen, die als &# x02018Community Identification’ oder ‘Graph Clustering’ Methoden in der Literatur). Petrochilos etਊl. [43] schlugen einen entsprechenden Ansatz vor, der zunächst einen graphenbasierten Random-Walk-Algorithmus auf ein molekulares Netzwerk auf Genomskala anwendet. Informationen aus krebsbezogenen Genexpressionsdaten wurden dann in das Netzwerk integriert, indem das Gewicht jedes Netzwerkknotens als maximale Änderung der Sonden entsprechend seinem Gensymbol festgelegt wurde (Gewichte für biochemische Wechselwirkungen werden durch das Quadrat des Mittelwerts der absoluten faltenwechsel der relevanten Interaktionspartner). Schließlich wurde die Bewertung eines Netzwerkmoduls verbundener Knoten durch Vergleich seiner kumulativen Aktivität (dh des Quadrats des durchschnittlichen gewichteten Ausdrucks für alle seine Knoten) mit einer Bootstrap-Verteilung kumulativer Aktivitäten erhalten, die durch Zufallsstichproben einer übereinstimmenden Anzahl von Faltungsänderungen erhalten wurde Werte. Beim Testen der Anreicherung bekannter Krebsgene in den mit diesem Ansatz identifizierten bestbewerteten Netzwerkmodulen wurde eine ähnliche oder bessere Leistung im Vergleich zu anderen weit verbreiteten Modulfindungsalgorithmen erreicht (potenzielle alternative Anwendungen der identifizierten Module zur Biomarkermodellierung wurden nicht in dieser Veröffentlichung bewertet).

Abgesehen von der Mittelung molekularer Aktivitäten über Netzwerknachbarschaften oder der Verwendung von Methoden zur Identifizierung von Gemeinschaften können Signalverarbeitungstechniken ein weiteres Mittel darstellen, um nützliche Informationen aus einem Netzwerk für die prädiktive Modellbildung zu gewinnen, wie in einem Ansatz von Rapaport . gezeigt etਊl. [44]. Sie machten sich die Beobachtung zunutze, dass Gene in unmittelbarer Nähe in einem Netzwerk eine ähnliche Expression aufweisen, und schlugen vor, Microarray-Messungen zu entrauschen, indem ihre Hochfrequenzkomponente über das Netzwerk entfernt wird. Zu diesem Zweck wurde eine spektrale Zerlegung von Genexpressionsprofilen in Bezug auf einen molekularen Netzwerkgraphen angewendet, gefolgt von einer Dämpfung hochfrequenter Signalkomponenten, von denen erwartet wird, dass sie das Messrauschen darstellen. Die Methode wurde für die überwachte Analyse bestrahlter und nicht bestrahlter Hefestämme unter Verwendung einer SVM evaluiert, die eine ähnliche Klassifizierungsleistung wie ein Modell ohne netzwerkbasierte Filterung bietet, aber die Interpretation biologischer Daten durch Gruppierung der ausgewählten Biomoleküle nach ihrer Beteiligung an den Netzwerkmodulen erleichtert .

Einstufige Machine-Learning-Ansätze für die Netzwerkanalyse

Im Gegensatz zu den bisher betrachteten Netzwerkanalyseansätzen, die Netzwerkmerkmalsextraktion und prädiktive maschinelle Lernanalyse in getrennten Schritten anwenden, wurden in jüngerer Zeit einstufige netzwerkbasierte Merkmalsauswahlansätze vorgeschlagen, die die Attributauswahl direkt in das Vorhersagemodell integrieren Gebäude. Die meisten dieser Ansätze formulieren die Modellbildungsaufgabe als Optimierungsproblemformulierung, bei der die Zielfunktion für die Klassifikation oder Regression um einen Strafterm erweitert wird, der die Auswahl gruppierter Merkmale in einem molekularen Netzwerk fördert (diese Strategie wird auch als Netzwerk- Beschränkungsregularisierung).

Li etਊl. [45] schlugen einen der ersten entsprechenden Ansätze vor, indem er der linearen Regression einen Strafterm hinzufügte und Netzwerkinformationen über die Laplace-Matrix des Netzwerkgraphen in die Analyse einbezog. Der Ansatz bestraft die L1-Norm der Merkmalsgewichte und fördert ein glattes Profil der Gewichte über benachbarte Knoten im Netzwerk. Allerdings berichteten Binder und Schumacher später, dass die Methode eine geringere Leistung hat als ein Nullmodell, d. h. ein Modell, das keine Kovariateninformationen verwendet [53]. Als mögliche Erklärungen stellen sie fest, dass Li etਊl. verworfene zensierte Beobachtungen und etwa 20� Variablen, die nicht den entsprechenden Knoten im molekularen Interaktionsnetzwerk zugeordnet werden konnten (siehe Abschnitt über 𠆎inschränkungen’ unten). Yang etਊl. [46] schlugen vor, dass die zuvor verwendeten Strafen für die Netzwerkgruppierung zusätzliche Schätzungsfehler in das Modell einbringen können, wenn die Koeffizientenvorzeichen für zwei im Diagramm verbundene Merkmale unterschiedlich sind. Sie präsentierten alternative Strafen, um eine Netzwerkgruppierung und eine spärliche Merkmalsauswahl zu erreichen, insbesondere zwei nicht-konvexe Strafen, die nur kleine Unterschiede in den absoluten Werten der Merkmalsgewichte verkleinern, um die Schätzungsverzerrung zu reduzieren [46]. In Experimenten mit synthetischen Daten und zwei realen Datensätzen übertrafen die neuen Ansätze bisherige Methoden der Merkmalsgruppierung.

Bei nicht-konvexen Nachteilen ist es jedoch oft nicht möglich, global optimale Lösungen zu finden, und selbst die Identifizierung guter lokaler Optima kann einen hohen Rechenaufwand erfordern. Lorbert etਊl. [47, 48] schlugen eine alternative generische konvexe Strafe vor, das Pairwise Elastic Net (PEN), das eine spärliche Merkmalsauswahl ermöglicht und die Gruppierung von Attributen nach einem benutzerdefinierten Merkmalsähnlichkeitsmaß fördert (z Netzwerk). PEN ist eine Verallgemeinerung des Elastic Net, einer Methode, die einen Kompromiss zwischen L1- und L2-bestraften Regressionen durch einen einstellbaren Parameter bietet. In PEN kann dieser Parameter ersetzt werden, um den Kompromiss unter Verwendung zusätzlicher Informationen aus einer Attribut-Ähnlichkeitsmatrix zu bestimmen (verschiedene Instanzen von PEN können definiert werden, solange die Ähnlichkeitsmatrix positiv semidefinit und nicht negativ ist). Beim Vergleich von PEN mit anderen gängigen maschinellen Lernansätzen für simulierte Daten mit einer Gruppierungsstruktur zwischen den Merkmalen erreichte PEN einen kompetitiven mittleren quadratischen Fehler (MSE) und lieferte spärlichere Lösungen als Ansätze mit ähnlichem MSE.

In jüngerer Zeit, Vlassis etਊl. eine neue Instanz von PEN eingeführt, die Unterschiede zwischen den �soluten’ Werten der Gewichtung miteinander verbundener Features in einem Netzwerkdiagramm bestraft. Die Motivation hinter diesem als GenePEN bezeichneten Ansatz besteht darin, dass die Größe einer Gewichtung in einem linearen Modell den Vorhersagewert der entsprechenden Variablen widerspiegelt, sodass die Gewichte für irrelevante Merkmale durch die Strafe auf Null getrieben werden. Durch Sicherstellen der Konvexität der Penalty-Funktion können globale optimale Lösungen effizient mit bestehenden Optimierungs-Frameworks identifiziert werden. Bei der Auswertung von GenePEN an simulierten Daten und Real-Word-Microarray-Datensätzen lieferte die Methode im Vergleich zu anderen Klassifikationsmethoden mit Merkmalsgruppierung eine ähnliche Vorhersagekraft und Genselektion und teilte deutlich mehr Verbindungen innerhalb eines molekularen Interaktionsnetzwerks. Die Visualisierung der entsprechenden Subnetzwerke ermöglichte eine biologische Interpretation von krankheitsbetroffenen Netzwerkregionen, die mit bekannten krankheitsbezogenen Genen angereichert wurden, die aus der Literatursuche gewonnen wurden.

Insgesamt bieten netzwerkbasierte Probenklassifizierungsmethoden ein neues Mittel zur Analyse komplexer Omics-Datensätze, die es Forschern ermöglichen, kohärente molekulare Netzwerkveränderungen unter verschiedenen biologischen Bedingungen zu identifizieren. Die Identifizierung solcher Muster auf Netzwerkebene in Omics-Daten für Krankheiten mit komplexen molekularen Manifestationen kann ein neues Licht auf die molekularen Mechanismen der Krankheit werfen und die Entwicklung robuster multifaktorieller Biomarker-Signaturen erleichtern.

Im Gegensatz zur einzelmolekülbasierten Biomarkermodellierung hat ein Ansatz auf Netzwerkebene das Potenzial, verschiedene Facetten einer heterogenen Krankheit zu erfassen, die sich in Veränderungsmustern in verschiedenen Netzwerkregionen widerspiegeln. Im Vergleich zu pfadbasierten maschinellen Lernansätzen können Methoden, die genomskalierte Netzwerke als Vorwissen verwenden, Modelle hervorbringen, die biologisch schwieriger zu interpretieren sind, die jedoch ein viel breiteres Spektrum von Veränderungen in zellulären Prozessen identifizieren können (die viele Gene, Proteine ​​​​oder Metaboliten ohne bekannte Pfadannotationen). Schließlich teilen netzwerk- und pfadbasierte Klassifikationsansätze den Hauptvorteil der Verbesserung der Modellrobustheit in studienübergreifenden Analysen im Vergleich zur Verwendung einzelner Biomoleküle als Merkmale. Unter diesen neuen Biomarker-Signaturen auf höherer Ebene können netzwerkbasierte Signaturen, die molekulare Aktivitäten über größere und von Algorithmen abgeleitete Netzwerkregionen berücksichtigen, oft robustere multifaktorielle Marker liefern als Signaturen für kleinere Pfade, die typischerweise subjektiv definiert werden und möglicherweise relevante funktionell verwandte Moleküle übersehen im umliegenden Netz. Die Robustheit des Modells hängt jedoch auch von anderen Faktoren ab, z. das Vorkommen von Proteinkomplexen in dem untersuchten Pfad/Netzwerk (Mitglieder dieser Komplexe neigen zu einer hoch koordinierten Aktivität, was robustere Durchschnittswerte liefert) und die Zuverlässigkeit und Vollständigkeit der verwendeten spezifischen Netzwerk- oder Pfaddatenquelle (siehe Einschränkungen im folgenden Abschnitt). ).


Genom-Spot

In unserer RNA-seq-Serie haben wir bisher Differenzialanalysen durchgeführt und einige hübsche Grafiken erstellt, die Tausende von unterschiedlich exprimierten Genen nach der Azacitidin-Behandlung zeigen. Um die dem differentiellen Genexpressionsprofil zugrunde liegende Biologie zu verstehen, müssen wir eine Pathway-Analyse durchführen.

Wir verwenden die Gene Set Enrichment Analysis (GSEA), weil sie Signalwegänderungen empfindlicher und robuster erkennen kann als manche Methoden. Ein Papier aus dem Jahr 2013 verglich eine Reihe von Genset-Analysesoftware mit Microarrays und ist einen Blick wert.

Generieren Sie eine Rangdatei

Die Rangdatei ist eine Liste der erkannten Gene und ein Rang-Metrik-Score. An der Spitze der Liste stehen die Gene mit der "stärksten" Hochregulierung, am Ende der Liste die Gene mit der "stärksten" Herunterregulierung und die Gene, die sich nicht verändern, stehen in der Mitte. Der metrische Score, den ich gerne verwende, ist das Vorzeichen der Faltungsänderung multipliziert mit dem Kehrwert des p-Werts, obwohl es möglicherweise bessere Methoden gibt (Link ).

#!/bin/bash
DGE=$1
RNK=`echo $DGE | sed 's/.xls/.rnk/'`
sed 1d $DGE
| sortieren -k7g
| Schnitt -d '_' -f2-
| awk '!arr[$1]++'
| ach '
< if ($6>0) printf "%s %4.3e ", $1, 1/$7
else printf "%s %4.3e ", $1, -1/$7 >'
| sort -k2gr > $RNK


Schau das Video: Microarray Lecture (Januar 2022).