Information

Normalisieren von Metabolomics-Daten

Normalisieren von Metabolomics-Daten



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Erstmaliges Posten. Ich habe vor kurzem angefangen, im Bereich der Metabolomik zu arbeiten. Ich habe semiquantitative (nicht absolute Konzentrations-) LC-MS-Daten aus In-vitro-Zellexperimenten unter verschiedenen experimentellen Bedingungen.

Was ist der beste Weg, um die Daten zu normalisieren, damit ich die experimentellen Bedingungen korrekt vergleichen kann (+ über verschiedene Zelltypen)? Ich habe festgestellt, dass viele Leute ihre Daten mit verschiedenen Methoden skalieren (Pareto-Skala, automatische Skalierung, Nullmittelwert). Jede dieser Methoden führt zu unterschiedlichen Ergebnissen, wenn ich so etwas wie eine PCA zwischen experimentellen Gruppen durchführe.

Vielen Dank.

Jon


Skalierung ist nicht gleich Normalisierung. Sie haben empirisch herausgefunden, wie sich die Skalierung auf die PCA auswirkt, und ihr Zweck besteht darin, zu kontrollieren, ob große Peaks die Analyse dominieren oder nicht.

Andererseits wird die Normalisierung normalerweise durchgeführt, wenn die Proben in einem Lösungsmittel waren und die Konzentration aufgrund der Extraktionsmethode, der Hydratation des Gewebes usw. variieren kann. Die Normalisierung versucht also, diese unterschiedlichen Konzentrationen auszugleichen.

Die Normalisierung würde normalerweise über die Dimension der Spitzenintensität gegenüber der Zeit angewendet. Zwei typische Normalisierungsschemata sind 1) Normalisierung auf konstante Summe (normalerweise 1) und 2) Wahrscheinlichkeitsquotientennormalisierung, die einen etwas komplexeren Ansatz verwendet (und häufig bevorzugt wird). Ich arbeite nicht mit LC-MS-Daten, es gibt möglicherweise andere Methoden, die bei dieser Art von Daten bevorzugt werden. Welche Software Sie auch immer verwenden, hat wahrscheinlich mehrere integrierte Optionen.

Die Normalisierung des probabalistischen Quotienten wird in F. Dieterle et. al. Analytische Chemie vol. 78 Seiten 4281-4290 (2006). Die exakt gleiche Mathematik wird von Nicholsons Gruppe als "Median-Fold-Change-Normalisierung" bezeichnet, berichtet in K. A. Veselkov et. al. Analytische Chemie vol. 83 Seiten 5864-5872 (2011).


Sollen Daten vor oder nach der Imputation fehlender Daten normalisiert werden?

17% fehlende Daten. Ich möchte eine Reihe von Imputationsmethoden vergleichen, um zu sehen, welche für meine Daten am besten geeignet ist.

Gibt es eine allgemeine Regel für die Reihenfolge der Vorbehandlung eines Datensatzes? Soll ich zuerst imputieren und danach normalisieren oder zuerst normalisieren?

Ich habe beide Wege mit k-nächster Nachbar-Imputation und Normalisierung auf den Median ausprobiert und die Ergebnisse mit PCA verglichen und es gibt nur sehr wenige Unterschiede in den Faktorkarten.

Bei der Random Forest-Imputation ist der Imputationsfehler jedoch viel höher, wenn ich die Daten zuerst normalisiere (normalisierte Daten NRMSE = 0,708, Rohdaten NRMSE = 0,122).

Meine zwei Hauptfragen sind:

Sollte die Imputation oder Normalisierung von Daten an erster Stelle stehen? und

Hängt die Reihenfolge von der verwendeten Imputationsfunktion ab?


Normalisierung und Integration groß angelegter Metabolomik-Daten mittels Support-Vektor-Regression

Ungezielte Metabolomik-Studien zur Entdeckung von Biomarkern umfassen oft Hunderte bis Tausende von menschlichen Proben. Die Datenerfassung von Großproben muss in mehrere Chargen aufgeteilt werden und kann sich über Monate bis hin zu mehreren Jahren erstrecken. Die Signaldrift von Metaboliten während der Datenerfassung (Intra- und Inter-Batch) ist unvermeidbar und ein wesentlicher Störfaktor für groß angelegte Metabolomik-Studien.

Ziele

Unser Ziel ist es, eine Methode zur Datennormalisierung zu entwickeln, um unerwünschte Variationen zu reduzieren und mehrere Chargen in groß angelegte Metabolomik-Studien vor statistischen Analysen zu integrieren.

Methoden

Wir haben eine auf einem maschinellen Lernalgorithmus basierende Methode, Support Vector Regression (SVR), für die Normalisierung und Integration von Metabolomics-Daten im großen Maßstab entwickelt. Ein R-Paket namens MetNormalizer wurde entwickelt und für die Datenverarbeitung mit SVR-Normalisierung bereitgestellt.

Ergebnisse

Nach der SVR-Normalisierung stieg der Anteil der Metaboliten-Peaks mit relativen Standardabweichungen (RSDs) von weniger als 30 % auf über 90 % der Gesamtpeaks an, was viel besser ist als bei anderen gängigen Normierungsmethoden. Die Reduzierung unerwünschter analytischer Variationen trägt dazu bei, die Leistung multivariater statistischer Analysen, sowohl unbeaufsichtigt als auch überwacht, in Bezug auf Klassifikation und Vorhersagegenauigkeit zu verbessern, sodass subtile metabolische Veränderungen in epidemiologischen Studien erkannt werden können.

Abschluss

Die SVR-Normalisierung kann die unerwünschten Intra- und Inter-Batch-Variationen effektiv beseitigen und ist viel besser als andere gängige Normalisierungsmethoden.


RESULTATE UND DISKUSSIONEN

Web-Service und Betriebsablauf von NOREVA

Aus Anwendersicht lässt sich die in NOREVA implementierte Analyse in vier Schritte zusammenfassen: (i) Upload von Metabolomics-Daten, (ii) Datenvorverarbeitung, (iii) Datennormalisierung und (iv) Leistungsbewertung. Der allgemeine Arbeitsablauf von NOREVA, der all diese Schritte integriert, wurde in Abbildung 1 veranschaulicht. Detailliertes Benutzerhandbuch und Website-Demo wurden systematisch im „Manual“-Panel von NOREVA bereitgestellt.

Der allgemeine Arbeitsablauf von NOREVA. (EIN) Hochladen von Massenspektrometrie (MS)-basierten Metabolomikdaten mit oder ohne IS, QCM und Qualitätskontrollprobe (QCS) (B) Datenvorverarbeitung durch QC-RLSC und Imputation fehlender Signale (C) Datennormalisierung basierend auf den untersuchten Methoden (D) Leistungsbewertung nach mehreren Kriterien.

Der allgemeine Arbeitsablauf von NOREVA. (EIN) Hochladen von Massenspektrometrie (MS)-basierten Metabolomikdaten mit oder ohne IS, QCM und Qualitätskontrollprobe (QCS) (B) Datenvorverarbeitung durch QC-RLSC und Imputation fehlender Signale (C) Datennormalisierung basierend auf den untersuchten Methoden (D) Leistungsbewertung nach mehreren Kriterien.

Im Schritt von Metabolomik-Daten-Upload, Datensätze mit oder ohne QCS, IS und QCM akzeptiert werden. NOREVA stach unter den verfügbaren Werkzeugen durch die Bereitstellung einer sequentiellen Strategie hervor, die die QCS-basierte Signalkorrektur mit Normalisierungsmethoden integriert (19, 47) und unerwünschte Variationen basierend auf IS und QCM entfernt (18, 28). Zweitens, Datenvorverarbeitung korrigierte Signale durch QC-RLSC ( 5) und Missing-Value-Imputation ( 56). QC-RLSC bietet verschiedene Auswahlmöglichkeiten an Filterkriterien, Glättungsparametern und Regressionsmodellen für Datensätze mit QC-Proben. Inzwischen werden gängige Imputationsalgorithmen (z. KNN, Medianwerte und Mindestwerte) wurden ferner bereitgestellt, um fehlende Signale auszufüllen. Im dritten Schritt, Datennormalisierung integrierte 24 Methoden, die in der MS-basierten Metabolomik beliebt sind. Die resultierende Datenmatrix, normiert nach vorgegebenen Methoden, wurde angezeigt und kann von der entsprechenden Webseite heruntergeladen werden. Darüber hinaus wurde das Boxplot bereitgestellt, das die Datenverteilung vor und nach der Normalisierung veranschaulicht. Schließlich, während Leistungsbewertung, wurden fünf verschiedene Kriterien angewandt, um Methoden aus unterschiedlichen Perspektiven zu bewerten. Dutzende von Maßen, die die Normalisierungsleistung darstellen, wurden durch numerische Werte bewertet oder durch statistische Grafiken veranschaulicht. Nach all diesen vier Schritten, die in Abbildung 1 dargestellt sind, wurde ein Bericht mit den Bewertungsergebnissen erstellt und im Format PDF, HTML und DOC heruntergeladen. Bei der Normalisierung großer Datensätze wäre der Zeitaufwand für die Datenverarbeitung teuer, die Funktion der Zustellung von Auswertungsberichten per E-Mail war daher erforderlich. In NOREVA wurde diese Funktion durch einfaches Eingeben einer E-Mail-Adresse in das Panel „Auswertungsbericht erstellen“ ermöglicht.

Fallstudien zur Veranschaulichung der neuen biologischen Erkenntnisse von NOREVA

(α) Kollektive Bewertung der Normalisierungsleistung der Methoden

Der in dieser Fallstudie verwendete Datensatz ( 53 ) war ein wohldefinierter Benchmark für die DIMS-Metabolomik. Dieser Datensatz wurde nach dem gleichen Verfahren wie im vorherigen Abschnitt gezeigt analysiert und die ersten vier Kriterien (einD) wurden für die Leistungsbewertung ausgewählt. Tabelle 1 zeigt ihre Bewertungsergebnisse. Für jedes Kriterium wurde nur eine der repräsentativsten Maßnahmen ausgewählt (eine vollständige Liste der Ergebnisse für alle Maßnahmen in jedem Kriterium wurde auch in der Zusatztabelle S4 gezeigt). Einerseits variierte die Leistung verschiedener Methoden, die nach demselben Kriterium bewertet wurden, erheblich. Um PMAD als Kriterium zu nehmen ein zum Beispiel variierten seine Werte für 19 Methoden von 0,006 (für MSTUS) bis 2,72 (für Große Skalierung), was auf erhebliche Leistungsunterschiede zwischen diesen 19 Methoden hinweist. Andererseits variierten auch die nach unterschiedlichen Kriterien bewerteten Leistungsränge der gleichen Methode stark. Die schlechteste Methode, die oben erwähnt wurde (Große Skalierung) wurde beispielsweise sogar noch höher eingestuft als die Besten (MSTUS), bei der Berücksichtigung des Kriteriums C. Daher ist es wichtig, zunächst die Natur des untersuchten biologischen Problems zu verstehen, was dann die Auswahl des am besten geeigneten Kriteriums vor der Leistungsbewertung erleichtern könnte. Mit anderen Worten, nur wenn die Forscher das richtige Kriterium wählten, konnte die Identifizierung der gut durchgeführten Methoden zur Beantwortung dieser biologischen Frage sinnvoll sein. Wenn darüber hinaus die Natur eines biologischen Problems eine kollektive Bewertung auf der Grundlage mehrerer Kriterien erforderte, unterschieden sich die von NOREVA bereitgestellten Dienste weiter von anderen verfügbaren Instrumenten.

Bewertungsergebnisse von vier Kriterien zum Benchmark-Datensatz MTBLS79 (ausgewählte Maßnahme unter jedem Kriterium wurde in Klammern gezeigt)
. Kriterium (ein) . Kriterium (B) . Kriterium (C) . Kriterium (D) .
. (PMAD) . (Verteilung von P-Wert) . (Konsistenz). (AUC) .
Automatische Skalierung 0.8360 Gut 14.6500 0.8344
Kontrast 0.7797 Gerecht 9.7500 0.6250
Kubische Splines 0.1393 Exzellent 13.7500 0.8322
Zyklischer Löss 0.3188 Gut 15.6500 0.8356
EigenMS 0.1799 Gut 16.4000 0.8010
Level-Skalierung 0.2890 Gut 15.1000 0.8345
Lineare Basislinie 0.6035 Gerecht 6.3000 0.7072
Log-Transformation 0.1349 Gut 14.7500 0.8168
Bedeuten 0.3100 Gut 14.7500 0.8213
Median 0.3100 Gut 14.5500 0.8177
MSTUS 0.0064 Gut 14.3500 0.8405
Pareto-Skalierung 0.5320 Gut 14.9500 0.8344
Leistungsskalierung 0.1660 Gut 14.9500 0.8314
PQN 0.3260 Gut 13.7000 0.8309
Quantil 0.2989 Exzellent 13.8000 0.8119
Reichweitenskalierung 0.1573 Gut 15.3500 0.8344
Gesamtsumme 2.4336 Gerecht 14.7000 0.7538
Große Skalierung 2.7200 Gut 15.0000 0.8344
VSN 0.5626 Exzellent 13.7500 0.8373
. Kriterium (ein) . Kriterium (B) . Kriterium (C) . Kriterium (D) .
. (PMAD) . (Verteilung von P-Wert) . (Konsistenz). (AUC) .
Automatische Skalierung 0.8360 Gut 14.6500 0.8344
Kontrast 0.7797 Gerecht 9.7500 0.6250
Kubische Splines 0.1393 Exzellent 13.7500 0.8322
Zyklischer Löss 0.3188 Gut 15.6500 0.8356
EigenMS 0.1799 Gut 16.4000 0.8010
Level-Skalierung 0.2890 Gut 15.1000 0.8345
Lineare Basislinie 0.6035 Gerecht 6.3000 0.7072
Log-Transformation 0.1349 Gut 14.7500 0.8168
Bedeuten 0.3100 Gut 14.7500 0.8213
Median 0.3100 Gut 14.5500 0.8177
MSTUS 0.0064 Gut 14.3500 0.8405
Pareto-Skalierung 0.5320 Gut 14.9500 0.8344
Leistungsskalierung 0.1660 Gut 14.9500 0.8314
PQN 0.3260 Gut 13.7000 0.8309
Quantil 0.2989 Exzellent 13.8000 0.8119
Reichweitenskalierung 0.1573 Gut 15.3500 0.8344
Gesamtsumme 2.4336 Gerecht 14.7000 0.7538
Große Skalierung 2.7200 Gut 15.0000 0.8344
VSN 0.5626 Exzellent 13.7500 0.8373

Die Berechnung dieser Maßnahmen wurde im Abschnitt „Materialien und Methoden“ und „Ergänzende Methoden“ beschrieben. Neben quantitativen Messgrößen werden auch qualitative Messgrößen wie die Verteilung von P-Wert wurden ebenfalls bewertet und drei Leistungsstufen angegeben (Ausgezeichnet, Gut und Befriedigend). Qualitative Maßnahmen wurden durch visuelle Inspektion bewertet, und Beispiele, die die Zuordnung dieser drei Leistungsstufen veranschaulichen, sind in der ergänzenden Abbildung S1 dargestellt.

. Kriterium (ein) . Kriterium (B) . Kriterium (C) . Kriterium (D) .
. (PMAD) . (Verteilung von P-Wert) . (Konsistenz). (AUC) .
Automatische Skalierung 0.8360 Gut 14.6500 0.8344
Kontrast 0.7797 Gerecht 9.7500 0.6250
Kubische Splines 0.1393 Exzellent 13.7500 0.8322
Zyklischer Löss 0.3188 Gut 15.6500 0.8356
EigenMS 0.1799 Gut 16.4000 0.8010
Level-Skalierung 0.2890 Gut 15.1000 0.8345
Lineare Basislinie 0.6035 Gerecht 6.3000 0.7072
Log-Transformation 0.1349 Gut 14.7500 0.8168
Bedeuten 0.3100 Gut 14.7500 0.8213
Median 0.3100 Gut 14.5500 0.8177
MSTUS 0.0064 Gut 14.3500 0.8405
Pareto-Skalierung 0.5320 Gut 14.9500 0.8344
Leistungsskalierung 0.1660 Gut 14.9500 0.8314
PQN 0.3260 Gut 13.7000 0.8309
Quantil 0.2989 Exzellent 13.8000 0.8119
Reichweitenskalierung 0.1573 Gut 15.3500 0.8344
Gesamtsumme 2.4336 Gerecht 14.7000 0.7538
Große Skalierung 2.7200 Gut 15.0000 0.8344
VSN 0.5626 Exzellent 13.7500 0.8373
. Kriterium (ein) . Kriterium (B) . Kriterium (C) . Kriterium (D) .
. (PMAD) . (Verteilung von P-Wert) . (Konsistenz). (AUC) .
Automatische Skalierung 0.8360 Gut 14.6500 0.8344
Kontrast 0.7797 Gerecht 9.7500 0.6250
Kubische Splines 0.1393 Exzellent 13.7500 0.8322
Zyklischer Löss 0.3188 Gut 15.6500 0.8356
EigenMS 0.1799 Gut 16.4000 0.8010
Level-Skalierung 0.2890 Gut 15.1000 0.8345
Lineare Basislinie 0.6035 Gerecht 6.3000 0.7072
Log-Transformation 0.1349 Gut 14.7500 0.8168
Bedeuten 0.3100 Gut 14.7500 0.8213
Median 0.3100 Gut 14.5500 0.8177
MSTUS 0.0064 Gut 14.3500 0.8405
Pareto-Skalierung 0.5320 Gut 14.9500 0.8344
Leistungsskalierung 0.1660 Gut 14.9500 0.8314
PQN 0.3260 Gut 13.7000 0.8309
Quantil 0.2989 Exzellent 13.8000 0.8119
Reichweitenskalierung 0.1573 Gut 15.3500 0.8344
Gesamtsumme 2.4336 Gerecht 14.7000 0.7538
Große Skalierung 2.7200 Gut 15.0000 0.8344
VSN 0.5626 Exzellent 13.7500 0.8373

Die Berechnung dieser Maßnahmen wurde in den Abschnitten „Materialien und Methoden“ und „Ergänzende Methoden“ beschrieben. Neben quantitativen Messgrößen werden auch qualitative Messgrößen wie die Verteilung von P-Wert wurden ebenfalls bewertet und drei Leistungsstufen angegeben (Ausgezeichnet, Gut und Befriedigend). Qualitative Maßnahmen wurden durch visuelle Inspektion bewertet, und Beispiele, die die Zuordnung dieser drei Leistungsstufen veranschaulichen, sind in der ergänzenden Abbildung S1 dargestellt.

(β) Bewertung der Normalisierungsleistung der Methoden basierend auf den Spike-in-Metaboliten

Der in der zweiten Fallstudie verwendete Datensatz (50) war auch ein Benchmark-Datensatz für die Leistungsbewertung durch Vergleich der aufgestockten „wahren“ Marker mit den normalisierten Ergebnissen. Das Analyseverfahren wurde ebenfalls im vorherigen Abschnitt spezifiziert, aber Kriterium e wurde diesmal zur Leistungsbewertung ausgewählt. Die Variationen der logFCs zwischen den normalisierten Ergebnissen und den Spike-in-Metaboliten wurden in Abbildung 2 durch Boxplots dargestellt. Diese Art von Boxplots wurde zuvor von Risso . verwendet et al. (39). Wie in Abbildung 2 dargestellt, kann nur eine Methode (Kontrast). Neben den Spike-in-Verbindungen könnten auch verschiedene „echte“ Marker, die durch quantitative Analyse und andere analytische Techniken nachgewiesen wurden, als goldene Standards für die Leistungsbewertung in NOREVA hochgeladen werden.

Differenz zwischen logFCs der normalisierten Ergebnisse über verschiedene Methoden und denen der Spike-in-Metaboliten (hier als Goldstandard verwendet). Nur eine Methode (Kontrast) führte zu unverzerrten logFC-Schätzungen und bewahrte so effektiv die wahren biologischen Variationen.

Differenz zwischen logFCs der normalisierten Ergebnisse über verschiedene Methoden und denen der Spike-in-Metaboliten (hier als Goldstandard verwendet). Nur eine Methode (Kontrast) führte zu unverzerrten logFC-Schätzungen und bewahrte so effektiv die wahren biologischen Variationen.

(γ) Bewertung der Wirkung von QC-RLSC auf die Korrektur von Signaldriften

Der in der dritten Fallstudie verwendete Datensatz ( 54) war ein umfassend getesteter Beispieldatensatz für die Korrektur von Signaldriften und die Entfernung von Batch-Effekten. Auswirkungen von QC-Proben auf die Signalkorrektur wurden häufig durch die korrigierte Peakflächen-Plots ( 5) und PCA (28). In diesem Fall wurde QC-RLSC (5) angewendet, um Signale zwischen zwei analytischen Chargen zu korrigieren. Im Gegensatz zu Abbildung 3A (vor QCS-basierter Korrektur) wurden die Intensitäten eines beispielhaften Metaboliten M72T126 in Abbildung 3B (nach Korrektur) stark korrigiert. Insbesondere lagen die Intensitäten der QC-Proben in Fig. 3B im Vergleich zu denen vor der Korrektur in einer geradlinigeren Linie. Darüber hinaus zeigen Fig. 3C und D die ersten beiden Hauptkomponenten der Daten vor und nach der Korrektur. Signalvariationen zwischen zwei analytischen Chargen waren in Abbildung 3C klar ersichtlich und wurden durch Signalkorrektur (dargestellt in Abbildung 3D) effektiv unterdrückt. Diese Ergebnisse demonstrierten die umfassende Leistungsfähigkeit von NOREVA bei der Signaldriftkorrektur, was es zu einem funktionalen Werkzeug für die Analyse von Metabolomikdaten machte.

Bewertung der Wirkung von QC-RLSC auf die Signaldriftkorrektur. (EIN und B) Leistungsbewertung basierend auf der Intensität eines beispielhaften Metaboliten M72T126. Im Gegensatz zur Intensität von M72T126 vor der QCS-basierten Korrektur (A) wurden die Ergebnisse nach der Korrektur stark korrigiert (B), indem die QC-Proben (blaue Punkte) in einer geraderen Linie angeordnet wurden. (C und D) Die ersten beiden Hauptkomponenten des Datensatzes MTBLS146 vor und nach der QCS-basierten Korrektur. Signalschwankungen zwischen zwei analytischen Chargen waren deutlich erkennbar (C) und wurden durch Signalkorrektur effektiv unterdrückt (D).

Bewertung der Wirkung von QC-RLSC auf die Signaldriftkorrektur. (EIN und B) Leistungsbewertung basierend auf der Intensität eines beispielhaften Metaboliten M72T126. Im Gegensatz zur Intensität von M72T126 vor der QCS-basierten Korrektur (A) wurden die Ergebnisse nach der Korrektur stark korrigiert (B), indem die QC-Proben (blaue Punkte) in einer geraderen Linie angeordnet wurden. (C und D) Die ersten beiden Hauptkomponenten des Datensatzes MTBLS146 vor und nach der QCS-basierten Korrektur. Signalschwankungen zwischen zwei analytischen Chargen waren deutlich erkennbar (C) und wurden durch Signalkorrektur effektiv unterdrückt (D).

(δ) Bewertung von IS- und QCM-basierten Methoden zur Beseitigung unerwünschter Variationen

In dieser Fallstudie verwendete Benchmark-Datensätze (28, 33) wurden verwendet, um die Leistung von IS- und QCM-basierten Methoden anhand der allgemein akzeptierten Mess-RLA-Plots (18, 28) zu bewerten. In dieser Fallstudie wird die Leistung von drei IS-basierten Methoden (CCMN, NOMIS und SIS) wurde durch die entsprechenden RLA-Plots vor und nach ihrer Normalisierung ausgewertet. Wie in Abbildung 4A gezeigt, verglichen mit den RLA-Plots der unbereinigten Daten, die Plots nach der Normalisierung um CCMN und NOMIS führte zu einem Median näher an Null und zu geringeren Schwankungen um den Median. Da berichtet wurde, dass die Normalisierung durch einzelne IS empfindlich auf ihre eigene undurchsichtige Variation reagiert ( 34), ist die Leistung von Methoden, die auf mehreren ISs basieren (CCMN und NOMIS) erwies sich (Abbildung 4A) als viel besser als die des einzelnen IS (SIS). Darüber hinaus ist als QCM-basierte Methode die Leistung von RUV-zufällig wurde durch RLA-Diagramm vor und nach seiner Normalisierung analysiert (Abbildung 4B). Wie dargestellt, schnitt diese Methode sehr gut bei der Entfernung unerwünschter experimenteller Variationen ab ( 28).

Leistungsbewertung von (EIN) drei IS-basierte Normalisierungsmethoden und (B) eine QCM-basierte Normalisierungsmethode zum Entfernen unerwünschter Variationen durch die RLA-Plots vor und nach der Normalisierung. In dieser Fallstudie verwendete Parameter für die RUV-zufällig Methode wurden eingestellt als k = 3 und λ = 0.03.

Leistungsbewertung von (EIN) drei IS-basierte Normalisierungsmethoden und (B) eine QCM-basierte Normalisierungsmethode zum Entfernen unerwünschter Variationen durch die RLA-Plots vor und nach der Normalisierung. In dieser Fallstudie verwendete Parameter für die RUV-zufällig Methode wurden eingestellt als k = 3 und λ = 0.03.


Normalisieren von Metabolomics-Daten - Biologie

Alle von MDPI veröffentlichten Artikel werden sofort weltweit unter einer Open-Access-Lizenz verfügbar gemacht. Für die Wiederverwendung des gesamten oder eines Teils des von MDPI veröffentlichten Artikels, einschließlich Abbildungen und Tabellen, ist keine besondere Genehmigung erforderlich. Bei Artikeln, die unter einer Open-Access-Creative Common CC BY-Lizenz veröffentlicht wurden, darf jeder Teil des Artikels ohne Genehmigung wiederverwendet werden, sofern der Originalartikel eindeutig zitiert wird.

Feature Papers stellen die fortschrittlichste Forschung mit erheblichem Potenzial für eine große Wirkung auf diesem Gebiet dar. Feature Papers werden auf individuelle Einladung oder Empfehlung der wissenschaftlichen Herausgeber eingereicht und vor der Veröffentlichung einem Peer Review unterzogen.

Das Feature Paper kann entweder ein origineller Forschungsartikel, eine umfangreiche neue Forschungsstudie sein, die oft mehrere Techniken oder Ansätze umfasst, oder ein umfassendes Übersichtspapier mit prägnanten und präzisen Updates zu den neuesten Fortschritten auf diesem Gebiet, das die aufregendsten Fortschritte in der Wissenschaft systematisch überprüft Literatur. Diese Art von Papier gibt einen Ausblick auf zukünftige Forschungsrichtungen oder mögliche Anwendungen.

Editor’s Choice-Artikel basieren auf Empfehlungen der wissenschaftlichen Herausgeber von MDPI-Zeitschriften aus der ganzen Welt. Die Herausgeber wählen eine kleine Anzahl von kürzlich in der Zeitschrift veröffentlichten Artikeln aus, die ihrer Meinung nach für Autoren besonders interessant oder in diesem Bereich wichtig sind. Ziel ist es, eine Momentaufnahme einiger der spannendsten Arbeiten zu geben, die in den verschiedenen Forschungsbereichen der Zeitschrift veröffentlicht wurden.


So funktioniert die Normalisierung biologischer Daten

Die Normalisierung funktioneller biologischer Daten ist eine Schlüsselkomponente im Arbeitsablauf zur Durchführung und/oder nachfolgenden Analyse von Rohdaten, um eine genaue und konsistente Interpretation der Ergebnisse zu gewährleisten.

Agilent-Technologien

Führen Sie XF-Analysen mit einer benutzerfreundlichen, zuverlässigen, validierten und unterstützten Normalisierungslösung auf Zellzahlbasis mit dem Agilent Seahorse XFe Analyzer und dem BioTek Cytation 1 Cell Imaging Multi-Mode Reader durch

Problem: Die Normalisierung funktioneller biologischer Daten ist eine Schlüsselkomponente im Arbeitsablauf zur Durchführung und/oder nachfolgenden Analyse von Rohdaten, um eine genaue und konsistente Interpretation der Ergebnisse zu gewährleisten. Da ein typischer Datensatz normalerweise mehr als eine Stichprobe enthält und Forscher fast immer daran interessiert sind, statistische Vergleiche zwischen diesen Stichproben anzustellen, ist für die meisten durchgeführten Experimente normalerweise eine Form der Normalisierung erforderlich. Ob beim Vergleich verschiedener Zelltypen, genetischer Modifikationen oder Wirkstoffbehandlungen, die Daten müssen für einen korrekten Vergleich auf einen gemeinsamen gemeinsamen Parameter normalisiert werden. Die Normalisierung zellulärer Assays kann auf mehreren Ebenen angewendet werden, einschließlich der Zellzahl, der genomischen DNA und des gesamten zellulären Proteins.

Lösung: Die beschriebene Lösung kombiniert die zelluläre Stoffwechselanalysetechnologie von Agilent und die Bildgebungstechnologie von BioTek Instruments, um einen standardisierten Ansatz für den Vergleich von XF-Datensätzen zu schaffen, den Assay-Workflow zu verbessern und Normalisierungswerte auf XF-Messungen anzuwenden. Die neuartige Integration des Agilent Seahorse XFe-Analysators mit dem BioTek Cytation 1 Cell Imaging Multi-Mode Reader konzentriert sich auf eine Methode, die die Zellzahl zur Normalisierung verwendet. Das integrierte System ist optimiert, um die Erfassung von Hellfeld- (vor und nach dem XF-Assay) und Fluoreszenzbildern (nach dem XF-Assay) über einen einheitlichen Controller zu automatisieren und zu vereinfachen, der sowohl die BioTek- als auch die Agilent Seahorse-Instrumente steuert. Eine spezialisierte Software berechnet dann die Zellzahl in jedem Mikrotiterplatten-Well und überträgt die Bilder und Zellzahlen nahtlos in die Software zur XF-Datennormalisierung. Die in die Software eingebetteten Hellfeldbilder bieten visuelles Feedback und Qualitätskontrolle der Aussaatbedingungen von Zellen, was die Reproduzierbarkeit von Lebendzell-Assays und die XF-Datenqualität verbessert. Ein &ldquoalert&rdquo innerhalb der Software kündigt die Verfügbarkeit von Zellzahlen und Bildern an, und eine Heatmap-Anzeige der Zellzahlen ermöglicht eine einfache Bewertung der Zellaussaatkonsistenz, wodurch jeder Testlauf robuster wird. Die Integration der hochwertigen Bilder in die XF-Software fügt den Daten eine weitere Dimension hinzu, da Forscher in einer einheitlichen Softwareerfahrung zwischen den XF-Daten, Hellfeldbildern und Fluoreszenzbildern umschalten können. Die Referenzierung der Bilder während der Analyse von XF-Daten liefert Beweise und Anleitungen zur Begrenzung der Variabilität und zur Verbesserung der Reproduzierbarkeit der Assays. Das Anwenden eines konsistent generierten, auf Zellenzahl basierenden Normalisierungswerts erleichtert letztendlich die Interpretation der Daten und das Auffinden von Beziehungen zwischen den Daten.


Zugriff auf Dokument

  • APA
  • Autor
  • BIBTEX
  • Harvard
  • Standard
  • RIS
  • Vancouver

In: PLoS One, Bd. 9, Nr. 12, e116221, 30.12.2014.

Forschungsergebnis : Beitrag zur Zeitschrift › Artikel

T1 - Metabolomics-Datennormalisierung mit EigenMS

N2 - Flüssigchromatographie-Massenspektrometrie hat sich zu einer der analytischen Plattformen der Wahl für Metabolomik-Studien entwickelt. Allerdings können LC-MS-Metabolomikdaten unter den Auswirkungen verschiedener systematischer Verzerrungen leiden. Dazu gehören unter anderem Batch-Effekte, tägliche Schwankungen der Geräteleistung, Signalintensitätsverlust aufgrund zeitabhängiger Auswirkungen der LC-Säulenleistung, Ansammlung von Verunreinigungen in der MS-Ionenquelle und MS-Empfindlichkeit. In dieser Studie wollten wir eine auf Singulärwertzerlegung basierende Methode namens EigenMS zur Normalisierung von Metabolomikdaten testen. Wir analysierten einen klinischen Humandatensatz, in dem LC-MS-Serummetabolomikdaten und physiologische Messungen von 39 gesunden Probanden und 40 mit Typ-2-Diabetes gesammelt wurden, und wendeten EigenMS an, um systematische Verzerrungen zu erkennen und zu korrigieren. EigenMS funktioniert in mehreren Stufen. Erstens bewahrt EigenMS die Behandlungsgruppenunterschiede in den Metabolomics-Daten, indem die Behandlungseffekte mit einem ANOVA-Modell geschätzt werden (mehrere feste Effekte können geschätzt werden). Die Singulärwertzerlegung der Residuenmatrix wird dann verwendet, um Bias-Trends in den Daten zu bestimmen. Die Anzahl der Bias-Trends wird dann über einen Permutationstest geschätzt und die Auswirkungen der Bias-Trends werden eliminiert. EigenMS entfernte Verzerrungen unbekannter Komplexität aus den LC-MS-Metabolomikdaten, was eine erhöhte Sensitivität bei der Differentialanalyse ermöglichte. Darüber hinaus korrelierten normalisierte Proben besser mit anderen normalisierten Proben und entsprechenden physiologischen Daten, wie Blutglucosespiegel, glykiertem Hämoglobin, dem auf eine Herzfrequenz von 75 normalisierten zentralen Trainingsdruck und Gesamtcholesterin. Wir konnten 2578 diskriminierende Metabolitenpeaks in den normalisierten Daten (p<0,05) im Vergleich zu nur 1840 Metabolitensignalen in den Rohdaten berichten. Unsere Ergebnisse unterstützen die Verwendung der auf Singulärwertzerlegung basierenden Normalisierung für Metabolomikdaten.

AB - Flüssigchromatographie-Massenspektrometrie hat sich zu einer der analytischen Plattformen der Wahl für Metabolomik-Studien entwickelt. LC-MS-Metabolomikdaten können jedoch unter den Auswirkungen verschiedener systematischer Verzerrungen leiden. Dazu gehören unter anderem Batch-Effekte, tägliche Schwankungen der Geräteleistung, Signalintensitätsverlust aufgrund zeitabhängiger Auswirkungen der LC-Säulenleistung, Ansammlung von Verunreinigungen in der MS-Ionenquelle und MS-Empfindlichkeit. In dieser Studie wollten wir eine auf Singulärwertzerlegung basierende Methode namens EigenMS zur Normalisierung von Metabolomikdaten testen. Wir analysierten einen klinischen Humandatensatz, in dem LC-MS-Serummetabolomikdaten und physiologische Messungen von 39 gesunden Probanden und 40 mit Typ-2-Diabetes gesammelt wurden, und wendeten EigenMS an, um systematische Verzerrungen zu erkennen und zu korrigieren. EigenMS funktioniert in mehreren Stufen. Erstens bewahrt EigenMS die Behandlungsgruppenunterschiede in den Metabolomics-Daten, indem die Behandlungseffekte mit einem ANOVA-Modell geschätzt werden (mehrere feste Effekte können geschätzt werden). Die Singulärwertzerlegung der Residuenmatrix wird dann verwendet, um Bias-Trends in den Daten zu bestimmen. Die Anzahl der Bias-Trends wird dann über einen Permutationstest geschätzt und die Auswirkungen der Bias-Trends werden eliminiert. EigenMS entfernte Verzerrungen unbekannter Komplexität aus den LC-MS-Metabolomikdaten, was eine erhöhte Sensitivität bei der Differentialanalyse ermöglichte. Darüber hinaus korrelierten normalisierte Proben besser mit anderen normalisierten Proben und entsprechenden physiologischen Daten, wie Blutglucosespiegel, glykiertem Hämoglobin, dem auf eine Herzfrequenz von 75 normalisierten zentralen Trainingsdruck und Gesamtcholesterin. Wir konnten 2578 diskriminierende Metabolitenpeaks in den normalisierten Daten (p<0,05) im Vergleich zu nur 1840 Metabolitensignalen in den Rohdaten berichten. Unsere Ergebnisse unterstützen die Verwendung der auf Singulärwertzerlegung basierenden Normalisierung für Metabolomikdaten.


NormalizeMets: Bewertung, Auswahl und Implementierung statistischer Methoden zur Normalisierung von Metabolomics-Daten

Einführung: In Metabolomics-Studien kommt es zwangsläufig zu unerwünschten Variationen aus verschiedenen Quellen. Die Normalisierung, also die Beseitigung unerwünschter Variationen, ist ein wesentlicher Schritt bei der statistischen Analyse von Metabolomics-Daten. Die Normalisierung der Metabolomik wird jedoch aufgrund der vielfältigen Variationsquellen und der Verfügbarkeit einer Reihe alternativer Strategien, die implementiert werden können, oft als ungenaue Wissenschaft angesehen.

Ziele: Wir heben die Notwendigkeit einer vergleichenden Bewertung verschiedener Normalisierungsmethoden hervor und präsentieren Softwarestrategien, um diese Aufgabe sowohl für datenorientierte als auch für biologische Forscher zu erleichtern.

Methoden: Wir präsentieren NormalizeMets - eine gemeinsame grafische Benutzeroberfläche innerhalb des bekannten Microsoft Excel und frei verfügbarer R-Software zur vergleichenden Bewertung verschiedener Normalisierungsmethoden. Das NormalizeMets R-Paket zusammen mit der Vignette, die den Arbeitsablauf beschreibt, kann von https://cran.r-project.org/web/packages/NormalizeMets/ heruntergeladen werden. Die Excel-Oberfläche und das Excel-Benutzerhandbuch sind unter https://metabolomicstats.github.io/ExNormalizeMets verfügbar.

Ergebnisse: NormalizeMets ermöglicht eine vergleichende Bewertung von Normalisierungsmethoden anhand von Kriterien, die vom gegebenen Datensatz und der letztendlichen Forschungsfrage abhängen. Daher leitet es Forscher bei der Bewertung, Auswahl und Implementierung einer geeigneten Normalisierungsmethode entweder mit dem vertrauten Microsoft Excel und/oder der frei verfügbaren R-Software an. Darüber hinaus kann das Paket zur Visualisierung von Metabolomik-Daten mit interaktiven grafischen Anzeigen verwendet werden und um statistische Endergebnisse für Clustering, Klassifikation, Biomarkeridentifizierung, Anpassung an Störvariablen und Korrelationsanalyse zu erhalten.

Abschluss: NormalizeMets dient der vergleichenden Bewertung von Normalisierungsmethoden und kann auch verwendet werden, um statistische Endergebnisse zu erhalten. Die Verwendung frei verfügbarer R-Software bietet ein attraktives Angebot für programmierorientierte Forscher, und die Excel-Schnittstelle bietet den meisten biologischen Forschern eine vertraute Alternative. Das Paket verarbeitet die Daten lokal auf dem eigenen Computer des Benutzers, sodass reproduzierbarer Code lokal gespeichert werden kann.

Schlüsselwörter: Excel Normalization R Software Statistische Analyse.


Plattformspezifische Tools

Die Metabolomik als Disziplin hängt von Analyseplattformen für Massenspektrometrie und Spektroskopie ab, um Daten im Omics-Maßstab mit hohem Durchsatz zu generieren. Dazu gehören unter anderem Flüssigkeitschromatographie-Massenspektrometrie (LC–MS), Gaschromatographie-Massenspektrometrie (GC–MS), Kapillarelektrophorese-Massenspektrometrie (CE-MS) und spektroskopische Methoden wie 1 H-NMR , 13 C-NMR, Raman- und Fourier-Transformations-Infrarot (FTIR) unter anderem. In diesem Abschnitt bespreche ich alle Tools, die 2020 für Analysen von Datensätzen erschienen sind, die spezifisch für eine Metabolomik-Plattform oder -Technologie sind, d. h. LC–MS, GC–MS und NMR.

Automatisiertes Spektralverarbeitungssystem für NMR (AlpsNMR), ist ein R-Paket, das eine automatisierte Signalverarbeitung für ungezielte NMR-Metabolomik-Datensätze durch Ausschließen von Regionen, Laden von Spektren, Metadaten-Handling, automatisierte Ausreißererkennung, Spektrenausrichtung und Peak-Picking, Integration und Normalisierung bietet (Madrid-Gambin et al. 2020) . Das Tool kann Bruker- und JDX-Proben laden und für nachgelagerte statistische Analysen vorverarbeiten.

Signatur-Mapping (SigMa), entwickelt als eigenständiges Tool unter Verwendung von MATLAB-Abhängigkeiten, um 1 H-NMR-Spektren von Rohurin in eine Metabolitentabelle zu verarbeiten (Khakimov et al. 2020). SigMa basiert auf der Aufteilung der Urin-NMR-Spektren in Signatursignale (SS), Signale unbekannter Spinsysteme (SUS) und Bins of Complex Unsolved Regions (BINS) und ermöglicht so den gleichzeitigen Nachweis von Urinmetaboliten in groß angelegten NMR-Metabolomikstudien mit eine SigMa-Bibliothek für chemische Verschiebungen und einen neuen automatischen Peak-Picking-Algorithmus.

NMR-Filter, ist eine eigenständige interaktive Software für die zuverlässige Identifizierung von NMR-Verbindungen, die NMR-Vorhersagen der chemischen Verschiebung durchführt und diese mit den experimentellen Daten abgleicht, wobei sie die Identität von Verbindungen mithilfe einer Liste von Übereinstimmungsraten und korrelierenden Genauigkeitsparametern zusammen mit Zahlen definiert zur visuellen Validierung (Kuhn et al. 2020).

MSHub/Elektronenionisation (EI)-Global Natural Product Social (GNPS) Die molekulare Netzwerkanalyse als Plattform ermöglicht es Benutzern, sowohl Einheits-/niedrigauflösende als auch GC–HRMS-Daten zu speichern, zu verarbeiten, zu teilen, zu kommentieren, zu vergleichen und molekulare Netzwerke durchzuführen (Aksenov et al. 2020). GNPS-MassIVE ist ein öffentliches Datenarchiv für ungezielte MS 2-Daten, EI-MS-Daten, mit Probeninformationen (Metadaten) und annotierten MS 2-Spektren (Aron et al. 2020). MSHub führt die automatische Dekonvolution von zusammengesetzten Fragmentierungsmustern durch unbeaufsichtigte nicht-negative Matrixfaktorisierung durch und quantifiziert die Reproduzierbarkeit von Fragmentierungsmustern über Proben hinweg, gefolgt von molekularen GNPS-Netzwerkanalysen.

RGCxGC-Toolbox, ist ein R-Paket, das die Analyse von zweidimensionalen Gaschromatographie-Massenspektrometrie-Daten (2D GC–MS) unterstützt, indem es Vorverarbeitungsalgorithmen zur Signalverstärkung bietet, wie z. B. Basislinienkorrektur basierend auf asymmetrischen kleinsten Quadraten, Glättung basierend auf Whittaker glatter und Peak-Ausrichtung 2D Correlation Optimized Warping und Mehrweg-Hauptkomponentenanalyse (Quiroz-Moreno et al. 2020).


Normalisieren von Metabolomics-Daten - Biologie

Datensatz mit Qualitätskontrollproben (QCS) könnte sein heruntergeladen und die entsprechenden Daten der goldenen Standards für die Leistungsbewertung nach Kriterium e könnten sein: heruntergeladen .

Datensatz mit internen Standards (IS) könnte sein heruntergeladen und die entsprechenden Daten der goldenen Standards für die Leistungsbewertung nach Kriterium e könnten sein: heruntergeladen .

Datensatz ohne QCSs und ISs könnte heruntergeladen und die entsprechenden Daten der goldenen Standards für die Leistungsbewertung nach Kriterium e könnten sein: heruntergeladen .

Datensatz mit Qualitätskontrollproben (QCS) könnte sein heruntergeladen und die entsprechenden Daten der goldenen Standards für die Leistungsbewertung nach Kriterium e könnten sein: heruntergeladen .

Datensatz mit internen Standards (IS) könnte sein heruntergeladen und die entsprechenden Daten der goldenen Standards für die Leistungsbewertung nach Kriterium e könnten sein: heruntergeladen .

Datensatz ohne QCSs und ISs könnte heruntergeladen und die entsprechenden Daten der goldenen Standards für die Leistungsbewertung nach Kriterium e könnten sein: heruntergeladen .

Zusammenfassung und Visualisierung der hochgeladenen metabolomischen Rohdaten

Einführung in den Datenvorverarbeitungsschritt von NOREVA

Metabolomische Daten werden gefiltert, wenn der Prozentsatz der fehlenden Werte jedes Metaboliten größer als der tolerierbare Grenzwert ist. Dieser Cutoff wird von Benutzern mit einem Standardwert von 0,2 (Chen J, et al. Anal Chem. 89: 5342-8, 2017). Der RSD ist das absolute Maß der Abweichung von Charge zu Charge und ein niedrigerer RSD zeigt eine bessere Reproduzierbarkeit des Merkmals an (Dunn WB, et al. Nat-Protokoll. 6: 1060–83, 2011). Ein Metabolit wird gelöscht, wenn seine RSD bei allen Qualitätskontrollen (QCs) höher ist als der von den Benutzern definierte Schwellenwert (der Standardwert ist 0,3).

Für die Imputation von fehlenden Werten stehen hier sieben Methoden zur Verfügung. (1) BPCA-Anrechnung imputiert fehlende Daten mit den Werten aus der Bayes'schen Hauptkomponentenanalyse-Regression (Oba S, et al. Bioinformatik. 19: 2088-96, 2003), und die Anzahl der für die Berechnung verwendeten Hauptkomponenten sollte von Benutzern mit einem Standardwert von 3 festgelegt werden. (2) Spaltenmittelwert-Imputation unterstellt fehlende Werte mit dem Mittelwert der nicht fehlenden Werte im entsprechenden Metaboliten (Huan T, et al. Anal Chem. 87: 1306-13, 2015). (3) Spalten-Median-Imputation unterstellt fehlende Werte mit dem Medianwert der nicht fehlenden Werte im entsprechenden Metaboliten (Huan T, et al. Anal Chem. 87: 1306-13, 2015). (4) Half of the Minimum Positive Value imputes missing values using the half of the minimum positive value in all metabolomics data (Taylor SL, et al. Brief Bioinform. 18: 312-20, 2017). (5) KNN Imputation aims to find K metabolites of interest which are similar to the metabolites with missing value, and the detail algorithm together with the corresponding parameters are provided in Tang J, et al. Brief Bioinform. doi: 10.1093/bib/bby127, 2019. (6) SVD Imputation analyzes the principle components that represent the entire matrix information and then to estimate the missing values by regressing against the principle components (Gan X, et al. Nukleinsäuren Res. 34: 1608-19, 2006). (7) Zero Imputation replaces all missing values with zero (Gromski PS, et al. Metabolites. 4: 433-52, 2014).

There are two methods provided here for data transformation. (1) Cube Root Transformation is employed to improve the normality distribution of simple count data (Ho EN, et al. Drug Test Anal. 7: 414-9, 2015). (2) Log Transformation is a nonlinear conversion of data to decrease heteroscedasticity and obtain a more symmetric distribution prior to statistical analysis (Purohit PV, et al. OMICS. 8: 118-30, 2004). No transformation is allowed for data preprocessing by selecting the “None” option.

The correction strategy based on multiple QC samples is popular in evaluating the signal drifts and other systematic noise using mathematical algorithms (Luan H, et al. Anal Chim Acta. 1036: 66-72, 2018). The regression model for QC-RLSC including Nadaraya-Watson Estimator, Local Linear Regression and Local Polynomial Fits, which should be selected by users.

Summary and Visualization of the Data after Data Preprocessing

Please input the serial number of metabolic feature

Summary and Visualization of the Data after Data Preprocessing

Summary and Visualization of the Data after Data Preprocessing

Introduction to the Data Normalization Step of NOREVA

Normalization methods are widely applied for removing unwanted experimental/biological variation and technical error. These methods can be roughly divided into two categories: sample-based and metabolite-based (Xia J, et al. Nat Protoc. 6: 743-60, 2011). Herein, ≥19 methods are provided including (1) twelve sample-based normalization methods: Contrast, Cubic Splines, Cyclic Loess, EigenMS, Li-Wong, Linear Baseline, Mean Normalization, Median Normalization, MSTUS (MS Total Useful Signal), PQN (Probabilistic Quotient Normalization), Quantile and Total Sum (2) six metabolite-based normalization methods: Auto Scaling, Level Scaling, Pareto Scaling, Power Scaling, Range Scaling and Vast Scaling (3) one sample & metabolite based normalization methods: VSN (variance stabilizing normalization). For the majority of previous metabolomic studies, either a sample-based or a metabolite-based method is independently used for removing unwanted variations (Li XK, et al. Sci Transl Med. 10: eaat4162, 2018 Naz S, et al. Eur Respir J. 49: 1602322, 2017). But the combined normalization between a sample-based and metabolite-based methods is also found to be effective by a few recent metabolomic studies (Gao X, et al. Natur. 572: 397-401, 2019). Herein, this novel approach was recommended to discover the most appropriate normalization strategies that are consistently well-performing under all evaluation criteria. The detailed description of each method is shown in below.

Summary and Visualization of the Data after Data Normalization

Please input the serial number of metabolic feature

Summary and Visualization of the Data after Data Normalization

Please input the serial number of metabolic feature

Summary and Visualization of the Data after Data Normalization

Please input the serial number of metabolic feature

Introduction to the Performance Evaluation Step of NOREVA

The performance of normalization methods could be assessed using method’s capability of reducing intragroup variation among samples (Chawade A, et al. J Proteome Res. 13: 3114-20, 2014). (1) Common measures of intragroup variability among samples include Pooled Median Absolute Deviation (PMAD) and Pooled Estimate of Variance (PEV) (Valikangas T, et al. Brief Bioinform. 19: 1-11, 2018). A lower value denotes more thorough removal of experimentally induced noise and indicates a better performance. (2) Principal Component Analysis (PCA) is used to visualize differences across groups (Chawade A, et al. J Proteome Res. 13: 3114-20, 2014). The more distinct group variations indicate better performance of the applied normalization method. (3) Relative Log Abundance (RLA) plot is used to measure possible variations, clustering tendencies, trends and outliers across groups or within group (De Livera AM, et al. Anal Chem. 84: 10768-76, 2012). Boxplots of RLA are used to visualize the tightness of samples across or within group(s). The median in plots would be close to zero and the variation around the median would be low.

Method’s effect on differential metabolic analysis is applied to assess the performance of normalization methods (Valikangas T, et al. Brief Bioinform. 19: 1-11, 2018). Differentiation among different groups based on differential metabolic markers is shown using k-means clustering algorithm (Jacob S, et al. Diabetes-Behandlung. 40: 911-9, 2017). Methods will be considered as well-performed when an obvious differentiation among different groups in clustering is achieved.

The performance of normalization methods could be assessed by method’s consistency of the identified metabolic markers among different datasets (Wang X, et al. Mol Biosyst. 11: 1235-40, 2015). Overlap of identified metabolic markers among different partitions is calculated using consistency score and the higher consistency score represents the more robust results in metabolic marker identification for that given dataset (Wang X, et al. Mol Biosyst. 11: 1235-40, 2015).

Method’s influence on classification accuracy is used to evaluate the performance of normalization methods (Risso D, et al. Nat Biotechnologie. 32: 896-902, 2014). The classification accuracy is measured using ROC curve and AUC value based on support vector machine model (Gromski P S, et al. Metabolomik. 11: 684-95, 2015).

The performance of normalization methods could be assessed using level of correspondence between normalized and reference data (Valikangas T, et al. Brief Bioinform. 32: 896-902, 2014). The performance of each method could be reflected by how well the log fold changes of normalized data corresponded to what were expected based on references including spike-in compounds and various molecules detected by quantitative analysis (Franceschi P, et al. J. Chemom. 26: 16-24, 2012). The preferred median in boxplot would be zero with minimized variations.

Summary and Visualization for Performance Evaluation from Multiple Perspectives

(1) Visualization of the Values of PMAD and PEV before and after Normalization

(2) Visualization of PCA Results before and after Normalization

(3) Visualization of the Results of Relative Log Abundance (RLA) after Normalization

The Resulting K-means Plot Using Differential Metabolic Markers after Normalization

(1) For this dataset, difference between metabolomics data and true marker estimates of log-fold-changes of means between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(2) Difference between metabolomics data and true marker estimates of log-fold-changes of standard deviation (SD) between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(1) For this dataset, difference between metabolomics data and true marker estimates of log-fold-changes of means between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(2) Difference between metabolomics data and true marker estimates of log-fold-changes of standard deviation (SD) between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

Summary and Visualization for Performance Evaluation from Multiple Perspectives

(1) Visualization of the Values of PMAD and PEV before and after Normalization

(2) Visualization of PCA Results before and after Normalization

(3) Visualization of the Results of Relative Log Abundance (RLA) after Normalization

The Resulting K-means Plot Using Differential Metabolic Markers after Normalization

(1) For this dataset, difference between metabolomics data and true marker estimates of log-fold-changes of means between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(2) Difference between metabolomics data and true marker estimates of log-fold-changes of standard deviation (SD) between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(1) For this dataset, difference between metabolomics data and true marker estimates of log-fold-changes of means between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(2) Difference between metabolomics data and true marker estimates of log-fold-changes of standard deviation (SD) between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

Summary and Visualization for Performance Evaluation from Multiple Perspectives

(1) Visualization of the Values of PMAD and PEV before and after Normalization

(2) Visualization of PCA Results before and after Normalization

(3) Visualization of the Results of Relative Log Abundance (RLA) after Normalization

The Resulting K-means Plot Using Differential Metabolic Markers after Normalization

(1) For this dataset, difference between metabolomics data and true marker estimates of log-fold-changes of means between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(2) Difference between metabolomics data and true marker estimates of log-fold-changes of standard deviation (SD) between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(1) For this dataset, difference between metabolomics data and true marker estimates of log-fold-changes of means between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

(2) Difference between metabolomics data and true marker estimates of log-fold-changes of standard deviation (SD) between two groups, that is, bias in metabolomics data when viewing true markers as the gold standard.

Inhaltsverzeichnis

1. The Compatibility of Browser and Operating System (OS)

2. Required Formats of the Input Files

2.1 Time-course Metabolomic Data with Quality Control Samples (QCSs)

2.2 Time-course Metabolomic Data with Internal Standards (ISs)

2.3 Time-course Metabolomic Data without QCSs and ISs

2.4 Multi-class Metabolomic Data with QCSs

2.5 Multi-class Metabolomic Data with ISs

2.6 Multi-class Metabolomic Data without QCSs and ISs

2.7 Input File Containing the Reference Metabolites as Golden Standards

3. Step-by-step Instruction on the Usage of NOREVA

3.1 Uploading Your Customized Metabolomic Data or the Sample Data Provided in NOREVA

3.2 Data Preprocessing (Filtering & Imputation & Transformation)

3.3 Sample/Metabolite/IS-based Normalization Methods/Strategies

3.4 Evaluation of the Normalization Performance from Multiple Perspectives

4. A Variety of Methods for Data Preprocessing and Normalization

4.1 Filtering Methods

4.2 Missing-value Imputation Methods

4.3 Transformation Methods

4.4 Sample-based Normalization Methods

4.5 Metabolite-based Normalization Methods

4.6 Sample & Metabolite-based Normalization Method

4.7 IS-based Normalization Methods

1. The Compatibility of Browser and Operating System (OS)

NOREVA is powered by R shiny. It is free and open to all users with no login requirement and can be readily accessed by a variety of popular web browsers and operating systems as shown below.

2. Required Formats of the Input Files

In general, the file required at the beginning of NOREVA 2.0 analysis should be a sample-by-feature matrix in a csv format.

2.1 Time-course Metabolomic Data with Quality Control Samples (QCSs)

In this situation, the sample name, batch ID, class of samples, injection order and time ID are sequentially provided in the first 5 columns of input file. Names of these columns must be kept as "sample", "batch", "class", "order" and "time" without any changes during the entire analysis. The sample name is uniquely assigned according to the specified format ("batch & batch ID & _ & class name & injection order", e.g. "batch01_QC01") the batch ID refers to different analytical blocks or batches, and is labeled with ordinal number, e.g., 1,2,3,… the class of samples indicates 2 sample groups and QC samples (the name of sample groups is different, and QC samples are all labeled as "NA") the injection order strictly follows the sequence of experiment the time ID refers to time points of the experiment. Importantly, the first row must be a QC sample, and the last row also must be a QC sample. Sample data of this data type can be heruntergeladen .

2.2 Time-course Metabolomic Data with Internal Standards (ISs)

Under this circumstance, sample name, class of samples and time ID are required in the first 3 columns of the input file, and are kept as "sample", "class" and "time". The sample ID is uniquely assigned according to the specified format ("S & sample ID & T & Time ID", e.g., "S1T0") The sample ID mentioned above is referred to different samples, and is labeled with ordinal number, e.g., 1,2,3. In the column of class of samples, "NA" is not labeled to any sample due to the absence of QC samples. The time ID refers to time points of experiment. In the following columns of the input file, metabolites’ raw intensities across all samples are further provided. Unique IDs of each metabolite are listed in the first row of the csv file. Sample data of this data type can be heruntergeladen .

2.3 Time-course Metabolomic Data without QCSs and ISs

Under this circumstance, sample name, label name and time ID are required in the first 3 columns of the input file, and are kept as "sample", "label" and "time". The sample ID is uniquely assigned according to the specified format ("S & sample ID & T & Time ID", e.g., "S1T0") The sample ID mentioned above is referred to different samples, and is labeled with ordinal number, e.g., 1,2,3. The label ID is referred to the property of samples, e.g., phenotype. The time ID referls to time points of the experiment. In the following columns of the input file, metabolites’ raw intensities across all samples are further provided. Unique IDs of each metabolite are listed in the first row of the csv file. Sample data of this data type can be heruntergeladen .

2.4 Multi-class Metabolomic Data with QCSs

In this situation, the sample name, batch ID, class of samples and injection order are sequentially provided in the first 4 columns of input file. Names of these columns must be kept as "sample", "batch", "class" and "order" without any changes during the entire analysis. The sample name is uniquely assigned according to the specified format ("batch & batch ID & _ & Class & injection order", e.g., "batch01_QC01") the batch ID refers to different analytical blocks or batches, and is labeled with ordinal number, e.g., 1,2,3,… the class of samples indicates 2 sample groups and QC samples (the name of sample groups is different, and QC samples are all labeled as "NA") the injection order strictly follows the sequence of the experiment. Importantly, the first row must be a QC sample, and the last row also must be a QC sample. Sample data of this data type can be heruntergeladen .

2.5 Multi-class Metabolomic Data with ISs

Under this circumstance, only sample name and class of samples are required in the first 2 columns of the input file, and are kept as "sample name" and "label". In the column of class of samples, "NA" is not labeled to any sample due to the absence of QC samples. In the following columns of the input file, metabolites’ raw intensities across all samples are further provided. Unique IDs of each metabolite are listed in the first row of the csv file. Sample data of this data type can be heruntergeladen .

2.6 Multi-class Metabolomic Data without QCSs and ISs

Under this circumstance, only sample name and label ID are required in the first 2 columns of the input file, and are kept as "sample name" and "label". In the column of label ID, "NA" is not labeled to any sample due to the absence of QC samples. The label ID is referred to the different classes of samples, and is labeled with ordinal number, e.g., 1,2,3. In the following columns of the input file, metabolites’ raw intensities across all samples are further provided. Unique IDs of each metabolite are listed in the first row of the csv file. Sample data of this data type can be heruntergeladen .

2.7 Input File Containing the Reference Metabolites as Golden Standards

To evaluate methods based on the last criterion, additional file providing information of the reference metabolites (e.g., spike-in compounds) is needed for further analysis. In this file, sample name and class of samples are required in the first 2 columns. Their names are provided as "sample name" and "label". The sample ID is also uniquely assigned according to users’ preference, and the class of samples indicates 2 sample groups of different names. The data format is the same for all data types, and the sample data for time-course studies can be heruntergeladen .

3. Step-by-step Instruction on the Usage of NOREVA

This website is free and open to all users and there is no login requirement, and can be readily accessed by all popular web browsers including Google Chrome, Mozilla Firefox, Safari and Internet Explorer 10 (or later), and so on. Analysis and subsequent performance assessment are started by clicking on the "Analysis" panel on the homepage of NOREVA 2.0. The collection of web services and the whole process provided by NOREVA 2.0 can be summarized into 4 steps: (3.1) uploading metabolomics data, (3.2) data preprocessing, (3.3) data normalization und (3.4) performance evaluation. A report containing evaluation results is also generated and can be downloaded in the format of PDF, HTML and DOC. The flowchart below summarizes the flowchart of analyzing processes in NOREVA 2.0.

3.1 Uploading Your Customized Metabolomic Data or the Sample Data Provided in NOREVA

There are 3 radio checkboxes in STEP-1 on the left side of the Analysis page. Users can choose to upload their own metabolomics data or to directly load sample data. The type of the study and the type of the metabolomics data can also be selected in the remaining 2 radio checkboxes below. After selecting 3 corresponding radio checkboxes, datasets provided by the users for further analysis can be then directly uploaded by clicking "Browse". Preview of the uploaded data is subsequently provided on the web page. Moreover, users could process their data by uploading the raw data in a unified format.

6 sets of sample data are also provided in this step facilitating a direct access and evaluation of NOREVA 2.0. These sample data are all benchmark datasets collected from MetaboLights database developed by the European Bioinformatics Institute, which included (1) MTBLS403 dataset of time-course metabolomics study with QCSs: part of the dataset (3 time points are chosen from all time points, including 0, 12 and 36h) of a nontargeted metabolomics study on characterization of white tea metabolome. (2) MTSBL319 dataset of time-course metabolomics study with ISs: part of the dataset (gas toluene are selected from all stress conditions and mutant strains are selected from all gene knockouts, respectively) of a metabolomics study to elucidate any observable metabolic alterations during interactions of several strains of Pseudomonas putida (DOT-T1E, and its mutants DOT-T1E-PS28 and DOT-T1E-18) with the aromatic hydrocarbon toluene. And the time blocking (dosage of toluene) is the experiment factor in this dataset, which involves 0, 10 and 60 mins. (3) time-course metabolomics study without QCSs and ISs: part of the dataset of a study on the wound response of wild type Arabidopsis thaliana during a wounding time course (4 time points), based on LC-MS metabolite profile intensities from 8 different experimental conditions. This dataset is used as benchmark dataset for demonstrating that clustering and visualization capabilities can be used to identify relevant groups of markers (Meinicke P, et al. Algorithms Mol Biol. 3: 9, 2008). (4) MTBLS370 dataset of multi-class (N>1) metabolomics study with QCSs: part of the dataset (intracellular parts are selected from all organism parts) of a metabolomics study on Candida albicans and Staphylococcus aureus, which includes 18 samples from 3 classes of organisms and 11 QC samples. (5) MTBLS370 dataset of multi-class (N>1) metabolomics study with ISs: part of the dataset (culture supernatants are selected from all organism parts) of a metabolomics study on Candida albicans and Staphylococcus aureus, which includes 18 samples from 3 classes of organisms. (6) MTBLS159 dataset of multi-class (N>1) metabolomics study without QCSs and ISs: comprised of 4 classes of samples, which refer to the plasma samples obtained from DIO mice subjected to vehicle (water) treatment, or peptide treatment with humanin analog S14G (HNG), SHLP2 or MOTS-c (n = 6 per group). This set of data is the metabolomics profile of diet-induced obesity mice in response to human and small humanin-like peptide 2 treatment. By clicking the Load Data button, the sample dataset selected by the users can be uploaded for further analysis.

3.2 Data Preprocessing (Filtering & Imputation & Transformation)

Data filtering, missing value imputation and data transformation are subsequently provided in this step. The filtering methods used here are the tolerance percentage of missing values and the tolerance of RSD. And 7 imputation methods frequently applied to treat missing value are covered, which include BPCA Imputation, Column Mean Imputation, Column median Imputation, Half of the Minimum Positive Value Imputation, KNN Imputation, SVD and Zero Imputation. Moreover, 2 transformation methods are adopted in NOREVA 2.0, which involve Cube Root Transformation, Log Transformation. A detailed explanation on each filtering, imputation and transformation method is provided in the Section 4 of this Manual. For data with QCSs, QCSs correct model should also be selected on the left side panel. After selecting or defining preferred methods or parameters, please proceed by clicking the "PROCESS" button, a summary of the processed data and plots of the intensity distribution before and after data manipulation are automatically generated. All resulting data and figures can be downloaded by clicking the corresponding "Download" button.

3.3 Sample/Metabolite/IS-based Normalization Methods/Strategies

Data normalization is subsequently provided in this step. NOREVA 2.0 offers 12 sample-based, 6 metabolite-based ,1 sample and metabolite-based and 4 IS-based normalization methods for analyzing MS-based or NMR-based metabolomics data. A detailed explanation on each normalization method is provided in the Section 4 of this Manual.

For data with QCSs or without QCSs and ISs, users can select each combination of methods by selecting the 2 corresponding radio checkboxes indicating the sample-based or metabolite-based normalization methods in STEP-3 on the left side of the Analysis page. After selecting preferred methods, please proceed by clicking the PROCESS button, a summary of the processed data and plots of the intensity distribution before and after data normalization are automatically generated. All resulting data and figures can be downloaded by clicking the corresponding download button.

For data with ISs, IS-based normalization methods can be selected in the corresponding radio checkbox. The information of columns of multiple ISs is also provided by users.After selecting preferred method, please proceed by clicking the PROCESS button, a summary of the processed data and plots of the intensity distribution before and after data normalization are automatically generated. All resulting data and figures can be downloaded by clicking the corresponding download button.

3.4 Evaluation of the Normalization Performance from Multiple Perspectives

5 well-established criteria for a comprehensive evaluation on the performance of normalization methods are provided in NOREVA 2.0, and each criterion is either quantitatively or qualitatively assessed by various metrics. These criteria include:

Common measures of intragroup variability including pooled median absolute deviation (PMAD) and pooled estimate of variance (PEV) are adopted under this criterion to evaluate variation between samples (Välikangas T, et al. Brief Bioinform. 19: 1-11, 2018). A lower value (illustrated by boxplots) of these two measures denotes more thorough removal of experimentally induced noise and indicates a better performance. Moreover, the principal component analysis (PCA) is also used to visualize differences across groups. The more distinct group variations indicate better performance of the applied normalization method. In addition, the relative log abundance (RLA) plots (De Livera AM, et al. Anal Chem. 84: 10768-76, 2012) used to measure possible variations, clustering tendencies, trends and outliers across groups or within group are also provided. Boxplots of RLA are used to visualize the tightness of samples across or within group(s). The median in boxplots would be close to zero and the variation around the median would be low (De Livera,A.M., et al. Metabolomics Tools for Natural Product Discovery: Methods and Protocols. 1055: 291-307, 2013).

K-means clustering is a commonly used method to partition data into several groups that minimizes variations in values within clusters (Jacob S, et al. Diabetes-Behandlung. 40: 911-9, 2017). First, samples are randomly assigned to one of a prespecified number of groups. Then, the mean value of the observations in each group is calculated, and samples are replaced into the group with the closest mean. Finally, the process mentioned above proceeds iteratively until the mean value of each group no longer changes (Jacob S, et al. Diabetes-Behandlung. 40: 911-9, 2017). Therefore, the plot of k-means clustering can be used to evaluate method’s effect on differential metabolic analysis. The more distinct group variations indicate better performance of the applied normalization method.

Under this criterion, a consistency score is defined to quantitatively measure the overlap of identified metabolic markers among different partitions of a given dataset (Wang X, et al. Mol Biosyst. 11: 1235-40, 2015). The higher consistency score represents the more robust results in metabolic marker identification for that given dataset.

Under this situation, receiver operating characteristic (ROC) curve together with area under the curve (AUC) values based on support vector machine (SVM) are provided. First, differential metabolic features are identified by partial least squares discriminant analysis (PLS-DA). Second, the SVM models are constructed based on these differential features identified. After k-folds cross validation, a method with larger area under the ROC curve and higher AUC value is recognized as well performed (De Livera AM, et al. Anal Chem. 84: 10768-76, 2012 Risso D, et al. Nat Biotechnologie. 32: 896-902, 2014 Piotr S. Gromski, et al. Metabolomik. 11: 684-95, 2015).

If this criterion is selected, an additional reference file providing information of golden standard metabolites should be uploaded as a csv file. The format of this file is described in the "Input File Containing Reference Metabolites as Golden Standards" section. Additional experimental data are frequently generated as references to validate or adjust prior result of metabolomics analysis (Pietro Franceschi, et al. J.Chemom. 26: 16-24, 2012). These references could be spike-in compounds and various molecules detected by quantitative analysis (Pietro Franceschi, et al. J.Chemom. 26: 16-24, 2012). Here, log fold changes (logFCs) of concentration between multiple groups are calculated, and the level of correspondence between normalized data and references is then estimated. The performance of each method could be reflected by how well the logFCs of normalized data corresponded to what are expected based on references (Välikangas T, et al. Brief Bioinform. 19: 1-11, 2018).

4. A Variety of Methods for Data Preprocessing and Normalization


Schau das Video: NORMALIZACIJA ŠEME BAZE PODATAKA (August 2022).