Information

ChIP-seq für Histonmodifikation stimmt nicht mit RNA-seq für Expression überein

ChIP-seq für Histonmodifikation stimmt nicht mit RNA-seq für Expression überein


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe ChIP-seq für H3K79me2 und H3K36me3 und RNA-seq Daten für behandelte und unbehandelte Proben. Diese beiden Histone markieren aktive Gene. Nehmen wir hypothetisch an, ein Peak-Caller findet unterschiedliche Stellen am Gen A für diese beiden Histon-Modifikationen. Wenn ich jedoch RNA-seq-Analysetools (wie edgeR oder DESeq2) ausführe, wird dieses Gen nicht als differentiell exprimiert markiert (nun, es hat einen FDR-Wert von > 0,05).

Es kann mehrere technische Gründe dafür geben, dass RNA-Seq-Analysemethoden dieses Gen nicht als unterschiedlich exprimiert finden, weil

  1. es ist wirklich nicht unterschiedlich ausgedrückt
  2. oder es wird nicht differenziert genug ausgedrückt, damit die Tools es erkennen können

Allerdings interessiert mich eher der biologische Aspekt. Wenn zwei Histone in behandelten Proben das Gen A als aktiv markieren, würde man erwarten, dass es in RNA-seq. Welcher Mechanismus könnte dazu führen, dass die Gene zwar durch Histone als aktiv markiert sind, aber nicht in RNA-Seq unterschiedlich exprimiert werden?


Es ist schwierig, ohne weitere Experimente eine Schlussfolgerung zu ziehen. Es kann viele andere Faktoren geben, die die Expression des Gens verhindern, einschließlich Faktoren wie posttranskriptionelle Regulatoren. Einige Histon-Modifikationen wie die von Ihnen erwähnten sind auch etwas heikel und es kann auch bivalente Modifikationen geben. Wenn es jedoch einen triftigen Grund zu der Vermutung gibt, dass diese Marken mit Repression in Verbindung stehen, können Sie Folgendes versuchen:

  1. Sie können überprüfen, wie viele Gene es gibt, deren Expression nicht mit den Histonmarkierungen übereinstimmt. Wenn dies für eine kleine Anzahl von Genen gilt, können Sie diese separat untersuchen. Verwenden Sie einen statistischen Test, um die Signifikanz Ihrer Korrelation zwischen Histon-Markierung und Expression zu überprüfen. Wenn die Diskordanz weit verbreitet ist, würde ich Ihnen vorschlagen, die RNAseq zu wiederholen (einfacher und billiger als die ChIP-seq). Übrigens, wie waren die Lesequalitäten? Abhängig davon können Sie entscheiden, welches Experiment wiederholt werden muss. Wiederholung wird Ihnen helfen zu wissen, ob die Beobachtung tatsächlich richtig ist (ein biologisches Replikat); möglicherweise kommen Sie auch zu dem Schluss, dass diese Markierungen tatsächlich brenzlig sind.

  2. Wenn einige Gene Diskordanz zeigen, dann führen Sie einfach eine Real-Time-PCR für diese Gene durch. RT-PCR ist empfindlicher und eine andere Quantifizierungstechnik ist sowieso gut. Verwenden Sie im Experiment auch einige übereinstimmende Gene.


ChIP-seq ist nicht perfekt. Selbst zwischen technischen Replikationen erhalten Sie eine Menge Variation, insbesondere bei breiten Markierungen, wie sie Sie verwenden. Es ist eher ungewöhnlich, dass Menschen H3K79me2 und H3K36me3 verwenden, um festzustellen, ob ein Gen exprimiert wird oder nicht. Die Verwendung von H3K4me3 und H3K27ac oder H3ac ist eine häufigere Methode zur Markierung von Promotoren transkribierter Gene.

40 nicht übereinstimmende Gene würden mich nicht sehr beunruhigen, es sei denn, Sie haben wirklich niedrige Werte für beide Sequenzierungsexperimente. Der Vorschlag von @WYSIWYG, RT-PCR zu verwenden, um Ihre RNA-Seq-Daten für einige Gene zu überprüfen, ist gut.


ChIP-seq und RNA-seq für komplexe und selten vorkommende Baumknospen zeigen Chromatin- und Expressions-Kodynamik während der Ruhephase der Süßkirschenknospen

Die Chromatin-Immunopräzipitations-Sequenzierung (ChIP-seq) ist eine robuste Technik, um Wechselwirkungen zwischen Proteinen wie Histone oder Transkriptionsfaktoren und DNA zu untersuchen. Diese Technik in Kombination mit der RNA-Sequenzierung (RNA-seq) ist ein leistungsfähiges Werkzeug, um biologische Prozesse in Eukaryoten besser zu verstehen. Wir haben ein kombiniertes ChIP-seq- und RNA-seq-Protokoll für Baumknospen entwickelt (Prunus avium L., Prunus persica L-Charge, Malus x Domestica Bork.), die auch erfolgreich getestet wurde Arabidopsis thaliana und Saccharomyces cerevisiae. Baumknospen enthalten phenolische Verbindungen, die die ChIP- und RNA-Extraktion negativ beeinflussen. Zusätzlich zur Lösung dieses Problems ist unser Protokoll für die Arbeit mit kleinen Materialmengen optimiert. Darüber hinaus besteht einer der Vorteile dieses Protokolls darin, dass Proben für ChIP-seq nach dem Schockfrosten quervernetzt werden, was es ermöglicht, an im Freiland wachsenden Bäumen zu arbeiten und ChIP-seq und RNA-seq auf demselben Ausgangsmaterial durchzuführen . Wir konzentrierten uns auf ruhende Knospen in Süßkirschen und untersuchten den Zusammenhang zwischen dem Expressionsniveau und der H3K4me3-Anreicherung für alle Gene, einschließlich einer starken Korrelation zwischen der H3K4me3-Anreicherung am DORMANCY-ASSOZIIERTE MADS-BOX 5 (PavDAM5) Loci und ihr Expressionsmuster. Dieses Protokoll ermöglicht die Analyse der Chromatin- und Transkriptomdynamik in Baumknospen, insbesondere während ihrer Entwicklung und Reaktion auf die Umwelt.


Transkriptionslandschaft des menschlichen Zellzyklus

Steady-State-Genexpression über den Zellzyklus hinweg wurde ausgiebig untersucht. Die transkriptionelle Genregulation und die Dynamik der Histonmodifikation in verschiedenen Zellzyklusstadien sind jedoch weitgehend unbekannt. Durch die Anwendung einer Kombination aus globaler nuklearer Run-on-Sequenzierung (GRO-seq), RNA-Sequenzierung (RNA-seq) und histonmodifizierender Chip-Sequenzierung (ChIP-seq) haben wir eine umfassende Transkriptionslandschaft am G0/G1, G1 /S- und M-Phasen von MCF-7-Zellen von Brustkrebs. Wichtig ist, dass die GRO-seq- und RNA-seq-Analyse verschiedene zellzyklusregulierte Gene identifizierte, was auf eine Verzögerung zwischen Transkription und Steady-State-Expression während des Zellzyklus hindeutet. Interessanterweise identifizierten wir in der frühen M-Phase aktiv transkribierte Gene, die länger sind und eine niedrige Expression aufweisen und von einer globalen Zunahme der aktiven Histon-3-Lysin-4-Methylierung (H3K4me2) und Histon-3-Lysin27-Acetylierung (H3K27ac) begleitet werden. Darüber hinaus identifizierten wir 2.440 zellzyklusregulierte Enhancer-RNAs (eRNAs), die stark mit einer differentiellen aktiven Transkription, aber nicht mit stabilen Expressionsniveaus über den Zellzyklus hinweg assoziiert sind. Die Motivanalyse dynamischer eRNAs sagte Kruppel-like factor 4 (KLF4) als Schlüsselregulator des G1/S-Übergangs voraus, und diese Identifizierung wurde experimentell validiert. Zusammenfassend charakterisierte unsere kombinierte Analyse das Transkriptions- und Histon-Modifikationsprofil des menschlichen Zellzyklus und identifizierte dynamische Transkriptionssignaturen über den Zellzyklus hinweg.

Schlüsselwörter: GRO-seq-Zellzyklus-Epigenetik entstehende RNA-Transkriptionsregulation.

Interessenkonflikt-Erklärung

Die Autoren geben keinen Interessenkonflikt an.

Figuren

GRO-seq und RNA-seq identifizieren unterschiedliche…

GRO-seq und RNA-seq identifizieren verschiedene zellzyklusregulierte Gene. ( EIN ) Illustration der Transkription…

Aktive Transkription im frühen M…

Aktive Transkription in der frühen M-Phase. ( EIN ) Clustering von differentiell transkribierten…

Globaler Anstieg von H3K4me2 und…

Globaler Anstieg der H3K4me2- und H3K27ac-Signale in der frühen M-Phase. ( EIN…

Identifizierung von Zellzyklus-regulierten eRNAs. (…

Identifizierung von Zellzyklus-regulierten eRNAs. ( EIN ) Workflow zur Identifizierung von zellzyklusstadienspezifischen eRNAs.…

KLF4 reguliert eRNAs und zielt auf…

KLF4 reguliert eRNAs und Zielgene, um den G1/S-Übergang zu kontrollieren. ( EIN )…


Materialen und Methoden

Kohorte von Primärproben der Johns Hopkins University

Von einer Kohorte von 47 Patienten mit HPV-assoziierten oropharyngealen Plattenepithelkarzinomen wurden, wie zuvor beschrieben, Gewebeproben des Primärtumors entnommen (13). Zum Vergleich wurde gesundes Oropharynx-Schleimhautgewebe aus chirurgischen Proben der Uvulopalatopharyngoplastik (UPPP) von 25 krebsfreien Kontrollen entnommen (13). Alle Gewebeproben wurden aus dem Johns Hopkins (JHU) Tissue Core gemäß einem genehmigten Institutional Review Board (IRB)-Protokoll (NA_00036235) entnommen, nachdem die schriftliche Zustimmung aller Probanden eingeholt worden war. Dieses Protokoll erlaubte auch die Verwendung des Tumorgewebes für die Entwicklung von PDX-Modellen. Diese Studie wurde gemäß der Richtlinie des US-Gesundheitsministeriums zum Schutz von Menschen [45 CFR 46.101(b)] freigestellt (IRB-Studiennummer ist NA_00036235). Weitere Details finden Sie unter Ergänzende Materialien und Methoden.

Zelllinien

Die humanen HPV + HNSCC-Zelllinien UM-SCC-047 und UPCI-SCC-090 wurden von Dr. Thomas Carey (University of Michigan, Ann Arbor, MI) bzw. Dr. Susanne Gollin (University of Pittsburgh, Pittsburgh, PA) bereitgestellt . Weitere Details finden Sie unter Ergänzende Materialien und Methoden.

HPV-Erkennung

Vier unabhängige Methoden wurden verwendet, um den HPV-Status in allen unseren Proben zu validieren: vor Ort Hybridisierung für HR-HPV, ICH-Färbung für p16, qRT-PCR-Nachweis für HPV-DNA und RNA-Seq-basierter Nachweis der HPV-Expression. Weitere Details finden Sie unter Ergänzende Materialien und Methoden.

Probenauswahl für die ChIP-Seq-Analyse

Zwei HPV + OPSCC-Proben aus der Kohorte von Primärtumoren der Johns Hopkins University (JHU) (13) wurden für die Herstellung der PDX-Modelle der ersten Generation (F1), PDX1 und PDX2, unter Verwendung von Xenografting-Verfahren verwendet, die in Lit. beschrieben sind. 6 und 15 für die ChIP-Seq-Analyse. RNA-Seq-Daten wurden für diese PDXs unter Verwendung der zuvor beschriebenen Methoden und Normalisierungsverfahren gesammelt (13). Um zu bestätigen, dass die PDX-Modelle den Tumorproben ähnlich waren, aus denen sie abgeleitet wurden, verglichen wir das RNA-Seq-Genexpressionsprofil mit dem Profil des entsprechenden Elterngewebes. Pearson-Korrelationskoeffizienten betrugen 0,83 für PDX1 und 0,9 für PDX2, und beide P Werte lagen unter 10 -16 . Dieses Ergebnis stimmte mit unseren früheren Beobachtungen überein, dass Hochdurchsatzprofile in HNSCC-PDX-Proben ihrem elterlichen Tumorgewebe ähnlicher waren als anderen Tumorproben oder Zelllinien (6). Wir führten auch eine ChIP-Seq-Analyse an 2 HPV + HNSCC-Zelllinien (UM-SCC-047 und UPCI-SCC-090) und zwei UPPP-Proben (UPPP1 und UPPP2) durch, wobei beide UPPP-Proben aus derselben JHU-Kohorte stammten (13) . UPPP ist das einzige chirurgische Verfahren, das im oropharyngealen Bereich bei gesunden Personen durchgeführt wird und das die Entnahme von oropharyngealem Gewebe von Nicht-Krebspatienten als Kontrollen ermöglicht, im Einklang mit früheren Genomstudien von HNSCC (16-18). Außerdem wiesen die hier für die Studie ausgewählten UPPP-Proben ein ähnliches Geschlecht, Rasse, Ethnizität, Rauchen und Trinken auf wie die HPV + HNSCC-Proben, die für die ChIP-Seq-Analyse ausgewählt wurden (Ergänzungstabelle S1). Dieser Abgleich von Tumoren und Kontrollen ermöglichte den Rückschluss auf tumorspezifische Unterschiede in der Chromatinstruktur, unabhängig von gewebespezifischen Auswirkungen auf die Chromatinstruktur.

Histonmarkierungen, die in der ChIP-Seq-Analyse verwendet werden

Die Histon-Modifikationen H3K4me3, H3K9ac, H3K9me3 und H3K27ac wurden für die ChIP-Seq-Analyse ausgewählt. H3K4me3, H3K9ac und H3K27ac wurden ausgewählt, weil sie stark an der Genexpressionsregulation beteiligt waren (19). Als Negativkontrolle wurde die repressive Histonmarkierung H3K9me3 ausgewählt.

Konservierung von Proben

Die Zellen wurden bis zu einer Konfluenz von 80% gezüchtet. Jedes Immunpräzipitations-(IP)-Präparat enthielt 4 × 10 6 Zellen. Die Zellzahl wurde durch Cellometer Auto T4 (Nexcelom Bioscience) verifiziert. Lebensfähige Zellen aus der Kultur wurden direkt zu den ChIP-Experimenten gebracht. Bei der Entnahme der Gewebeproben wurde unerwünschtes Material wie Fett und nekrotisches Material aus der Probe entfernt. Das Gewebe wurde dann zur späteren Verarbeitung in flüssigem Stickstoff schockgefroren. Für eine optimale Chromatinausbeute und ChIP-Ergebnisse verwendeten wir 25 mg Gewebe für jede durchzuführende Immunpräzipitation. Gefrorenes Gewebe wurde auf Eis aufgetaut und die Masse wurde nach Gewicht bestimmt.

Protein-DNA-Vernetzung

ChIP-DNA wurde unter Verwendung des kürzlich entwickelten SimpleChIP Enzymatic Chromatin IP Kit #9005 (Cell Signaling Technology) gemäß dem Protokoll des Herstellers mit probenspezifischen Anpassungen der Mikrokokken-Nuklease- und Beschallungsschritte hergestellt. 10 × PBS pH 7,4 von Quality Biological Inc. wurde verwendet, wo immer PBS angezeigt wird.

MNase/Beschallung

Die Proben wurden sowohl durch Mikrokokken-Nuklease als auch durch Beschallung verdaut. Dieser Prozess wurde zusätzlich optimiert und von einer Gelelektrophorese gefolgt, um eine gleichmäßige Scherung der DNA über das Genom zu gewährleisten. Weitere Details finden Sie unter Ergänzende Materialien und Methoden.

Pro IP-Schritt wurden gleiche Mengen an Chromatin verwendet, wobei außergewöhnliche Leistung (XP)-mAbs für die ChIP-Anwendung (Cell Signaling Technology) validiert wurden. Kaninchen-mAbs wurden in einer speziellen Verdünnung basierend auf einer optimierten Konzentration zugesetzt, die über eine Vielzahl von kommerziellen mAbs bewertet wurde. Eine 1:50 Verdünnung für H3K4me3 (9751), H3K9ac (9649), H9K9me3 (13969) Antikörper und eine 1:100 Verdünnung für H3K27ac (8173) Antikörper wurden verwendet, um DNA-Segmente zu isolieren, die durch individuelle Histonmodifikation gebunden sind. Wir verwendeten 1:50 verdünnten Gesamt-H3- (4620)-Antikörper als Positivkontrolle und 1:250 verdünntes normales Kaninchen-IgG (2729) als Negativkontrolle. Während der Elution wurde ein 3527-5 Inkubatorschüttler (Lab-Line) verwendet. ChIP-DNA wurde gereinigt und gemäß dem ChIP-Kit-Protokoll gemessen. Der 1/50-Anteil (2%) des gleichen Chromatins für jede Probe (PDX1, PDX2, UPPP1, UPPP2, UM-SCC-047, UPCI-SCC-090) wurde für die DNA-Extraktion verwendet, wobei die Schritte der Antikörperanreicherung übersprungen wurden, und wurde weiter für qRT-PCR und Sequenzierung als Eingabekontrolle verwendet.

Quantitative Echtzeit-PCR

ChIP-DNA wurde einer qRT-PCR mit einem TaqMan 7900HT Fast Real-Time PCR System (Applied Biosystems) gemäß den Empfehlungen des Herstellers unterzogen. Wir verwendeten Johns Hopkins Laborstandard 10× PCR Buffer (20), dNTPs (Bioline), FAM (Thermo Fisher Scientific). Primer und Sonden, die in der Promotorregion von aktiv exprimierten GAPDH und RPL10 Gene und 3′-Ende des transkriptionell reprimierten ZNF333 Gen (siehe Ergänzungstabelle S2 für Details Ref. 19). Jede Probe wurde dreifach analysiert und einem Zyklus von 10 Minuten bei 95 °C und 50 Zyklen von 15 Sekunden 95 °C/60 Sekunden 60 °C unterzogen. Die relative fache Anreicherung verschiedener Histone in einzelnen Proben wurde in dreifacher Ausfertigung relativ zur 2%-Eingabeprobe unter Verwendung des 2 −ΔΔ . quantifiziert C T Methode (21).

ChIP-DNA-Ganzgenom-Sequenzierung und -Normalisierung

ChIP-DNA für einzelne Proben/Antikörper und ihre Eingangskontrollen wurden beschallt, endrepariert und an SOLiD P1- und P2-Sequenzierungsadapter ohne 5′-Phosphatgruppen ligiert, wobei das NEBNext DNA Library Prep Set für SOLiD gemäß dem vom Hersteller empfohlenen Protokoll (NEB ). Bibliotheken wurden dann mit Platinum Taq nickübersetzt. ChIP-DNA wurde am Experimental and Computational Genomics Core der Johns Hopkins University mit einer Zielsequenzierungsabdeckung von etwa 45.000.000× und Paired-End-Reads von 150 bp sequenziert. Illumina CASAVA 1.8.2 wurde verwendet, um BCL-Dateien mit Standardparametern in FASTQ-Dateien zu konvertieren (22). Bowtie 2.2.1 wurde verwendet, um Paired-End-Reads mit Standardparametern auf das menschliche hg19-Referenzgenom abzubilden, und samtools 0.1.19 wurde verwendet, um SAM-Dateien zu konvertieren, zu sortieren und zu indizieren (23). Das IGVTools-Paket mit der Zählfunktionalität wurde verwendet, um eine gekachelte Datendatei mit Standardparametern zu generieren. MACS (Modellbasierte Analyse des ChIP-Seq-Algorithmus, Version 1.4.2) nannte ChIP-Seq-Peaks für jede Markierung und jede Probe unter Verwendung der eingegebenen DNA in dieser Probe als Kontrolle (24). ChIP-Seq-Peaks wurden als signifikant bezeichnet, wenn MACS-modellierte Peaks P Werte unter einem Schwellenwert von 10 –6 liegen, und diese Peaks wurden als genomische Intervalle dargestellt. Die cis-Regulatorisches Element Annotation System (CEAS) wurde verwendet, um diese genomischen Intervalle mit Genen zu verknüpfen (25).

DiffBind-Analyse von ChIP-Seq-Daten

Um die ChIP-Seq-Peaks für verschiedene Proben und verschiedene Modifikationen zu vergleichen, haben wir das R/Bioconductor-Paket DiffBind (26) verwendet. MACS-Bettdateien für die sechs Proben und ihre H3K4me3-, H3K9ac-, H3K27ac- und H3K9me3-Histonmarkierungen wurden unter Verwendung des Codes in Supplementary File S1 als Eingabe verwendet. Wir haben DiffBind nur verwendet, um paarweise genomweite Korrelationskoeffizienten zwischen allen möglichen ChIP-Seq-Signalpaaren (24 × 24 insgesamt) zu berechnen.

Visualisierung von ChIP-Seq-Anreicherungen des gesamten Genoms über genomische Regionen

Die mit MACS-Aufrufen berechnete Faltenanreicherung wurde zur Visualisierung in deepTools (27) eingegeben. Die Heatmap-Funktionen von DeepTools wurden verwendet, um die ChIP-Seq-Faltungsanreicherung −1.5–+1.5 kb Region um die Transkriptionsstartstellen (TSS) für alle bekannten Gene zu visualisieren. Mit dem Profiler-Tool in deepTools wurden auch Durchschnittsprofile für die ChIP-Seq-Anreicherung in derselben Region von −1,5–+1,5 kb um das TSS erzeugt.

Identifizierung krankheitsspezifischer Gene, die mit ChIP-Seq-Peaks assoziiert sind

Wir suchten eine Liste von Genen mit krankheitsspezifischer Abdeckung aus den ChIP-Seq-Daten für jede Histonmarkierung. Um diese Gene zu erhalten, verglichen wir die CEAS-Ausgabegenlisten für die ChIP-Seq-Daten in jeder Probe. Insbesondere führten wir Set-Unterschiede durch, um die Listen von Genen mit ChIP-Seq-Abdeckung in 5'-UTR-Regionen zu definieren, die entweder für Tumor- oder normale Proben für jede Histonmarkierung spezifisch waren (Ergänzungstabellen S3-S6). Um die normalspezifische Genliste zu erhalten, beschränkten wir die Sets auf Gene, die von beiden UPPP-Proben geteilt wurden und sich in keiner Krebszelllinie oder PDX-Probe befanden. Um die tumorspezifischen Genlisten zu erhalten, beschränkten wir die Sets auf Gene, die von beiden Krebszelllinien oder von beiden PDXs geteilt wurden und in keiner UPPP-Probe enthalten waren. Wir erstellten zusätzliche Annotationen für die Liste der tumorspezifischen Gene sowohl in den PDXs als auch in den Zelllinien und die tumorspezifischen Gene nur in den PDXs. Diese Genlisten wurden unter Verwendung des Codes in Supplementary File S2 erstellt und für die Analyse von RNA-Seq-Daten zur Bestimmung der funktionellen Konsequenzen krankheitsspezifischer Gene verwendet.

Gensatzanalyse

Die MSigDB (28)-Funktion „Gensets untersuchen“ führte eine Pathway-Analyse der krankheitsspezifischen Gene für jede tumor- und normalspezifische H3K4me3- und H3K27ac-Histonmarkierung durch (Ergänzungstabellen S3 und S4). Die Gensatzanalyse in dieser Software wurde mit Hallmark-Gensätzen unter Verwendung eines hypergeometrischen Tests durchgeführt (Ergänzungstabellen S7–S10).

Korrelation von H3K27ac-angereicherten Genen mit anderen bekannten HPV + HNSCC-Gensets

Das R/Bioconductor-Paket GeneOverlap wurde verwendet, um das krankheitsspezifische Genset für H3K27ac zu assoziieren (29, 30). Ein einseitiger Wilcoxon-Genset-Test wurde außerdem angewendet, um die Anreicherung des krankheitsspezifischen H3K27ac-Gensets mit den kontinuierlichen Gewichten des Genklassifikators für HPV + HNSCC-Subtypen aus Lit. 29.

RNA-Seq-Normalisierung und -Analyse

Gen-Level-Zählungen aus den RNA-Seq-Daten wurden aus der RSEM V2-Pipeline für The Cancer Genome Atlas (TCGA Ref. 3) erhalten, wie in Ref. 3 beschrieben. 13. Heatmaps von RNA-Seq-Daten für krankheitsspezifische Gene (aufgelistet in den ergänzenden Tabellen S3–S6) wurden für jede Histonmarkierung erstellt. Unüberwachtes hierarchisches Clustering in Heatmaps verwendete Kendall-Tau-Unähnlichkeitsabstände. Frühere Arbeiten zeigten, dass dieser Abstand die relative Variabilität von Genexpressionsprofilen quantifiziert (14), was es ermöglicht, die Fehlregulation der Genexpression durch offene Chromatinregionen in dieser Studie zu quantifizieren.

Expressionsvariabilitätsanalyse Bioinformatik für Dysregulation von RNA-Seq in gewebespezifischen ChIP-Seq-Peaks

Wir stellten die Hypothese auf, dass Veränderungen in der Chromatinstruktur Expressionsänderungen in den Genen mit ChIP-Seq-Abdeckung in 5'-UTR-Regionen ermöglichten. Es waren jedoch noch andere regulatorische Mechanismen auf der Grundlage epigenetischer Veränderungen (z. B. Transkriptionsfaktorbindung, Kopienzahlamplifikationen usw.) erforderlich, um die Genexpression zu verändern. Folglich wären die Expressionsänderungen in Genen mit tumorspezifischer ChIP-Seq-Bedeckung bei 5′ UTR variabler als Expressionsänderungen in Genen mit normal-spezifischer ChIP-Seq-Bedeckung. In Übereinstimmung mit dieser Hypothese verwendeten wir den EVA-Gensatz-Dysregulationsalgorithmus, um das relative Unähnlichkeitsmaß (z. Wir haben den EVA-Algorithmus im R/Bioconductor-Paket GSReg auf die RNA-Seq-Daten für die durch die krankheitsspezifischen Chromatin-Modifikationen definierten Gensets angewendet (Supplementary File S2).

HPV-Integrationserkennung durch MapSplice

Die Detektion erfolgte mit MapSplice (31), das mit der Option zur Identifizierung von Fusionen auf den RNA-Seq-Daten ausgeführt wurde. Die Referenz für die zu kartierenden Reads war eine Chimäre, die aus einem gemeinsamen Human- und HPV16-Genom hergestellt wurde. Auf diese Weise war eine virale Integrationsstelle als Fusion eines menschlichen Chromosoms und eines HPV-Genoms sichtbar. Wir betrachteten das virale Genom als integriert, wenn es mindestens drei diskordante Paare (bei denen ein Ende des Paired-End-Reads dem viralen Genom zugeordnet ist und sein Partnerpaar dem menschlichen Genom zugeordnet ist) und ein Split-Read (bei dem ein Ende von das gepaarte Ende-Read überspannte die Mensch-Virus-Verbindung und sein Partnerpaar wurde entweder auf das Human- oder das HPV-Genom kartiert). Diese insgesamt sieben Reads unterstützen laut unserer jüngsten Analyse die Integration am selben Locus (32). Weitere Details finden Sie unter Ergänzende Materialien und Methoden.

Identifizierung von Transkriptionsverstärkern

MACS-Peaks für H3K27ac wurden weiter in die Analysesoftware Ranking Of Super Enhancers (ROSE) (33) eingegeben, um Enhancer-Aufrufe für jede Probe durchzuführen. Wir haben diesen Algorithmus angewendet, um H3K27ac-Peaks von MACS zusammenzuführen und die resultierenden zusammengeführten Peaks als Enhancer einzustufen.


Materialen und Methoden

Zellkultur- und Zellzyklussynchronisation

U2OS-Zellen wurden in DMEM (Gibco) und 10 % FBS kultiviert. RPE1-Zellen wurden in DMEM-F12 (Gibco) und 10 % FBS kultiviert. Die Zellen wurden bei 37 °C und 5 % CO . inkubiert2. Die Zellen wurden unter Verwendung von Thymidin- und Nocodazol-Behandlungen synchronisiert. Die mitotischen Zellen wurden durch mitotisches Abschütteln gesammelt. A-485 (10 μM Tocris) wurde verwendet, um die H3K27ac-Spiegel zu hemmen. Eine detaillierte Beschreibung finden Sie im Zusatzmaterial.

Immunfluoreszenz

Die Zellen wurden auf Deckgläsern aus Glas gezüchtet und mit 4% Paraformaldehyd in PBS für 5 Minuten bei Raumtemperatur fixiert. Fixierte Zellen wurden mit kaltem PBS, das 0,5% Triton X-100 enthielt, 5 min lang permeabilisiert. Die Zellen wurden mit 1% BSA in PBS 1 h bei Raumtemperatur blockiert und in primärem Antikörper in Blockierungspuffer über Nacht bei 4°C inkubiert, gefolgt von sekundärem Antikörper für 1 h bei Raumtemperatur. Die Zellen wurden dann kurz mit 1 &mgr;g/ml Hoechst 33342 (Molecular Probes H-1399) in PBS gefärbt und in VectaShield (Vector Laboratories) montiert. Bilder wurden in einem konfokalen Mikroskop Zeiss LSM710 aufgenommen. Die Bilder wurden analysiert und für die Präsentation in Photoshop vorbereitet.

Isolierung von Kern- und Zytoplasmafraktionen

Die Zellen wurden in hypotonischem Puffer (5 mM Pipes bei pH 8, 85 mM KCl, 0,5% NP-40, Protease-Inhibitor) für 10 min auf Eis resuspendiert, gefolgt von Zentrifugation bei 500g 10 Minuten bei 4°C. Der die zytoplasmatische Fraktion enthaltende Überstand wurde überführt und aufbewahrt. Das Pellet wurde in Lysepuffer (50 mM Hepes bei pH 7,9, 5 mM MgCl&sub2;2, 0,2% Triton X-100, 20% Glycerin, 300 mM NaCl, Proteaseinhibitor) für 30 min auf Eis, gefolgt von Zentrifugation bei 12.000g 20 Minuten bei 4°C. Der Überstand wurde als Kernfraktion gesammelt.

Histonisolierung und Western Blotting

Für die Histonextraktion wird das Protokoll aus früheren Arbeiten übernommen (Shechter et al. 2007). Kurz gesagt, nach der Kernisolierung wurden lösliche Histone mit 0,2 M HCl extrahiert, gefolgt von einer TCA/Aceton-Präzipitation. Für die Western-Blot-Analyse wurden Proteinproben in SDS-PAGE-Gelen aufgelöst und auf PVDF-Membranen (Millipore) übertragen. Membranen wurden mit 5% Milch in TBST (0,25% Tween 20, 20 mM Tris bei pH 8,0, 137 mM NaCl) blockiert und mit primärem Antikörper über Nacht bei 4°C inkubiert. Nach drei 5-minütigen Waschungen in TBST wurde HRP-konjugierter sekundärer Antikörper für 1 Stunde bei Raumtemperatur zugegeben. Membranen wurden durch SuperSignal West Pico- oder Femto-Reagens (Thermo Fisher Scientific) sichtbar gemacht.

Antikörper

Die folgenden Antikörper wurden von den angegebenen kommerziellen Quellen bezogen: Anti-H3K4me3 (Abcam ab8580), Anti-H3K4me1 (Abcam ab8895), Anti-H3K27ac (Abcam ab4729), Anti-CTCF (Active Motif 61311), Anti-Spike-in ( Aktives Motiv 61686), Anti-α-Tubulin (Sigma T5168), Anti-Histone H3 (Zellsignalisierung 4499) und Anti-H3S10p (Zellsignalisierung 3377).

ChIP-seq

Zellen (5 × 10 6 ) wurden mit 1% Formaldehyd für 10 min vernetzt und ChIP-seq wurde wie zuvor beschrieben durchgeführt (Toyama et al. 2019). Das Spike-in wurde nach Herstellerprotokollen (Active Motif) durchgeführt. Kurz gesagt, 50 ng Spike-in-Chromatin (Active Motif 53083) wurden zu 25 µg U2OS- oder RPE1-Chromatin gegeben, um mit 2 µg Spike-in-Antikörper zusammen mit 5 µg Anti-H3K4me3, Anti-H3K4me1, Anti-H3K27ac . zu inkubieren oder Anti-CTCF-Antikörper. DNA-Bibliotheken wurden unter Verwendung des Kapa Hyper-Präparationskits für Illumina-Plattformen (Kapa Biosystems) erzeugt. Bibliotheken wurden in einem NextSeq 500-System (Illumina) sequenziert. Detaillierte Informationen zur Datenanalyse, einschließlich Ausrichtung, Normalisierung, Peak-Calling, cis-Res-Identifikation, Motivanalyse und Pearson-Korrelationskoeffizienten-Test.

Spike-in-Kontrollsequenzen und EU-RNA-seq

Biotinylierte Spike-in-Kontrollen und Proben für EU-RNA-seq wurden wie zuvor beschrieben hergestellt (Palozola et al. 2017). Kurz gesagt wurden U2OS-Zellen mit 0,5 mM EU für 35 Minuten bei 37 °C pulsmarkiert. Gesamt-RNA wurde mit Trizol (Ambion) geerntet und mit miRNeasy (Qiagen) gereinigt. Eine Click-Reaktion wurde durchgeführt, um Biotin an die EU-markierte RNA zu konjugieren, wobei das Click-iT-Kit zum Einfangen von naszierender RNA (Invitrogen) verwendet wurde. Zwei biotinylierte Spike-in-Kontroll-RNAs wurden zu 1,5 &mgr;g jeder biotinylierten Probe (0,36 ng der Kontrolle Nr. 1 und 0,036 ng der Kontrolle Nr. 2) zugegeben. Biotin-EU-RNAs, einschließlich Spike-in-Kontrollen, wurden mit Streptavidin-beschichteten Magnetkügelchen nach unten gezogen. Zur Validierung von Biotin-RNA-Spike-in-Kontrollen wurde cDNA mit dem SuperScript VILO cDNA-Synthesekit (Invitrogen) erzeugt, gefolgt von qPCR. Zur Sequenzierung wurden cDNA-Bibliotheken unter Verwendung des humanen FFPE RNA-seq-Multiplexsystems von Ovation erzeugt. Multiplexed Pair-End-Sequenzierung wurde auf einem NextSeq 500-Instrument (Illumina) durchgeführt. Ausführliche Informationen zur Datenanalyse, einschließlich Alignment, Normalisierung, Identifizierung der Hierarchie der Genexpression und GO-Anreicherungsanalyse, finden Sie im Zusatzmaterial.

Hi-C wurde mit der in situ Methode durchgeführt, wie zuvor beschrieben (Rao et al. 2014). Kurz gesagt wurden U2OS-Zellen (2 × 10 6 ) mit Formaldehyd vernetzt. Chromatin wurde mit einem Restriktionsenzym MboI (NEB) verdaut, mit Biotin-ATP (Life Technologies) biotinyliert und dann mit T4-DNA-Ligase (NEB) ligiert. DNA wurde gereinigt und mit einem Covaris LE220-Instrument (Covaris) geschert. Biotinylierte DNA-Wechselwirkungen wurden mit Dynabeads MyOne Streptavin T1 Beads (Life Technologies) heruntergezogen und in einem NovaSeq 6000-Sequenziersystem (Illumina) sequenziert. Detaillierte Informationen zur Datenanalyse finden Sie im Zusatzmaterial.

Zugangsnummern

Die Gene Expression Omnibus-Zugangsnummer für die ChIP-seq-, EU-RNA-seq- und Hi-C-Daten, die in dieser Studie berichtet wurden, lautet GSE141139.


Abstrakt

Eine überzeugende Literatur, die auf der Chromatin-Immunpräzipitation der nächsten Generation und der RNA-Sequenzierung von Belohnungshirnregionen basiert, zeigt, dass die Regulierung der epigenetischen Landschaft wahrscheinlich chronischem Drogenmissbrauch und -sucht zugrunde liegt. Es ist jetzt entscheidend, hochinnovative Computerstrategien zu entwickeln, um die relevanten regulatorischen Transkriptionsmechanismen aufzudecken, die neuropsychiatrischen Erkrankungen zugrunde liegen können. Wir haben die Chromatin-Regulierung des alternativen Spleißens analysiert, die an der Kokain-Exposition bei Mäusen beteiligt ist. In der neueren Literatur wurde chromatinreguliertes alternatives Spleißen beschrieben, was auf eine neue Funktion des arzneimittelinduzierten neuroepigenetischen Remodelings hindeutet. Das Ausmaß der genomweiten Assoziation zwischen bestimmten Histonmodifikationen und alternativem Spleißen bleibt jedoch unerforscht. Um dies anzugehen, haben wir neue Computeransätze entwickelt, um den Zusammenhang zwischen alternativem Spleißen und posttranslationalen Histonmodifikationen im Nucleus accumbens (NAc), einer Belohnungsregion des Gehirns, zu modellieren. Mit klassischen statistischen Methoden und maschinellem Lernen zur Kombination von ChIP-Seq- und RNA-Seq-Daten haben wir festgestellt, dass spezifische Histonmodifikationen stark mit verschiedenen Aspekten des differentiellen Spleißens verbunden sind. H3K36me3 und H3K4me1 haben die stärkste Assoziation mit dem Spleißen, was darauf hindeutet, dass sie eine bedeutende Rolle beim alternativen Spleißen im Belohnungsgewebe des Gehirns spielen.


Methoden

Pflanzenmaterialien

ChIP-seq-Experimente wurden an E. grandis Klon TAG0014 (Mondi Tree Improvement Research, KwaMbonambi, Südafrika). Im September 2012 (frühes Frühjahr) wurden Proben von DSX-Schaben von sieben Jahre alten Ramets entnommen, die in einem Klonversuch in KwaMbonambi, Provinz KwaZulu-Natal, Südafrika, gewachsen waren. Die Rinde wurde auf Brusthöhe abgezogen, um das DSX-Gewebe von zwei Individuen, V5 und V11, freizulegen. 1–2 mm wurden mit einem Rasiermesser leicht und gleichmäßig abgeschabt, überschüssiger Saft vorsichtig abgequetscht und sofort in flüssigem Stickstoff schockgefroren. Die Proben wurden bis zur Verwendung bei –80°C gelagert.

Chromatinfixierung, Isolierung und Beschallung

Die Kerne wurden wie von Kaufmann beschrieben gereinigt et al. [44], mit Modifikationen. Gefrorenes DSX-Gewebe wurde unter Verwendung einer einfachen analytischen Mühle Modell A 11 (IKA, Deutschland) gemahlen, gefolgt von einer Feinmahlung in flüssigem Stickstoff unter Verwendung eines Mörsers und Pistills. Alle fünf Gramm gefrorenes, gemahlenes DSX-Gewebe wurden in 25 ml M1-Puffer, ergänzt mit 1% Formaldehyd, 1 mM EDTA und 1 mM Phenylmethansulfonylfluorid (PMSF) auf Eis für 30 Minuten fixiert. Die Fixierung wurde mit 1/10 Volumen 1,25 M Glycin für 5 min auf Eis gequencht, gefolgt von der Zugabe von M1-Puffer ohne Formaldehyd zu 50 ml. Die Suspension wurde durch ein mit M1-Puffer benetztes 60 &mgr;m-Nylonnetz filtriert, wobei der Filter mindestens einmal pro 50 ml Suspension gewechselt wurde, und erneut durch ein doppeltes 60 &mgr;m-Nylonnetz. Nach Zentrifugation bei 1.000 × g für 20 min (4 °C) wurde das Pellet in 25 ml eiskaltem M2-Puffer mit 1 mM PMSF und komplettem Protease-Inhibitor-Cocktail (CPIC Roche) resuspendiert, bei 1.000 × zentrifugiert g für 10 min bei 4°C und resuspendiert in 25 ml eiskaltem M3-Puffer, ergänzt mit 1 mM PMSF und CPIC. Nach ähnlicher Zentrifugation für 10 Minuten wurde das Kernpellet in resuspendiert

1,5 ml Schallpuffer mit 1 mM PMSF und CPIC. Die Beschallung erfolgte mit 250 &mgr;l rohem Chromatin pro 1,5 ml Röhrchen auf Eis unter Verwendung eines Branson Sonifier 450 Sondenbeschallers mit 20 Pulsen von 10 s Dauer bei Einstellung 1 und >30 s Ruhe auf Eis zwischen den Pulsen. Proben wurden alle zehn Zyklen gemischt. Nach der Beschallung wurden die Proben zweimal bei 16.000 × zentrifugiert g (10 min, 4 °C) und bei –80 °C gelagert.

Mikrokokken-Nuklease (S7)-Assay

Gefrorenes DSX-Gewebe (2 g) wurde in flüssigem Stickstoff zu feinem Pulver gemahlen. Kerne wurden wie oben beschrieben isoliert, unter Ausschluss der Formaldehyd-Vernetzung und der Zugabe von Schallpuffer. Das rohe Kernpellet wurde in 350 µl Zellkernverdauungspuffer [66] mit 400 µg RNase A resuspendiert. Die Proben wurden gleichmäßig in vier Röhrchen aufgeteilt und mit 0, 5, 10 oder 20 U Nuclease S7 (Roche) bei 37 °C für inkubiert 15 Minuten. Die Hydrolyse wurde mit 5 mM EDTA beendet. Kerne wurden mit 0,5% SDS lysiert und zentrifugiert (20.000 × g, 5 Min.) zum Löschen. Lösliche DNA wurde unter Verwendung des Nucleospin-PCR-Reinigungskits (Macherey-Nagel, Düren, Deutschland) gereinigt.

Proteinextraktion und Western-Blot-Analyse

Die Kerne wurden nach der Methode von Kaufmann . gereinigt et al. [44], mit Modifikationen. DSX wurde in flüssigem Stickstoff gemahlen und in M1-Puffer, der 1 mM PMSF und 1 mM EDTA mit 5 ml pro Gramm Gewebe enthielt, für 30 Minuten suspendiert. Die Suspension wurde zweimal durch ein 60-μm-Nylonnetz filtriert und bei 1000 × pelletiert g (20 Minuten, 4°C). Das Pellet wurde in 5 ml M2-Puffer, ergänzt mit 1 mM PSMF und CPIC, resuspendiert, erneut pelletiert (1000 × g, 10 min, 4°C) and resuspended in 250 ul M3 buffer containing 1.7 M sucrose and CPIC. The suspension was overlaid on 1.5 ml 1.7 M sucrose in M3 buffer and centrifuged for 40 min at 16,000 × g (4°C). The pellet was resuspended in 1 ml M3 to wash, re-pelleted (12,000 × g, 5 min, 4°C) and the remaining pellet resuspended in 1 pellet volume of extraction buffer (10 mM sodium phosphate buffer pH 7.0, 150 mM NaCl, 0.1 mM EDTA, 5% glycerol, 10 mM β-mercaptoethanol, 0.1 mM PMSF, CPIC). The pellet was briefly sonicated with a Branson 450 sonicator (30s, 10% power output) and gently vortexed for 30 min at 4°C. Soluble protein in the supernatant from two rounds of centrifugation (16 000 × g, 10 min, 4°C) was quantified using the Qubit Protein Assay Kit (Invitrogen), subjected to denaturing electrophoresis on a 12% SDS-PAGE gel and transferred to a nitrocellulose membrane using the semidry method. Blots were blocked with 5% nonfat milk, probed with 1:2000 dilution of anti-H3K4me3 antibody (Millipore #07-473) overnight (4°C) and incubated with horseradish peroxidase-conjugated goat anti-rabbit secondary antibody (Cappel Laboratories Inc., PA). Blots were treated with SuperSignal West Pico Chemiluminescent substrate (Thermo Scientific, Rockford, IL) and developed with CL-XPosure film (Thermo Scientific).

Chromatin immunoprecipitation, DNA amplification and sequencing

A minimum of 3 μg E. grandis DSX chromatin was incubated with 1 μg anti-H3K4me3 antibody (Millipore #07-473), or 1 μg naïve mouse IgG2a (sc-3878, Santa Cruz Biotechnology, CA) as negative control, overnight at 4°C. Chromatin immunoprecipitation was performed as described by Adli & Bernstein [45] using 40 μl protein A-agarose beads, 25% slurry (sc-2001, Santa Cruz Biotechnology, CA). After crosslink reversal and DNA purification, the ChIP DNA was quantified with the Qubit HS dsDNA kit (Invitrogen). A minimum of 1 ng ChIP or input DNA was amplified according to the protocol of Adli & Bernstein [45], with modifications. We replaced the use of Sequenase v.2.0 DNA polymerase (Affymetrix, CA) with Bsu DNA polymerase, large fragment (NEB, MA), and substituted the corresponding Sequenase reaction buffer with NEB Buffer 2. We used 2 U of Bsu DNA polymerase per pre-amplification cycle, extended the pre-amplification extension time to 20 min and used 32 pmol P1 primer. Both the pre-amplification and PCR reactions were supplemented with 50 ng/μl tRNA. We applied a generic ExoSAP cocktail by adding 0.5 U rAPID alkaline phosphatase (Roche Applied Science, Ltd) and 5 U E coli Exonuclease I (NEB), incubating at 37°C for 30 min and heat-inactivating the enzymes at 80°C for 20 min. For the Phusion PCR reactions we used 4 ul 10 mM dNTPs and 0.5 ul Phusion DNA polymerase per 50 ul reaction. PCR extension time was reduced to 5 s. Amplified DNA was digested with BciVI to yield 3’ adenosine overhangs 20 ng template was ligated to Illumina primers for library preparation and DNA sequencing (Beijing Genome Institute, Hong Kong), generating 50 nt paired-end sequences.


ChIP-seq for histone modification not in agreement with RNA-seq for expression - Biology

Excuse me? A few days ago I read a paper "Histone modification levels are predictive for gene expression" (PNAS (2010), 107, 2926-2931). It proposed a linear model predicting gene expression levels from the combination of different histone modifications, such as H3K4me3, H3K27me3, etc. The predictor variables were of the form log(Nj+aj), where Nj representing the number of tags of modification j in each promoter region (4001bp surrounding TSS), and aj was a pseudocount to make the logarithm be defined when Nj was zero. The authors didn't refered to normalize Nj. But when I read another paper titled "Computational inference of mRNA stability from histone modification and transcriptome profiles" (Nucleic Acids Res (2012), 40(14):6414-23), which also involving a linear model, the authors used the normalized read coverage of histone modification as the predictor variable. These authors said "the read coverage of each histone modification in the 15 regions (read count per bp) was calculated and normalized according to the sequencing library size". The former paper didn't say normalization, but the latter one said to normalize. I'm wondering why there is such a difference and in what condition, a normalization should be performed.

Hope some one to give some help. Thank you so much!

My 2c: I mostly rely on edgeR which takes raw counts over regions of interest and uses normalisation factors as an offset in the model instead of adjusting the counts directly. Competing popular methods use the library size to adjust fragment counts, so the 'right' answer depends on the specific model and biological question.

If you want advice from more reputable statisticians working on these interesting and important issues, they are more likely found on (eg) the Bioconductor list or perhaps seqanswers than this Galaxy forum - so if you don't get a good answer here, perhaps try there.


Diskussion

We have shown that the levels of histone modifications at a promoter proximal region are well correlated to the expression of genes. Other studies classified the promoters for each modification into groups (17, 26), e.g., modification X is present or absent. Discretization ought to have two beneficial effects, namely the reduction of noise and parameters. Although discretization is necessary in some modeling approaches to reduce the number of parameters, e.g., learning a Bayesian network (26), in our approach, it increases the number of parameters, because one has to choose at least one threshold for each modification in addition to the slopes in the linear regression model. If discretization is indeed beneficial for modeling gene expression, we expect that the results of a discrete model should be better than a corresponding continuous model. Thus, we compared full models incorporating either the levels directly (continuous model) or a binary classification of them (discrete model). Although the correlation is not significantly different (Fig. 2EIN and Fig. S5EIN), the mean squared error (MSE) increased from 1.54 for the continuous model to 1.71 for the discrete model. The same is true for the best three-modification continuous and discrete models. Here, the discrete model is only able to reproduce the general trend in expression values and thus has a higher MSE (MSE = 1.84 Fig. S5B) than the continuous model (MSE = 1.68, which is even lower than the MSE for the full discrete model Fig. S5C). We conclude that discretization has no beneficial effect on the prediction accuracy and argue that in our modeling framework discretization is not necessary and is even reducing the predictive power at the cost of increasing the number of parameters.

We demonstrated that only a few histone modifications are necessary to faithfully model gene expression. This finding can be understood if one assumes that the histone modifications belong to different groups, whose members are either involved in transcription or not. The modifications within the transcription-related groups provide almost the same information and our approach selects one representative modification. Alternatively, the selected histone modifications are involved in distinct steps during the transcription cycle. For example, they could recruit activities that are required to enable RNA pol II to progress from an initiating to an elongating state. In the light of the “Histone Code Hypothesis,” the latter idea is very attractive, but we would have much more confidence in supporting this idea if we were able to reproduce our results using an equally rich dataset in a preferentially independent cell type, which to our knowledge is currently not available.

We used three sets of promoters, namely all, LCPs, and HCPs to identify “important” modifications. Upon analyzing all promoters, we found that H2BK5ac, H3K27ac, H3K79me1, and H4K20me1 are overrepresented in models giving rise to the highest prediction accuracy in CD4+ T-cells. A recent study identified a common set of 17 modifications (mainly acetylations), referred to as the backbone. These modifications colocalize and their levels are well correlated (17). Genes with all of these backbone modifications present tend to be expressed, suggesting that either all or a subset of them are involved in transcription. Our analysis revealed only two of these modifications, H3K27ac and H2BK5ac, are important for modeling gene expression. This indicates that the remaining backbone modifications carry either redundant information or are less important for gene expression. Furthermore, the other two important modifications, H3K79me1 and H4K20me1, have been shown to be enriched in highly expressed genes, along with the modification backbone (17). This observation is in line with the idea that H3K79me1 and H4K20me1 are also involved in transcription. Thus, we conclude that our approach identified histone modifications which are likely to be key players in the transcriptional process.

We identified different sets of modifications important for modeling gene expression driven by LCPs or HCPs. In LCPs, we found that H3K4me3 and H3K79me1, while in HCPs H3K27ac and H4K20me1, were identified. These assignments can be reproduced using RNA-seq (27) instead of the microarray data, suggesting that a possible measurement bias due to the microarray technology is not a major factor. The prediction accuracy for modeling RNA-seq derived expression values is even higher (R = 0.81 Fig. S6EIN) than the one using microarray expression data (R = 0.77). The results of the overrepresentation analysis for all, HCPs, and LCPs are comparable between the RNA-seq and microarray-derived expression values. The only difference was that only H4K20me1, H3K27ac, and H2BK5ac, but not H3K79me1, are identified as being overrepresented in best scoring linear models for all promoters. However, when analyzing best scoring models for LCPs, H3K79me1 clearly comes up as overrepresented (Fig. S6BD).

The reason for the difference in the important histone modifications in LCPs and HCPs is unclear, but indicates that different regulatory mechanisms act on these two promoter types. A possible clue for the function of the selected modifications is provided by the localization analysis (Fig. 3C). H3K4me3, H3K27ac, and H2BK5ac have the highest levels at the promoter, with the highest peak around 100 base pairs downstream of the TSS. H3K79me1 is enriched along the gene body, and H4K20me1 shows two distinct patterns: a peak close to the promoter at a similar position to H3K4me3 and H3K27ac, and an enrichment across the gene body region. The localization of these histone modifications suggests that H3K27ac, H2BK5ac, H3K4me3, and H4K20me1 function during transcription initiation and/or promoter clearance, whereas H3K79me1 and H4K20me1 are involved in transcription elongation.

Although for H3K4me3 a function during transcription initiation has been proposed (e.g., ref. 14 and references therein), a similar function has not been established for H3K27ac. A possible action of H3K27ac might be to prevent the repressive trimethylation of the same residue, because H3K27ac and H3K27me3 are mutually exclusive. Alternatively, H3K27ac itself could be recognized by a protein complex required for transcription. H3K79me1 is almost absent at the TSS and its levels increase in the gene body, indicating that it is involved in transcription elongation, in line with previous observations (28, 29). The functions of H2BK5ac and H4K20me1 in general, and in particular during transcription, are not well understood.

Because we showed that histone modification levels are predictive of the gene expression levels in CD4+ T-cells, we further investigated whether this is a universal property which holds true for other cell types. We were able to successfully predict expression of genes in CD36+ and CD133+ cells, using histone modification data measured in these cells and model parameters trained on CD4+ data. Significantly, the prediction accuracy does not depend strongly on the level of change in expression in different cell types. Thus, our results establish the idea that the relationships between histone modification and gene expression are general. Furthermore, they underscore that the histone modifications and the transcriptional process are tightly connected to each other. We want to emphasize that our analysis as well as the data do not allow for deciding whether the histone modifications are cause or consequence of transcription, because the uncovered relationships are correlative in nature and therefore inherently undirected. However, our results imply that the histone modifications are very close to RNA pol II in the regulatory network controlling its activity. Whether they are upstream and/or downstream has to be elucidated in further experimental studies.

In summary, we have shown that the relationships between histone modification and transcription are well reproducible across different cell types. Furthermore, we singled out a small number of modifications, which together can account for a large portion of the expression variance. Whether these modifications play a crucial role during transcription, or whether they are representatives for groups of equally important modifications has to be clarified by further experimental studies. Regardless of which scenario turns out to be true, we can pinpoint a small number of modifications whose levels at the promoter can be used to infer gene expression and hence provide some information about the transcriptional process, which reduces the experimental effort to study the relationship between histone modifications and transcription.


Zusätzliche Informationen

S1 Fig. Distribution of H3K27me3, H3K27ac, and H3K36me3 in m. oryzae Guy11.

(A) and (B) Violin plots illustrating genome-wide distribution of domains (A) and ChIP signals (B) of H3K27me3, H3K27ac, and H3K36me3 in Guy11 wide type growing under in vitro complete medium. Letters above the violin plots indicates the significance.

S2 Fig. Distribution of histone modifications at H3K27 across diverse types of transposable elements in m. oryzae.

(A) and (B) ChIP signals of H3K27me3 and H3K27ac from MACS2 peak calling across transposable elements (TE) families (A) and subfamilies (B). ChIP-Seq data were collected from m. oryzae Guy11 wild type growing under in vitro complete medium. The number of TEs for each group is shown above each violin plot. Letters above the violin plots indicate the significant difference among groups based on ANOVA and Tukey’s HSD test.

S3 Fig. Phylogenetic and homology matrix analysis of PRC2 core components in different organisms.

(A) Neighbor-joint tree of selected PRC2 core components generated by MEGA X with 1000 bootstrap replications. The protein domains are predicated by SMART and visualized by TBtools. The sequences used for analysis included MoKmt6 (MGG_00152), MoSuz12 (MGG_03169) and MoEed (MGG_06028) from m. oryzae FgKmt6 (FGSG_15795), FgSuz12 (FGSG_04321), and FgEed (FGSG_15909) from F. graminearum FfKmt6 (FFUJ_00719), FfSuz12 (FFUJ_09784) and FfEed (FFUJ_12272) from F. fujikuroi NcSet7 (NCU07496), NcSuz12 (NCU05460), and NcEed (NCU05300) from n. crassa Ezh2 (NP_001190176.1), Ezh1 (NP_001308008.1), Suz12 (NP_056170.2) and Eed (AAC23685) from h. sapiens E(z) (NP_001137932.1), Su(z)12 (NP_730465.1), and Esc (NP_477431.1) from D. melanogaster. (B) Homology matrix analysis of m. oryzae PRC2 core components with PRC2 homologs in different organisms as described above. Numbers indicate protein coverage and identity.

S4 Fig. Homologous recombination strategy was used for generating deletion mutants.

(A) Homologous recombination was used for gene knockout. ±1 kb gene flanking region (black lines) was amplified for targeting gene of interest. The gene coding region was replaced with hygromycin resistant cassette (HPH) for single knockout or geneticin resistant cassette (G418) for double knockout. Inside primer pair (blue arrow) was used for testing the presence/absence of gene of interest in transformants. Outside primer pair (yellow arrow) was used for testing whether there is correct resistant cassette integration in transformants. Green lines indicate upstream and downstream sequences of interested gene and red lines indicate upstream and downstream sequences of the resistant cassette. (B) ΔMokmt6, ΔMoeed, und ΔMosuz12 were confirmed by PCR amplifications with inside and outside primers.

S5 Fig. The complemented strains were screened by PCR.

The complementation for ΔMokmt6, ΔMosuz12 und Δmoeed was screened by inside and outside primers. Amplifications with inside primers suggested the success in re-introducing the original gene back to the deletion mutants.

S6 Fig. Loss of H3K27me3 leads to dynamics of H3K27ac and H3K36me3 at whole genome level.

Heatmap illustrating pairwise Pearson correlation coefficiency of ChIP signals of H3K27me3, H3K27ac, H3K36me3 between Guy11 wild type (WT) and mutant ΔMokmt6 lacking H3K27me3.

S7 Fig. Loss of H3K27me3 leads to re-distribution of H3K27ac and H3K36me3.

Heat maps visualizing profiles of ChIP signals for H3K27me3, H3K27ac and H3K36me3 across transposable elements (TEs) in Guy11 wild type (WT) and mutant ΔMokmt6. Two clusters of TEs are generated by unsupervised k-means analysis and ranked according to their H3K27me3 enrichment from wild type grown in vitro complete medium.

S8 Fig. The majority of downregulated genes in ΔMokmt6 are not marked by H3K27me3.

Venn diagram showing the overlap of genes downregulated in ΔMokmt6 and marked by H3K27me3 in Guy11 wild type.

S9 Fig. Expression profiles in wild type and ΔMokmt6 for genes that gained and lost H3K27ac in ΔMokmt6.

(A) Violin plot and (B) scatter plot showing gene expression profiles during in vitro complete medium (CM) growth in wild type and ΔMokmt6 for 218 expressed genes that gained H3K27ac in ΔMokmt6. (C) Violin plot and (D) scatter plot showing gene expression profiles during in vitro complete medium (CM) growth in wild type and ΔMokmt6 for 794 expressed genes that lost H3K27ac in ΔMokmt6. Letters above the violin plots indicate the significant difference among groups based on ANOVA and Tukey’s HSD test.

S10 Fig. Expression profiles in wild type and ΔMokmt6 for genes that lost H3K36me3 in ΔMokmt6 Mutant.

(A) Violin plots and (B) scatter plot showing the expression profiles during in vitro complete medium (CM) growth in wild type and ΔMokmt6 for 321 expressed genes that lost H3K36me3 in ΔMokmt6. Letters above the violin plots indicate the significant difference among groups based on ANOVA and Tukey’s HSD test.

S11 Fig. Comparison of gene expression profiles under a combination of genotypes and growth conditions.

(A) Venn diagram showing the number and overlap of genes that only gained H3K27ac, only lost H3K36me3 or had both changes occur in the ΔMokmt6 mutant compared to wild type under in vitro complete medium (CM) growth. (B) Violin plots for the RNA-seq expression of wild type (WT_CM) and ΔMokmt6 (ΔMokmt6_CM) during in vitro complete medium (CM) growth for the gene sets from (A). Letters above the violin plots indicate the significant difference among groups based on ANOVA and Tukey’s HSD test.

S12 Fig. MoGcn5 is involved in mediating majority of H3K27ac in m. oryzae.

(EIN) ΔMogcn5 und ΔMokmt6ΔMogcn5 were confirmed by PCR amplification with inside and outside primers. (B) The anti-H3K27ac was used for detecting the global level of H3K27ac in the samples and anti-H3 was used as loading control. Signal intensities were measured by ImageJ.

S13 Fig. The double mutant ΔMokmt6ΔMogcn5 has abnormal growth and conidia morphology.

(A) Colony morphology of wild type and ΔMokmt6ΔMogcn5 on complete medium agar (CM) at 12 days. (B) Colony diameters measured at 12 days. The growth rates were determined to be significantly different (**, P <0.01) between wild type and ΔMokmt6ΔMogcn5 compared using student’s t-test. (C) Representative conidial morphology of wild type (WT), ΔMokmt6, ΔMogcn5, und ΔMokmt6ΔMogcn5 collected after growth on rice polish agar. Bar = 20 μm.

S14 Fig. Single mutants ΔMokmt6, ΔMogcn5 caused reduced symptoms on rice, while ΔMokmt6ΔMogcn5 fails to cause disease.

(A) Representative blast lesions of rice leaves sprayed with wild type (WT), ΔMokmt6, ΔMogcn5, ΔMokmt6ΔMogcn5 and 0.25% gelatin (control). The photos were taken at 7 days post inoculation and show typical blast lesions during a compatible interaction. (B) Bar plots showing quantitative analysis of 14 independent infected rice leaves (n = 14) from two biological experiments, classified as described in [68]. The disease severity rating for each treatment was compared to the wild type infection and student’s t-test was used to determine statistically significant differences. **, P <0.01 *, P <0.05.

S15 Fig. Distinct gene expression pattern of effectors in H3K27me3-dependent and -independent manners.

Expression of effector gene SLP1 (A), MoCDIP5 (B), BAS1 (C), and MC69 (D). RNA-seq data are collected from wild type (WT) m. oryzae strain Guy11 growing under in vitro complete medium (CM) and in planta, and two mutants ΔMokmt6 und ΔMokmt6ΔMogcn5 growing in CM. The mutant ΔMokmt6 lacks H3K27me3 and the double mutant ΔMokmt6ΔMogcn5 lacks H3K27me3 and majority of H3K27ac. Letters above the violin plots indicate the significant difference among groups based on ANOVA and Tukey’s HSD test.

S16 Fig. Reproducibility of ChIP-seq data across biological replicates by pair-wise Pearson correction analysis.

ChIP-seq experiment were conducted on m. oryzae Guy11 wild type (WT) and the mutant ΔMokmt6 with absence of H3K27me3 growing in complete medium (CM). R represents biological replicates.

S17 Fig. Principal component analysis on RNA-Seq dataset.

RNA-Seq experiment was conducted on RNAs extracted from m. oryzae Guy11 wild type (WT) growing under in vitro complete medium (CM) and in planta, and two mutants ΔMokmt6 und ΔMokmt6ΔMogcn5 growing in complete medium. The mutant ΔMokmt6 lacks H3K27me3 and the double mutant ΔMokmt6ΔMogcn5 lacks H3K27me3 and majority of H3K27ac.