Fachkompetenzen zur Datenanalyse am WZW

Mit Hilfe von Next Generation Sequencing können in kürzester Zeit gewaltige Datenmengen produziert werden. Deren Verwaltung und Analyse stellt eine echte Herausforderung dar. Im Folgenden finden Sie eine Übersicht, mit welchen dafür geeigneten Plattformen bereits am WZW gearbeitet wird. Die Kollegen stehen gerne mit Rat zur Verfügung.

De novo Rekonstruktion mikrobieller Genome

(Lehrstuhl für Mikrobielle Ökologie, Prof. Siegfried Scherer)

Für die Datenprozessierung und -analyse werden bereits publizierte und quelloffene Bioinformatikprogramme verwendet. Ausgehend vom Sequenzrohdatensatz findet zunächst eine Qualitätskontrolle statt. Diese gewährleistet die Übernahme nur derjenigen Rohdaten, die ein hohes Maß an Sequenziergenauigkeit erfüllen. Neben der Hochqualitätsfilterung findet auch ein Read-Trimming statt. Im Anschluss an die Qualitätskontrolle wird der Hochqualitätsdatensatz assembliert. Hierfür stehen eine Handvoll weitläufig genutzte Assemblerprogramme zur Verfügung. Abschließend werden auf Grundlage der resultierenden Contig-Daten Kennzahlen berechnet, um Aufschluss über die Kontiguität und den Genauigkeitsgrad der Rekonstruktion des Genomes zu erhalten.

Voraussetzung für die Datenprozessierung und -analyse sind leistungsstarke Rechner mit Linux-Distribution, sowie der geübte Umgang mit Kommandozeilen-basierten Programmen.

Verwendete Programme und Programmpakete sind:  SolexaQA, FastQC, NGS QC Toolkit, Picard, Samtools, Bamtools, ABySS, SPAdes, Edena, MaSuRCA, Velvet.

Genomatix Mining Station and Genome Analyzer

(Lehrstuhl Molekulare Ernährungsmedizin, Prof. Martin Klingenpor)

Diese umfassende Software-Lösung der Firma Genomatix erlaubt es, den gesamten Arbeitsablauf von Rohdaten bis zu fortgeschrittenen Analysen über eine benutzerfreundliche Oberfläche durchzuführen. Für verschiedenste Arten von Ausgangsmaterial (RNA-Seq, DNA-Seq, ChIP-Seq, smallRNAs, Methylation) gibt es spezielle Programmzusammenstellungen. Über das reine Mapping hinaus sind Paarvergleiche, Kandidatenlisten, Pathway-Analysen uvm. möglich. Ergebnisse können in diversen Formaten (darunter auch Excel-Tabellen) exportiert und weiter bearbeitet werden.

Der Vorteil des Genomatix-Systems ist klar die einfache Bedienbarkeit für bioinformatisch nicht geschulte Naturwissenschaftler und die Vielzahl an vorgefertigten, integrierten Analyseoptionen.

Die Genomatix Mining Station und Genome Analyzer werden auf einem eigenen Server auf dem Campus vom Lehrstuhl Molekulare Ernährungsmedizin betrieben. Ansprechpartner für Zugang zum System sind Caroline Kless (71-2365) und Yongguo Li (71-2368).

RNA und Small-RNA Seq

(Lehrstuhl Physiologie, kommissarischer Leiter Prof. Michael W. Pfaffl)

Die Datenanalyse basiert auf diversen, frei-verfügbaren Software Tools mit Fokus auf die Auswertung von Small RNAs. Dabei ist die Auswertung sämtlicher RNA Seq Daten von den Rohdaten bis zur abschließenden differentiellen Analyse möglich. Sequencing Daten werden falls nötig getrimmt und einer Reihe von Qualitätskontrollen unterzogen (Phred-Score, Insert length distribution sowie Tests zu Sequence length bias und GC content bias). Neben dem anschließenden Mapping auf vorhandene Referenzgenome ist auch ein Alignment auf spezielle Datenbanken zur gezielten Auswertung von RNA Fraktionen möglich (Rfam, mirbase, piRNA…). Die gemappten Daten werden entsprechend ihrer Verteilung normalisiert und mit unterschiedlichen Algorithmen auf signifikante Regulationen untersucht. Ergänzend zur differentiellen Analyse lassen sich die Ergebnisse auch in PCAs und Heatmaps visualisieren.

Vorausetzung für die Analysen sind neben einem leistungsstarken Rechner mit Linux Partition auch Kenntnisse im Umgang mit Command-Line-Tools und R.

Verwendete Software Tools und R Pakete: BTrim, FastQC, BowTie, HTSeq, SamTools, NOISeq, DESeq, gplots, pcaMethods.

Analyse bakterieller Gemeinschaften über 16S rRNA Sequenzierung

(Nachwuchsforschungsgruppe Intestinales Microbiom, Dr. Thomas Clavel)

Das Protokoll erlaubt die parallele Sequenzierung von bis zu 300 Proben aus unterschiedlichen Habitaten mit einer Tiefe von >15 000 Sequenzen pro Probe. Für die Herstellung der Sequenzier-Libraries wird  die DNA nach mechanischer Lyse der Mikroorganismenzellen extrahiert und die V3/V4-Region der 16S rRNA-Gene über entsprechende Primer vervielfältigt. Die Datenanalyse unterliegt hohen Qualitätsstandards und basiert auf einer hauseigenen Pipeline sowie frei verfügbarer Software wie UPARSE, QIIME und dem RDP. Nach der Sequenzierung im paired-end-Modus werden die ausgelesenen Sequenzen nach Proben sortiert und auf ihre Qualität und das Vorhandensein von Chimären geprüft. Nach der Gruppierung der Sequenzen entsprechend der gewünschten Ähnlichkeit werden die Datensätze nach Häufigkeit gefiltert, wobei durch entsprechende Grenzwerte für die minimale Prävalenz die Definition falscher Operational Taxonomic Units vermieden wird. Nachgelagerte Analysen beinhalten die Berechnung  von Alpha-Diversitätsindizes (Phylotyp-Vielfalt) und phylogenetischer Distanzen, gefolgt von multidimensionaler oder Dendrogramm-Analyse (Beta-Diversität), statistischer Abschätzung von Veränderungen in der Zusammensetzung nach der taxonomischen Klassifikation und der fallbezogenen Analyse von Beziehungen zwischen der ausgelesenen Mikrobiota und Parametern der Umwelt sowie des Wirtsphänotyps oder -genotyps.