Lehre‎ > ‎

Fachprojekt Bioinformatik

Allgemeine Informationen

  • Dieses Fachprojekt findet zunächst einmalig im Wintersemester 2009/10 statt. Es hat noch keine Modulnummer, ist aber für das WS2009/10 von der Studiendekanin genehmigt und wird wie jedes andere Fachprojekt angerechnet.
  • Veranstalter: Prof. Sven Rahmann.
  • Voraussetzungen: DAP1+2, Softwareentwicklung mit Softwarepraktikum, Wahrscheinlichkeitsrechnung und mathematische Statistik, GTI, Proseminar, idealerweise bereits eine bestandene Wahlpflichtveranstaltung im Bereich formale Grundlagen. In Absprache mit dem Veranstalter sind in diesem Semester einzelne Ausnahmen möglich.
  • Termine: Jeden Freitag im Semester ist der Besprechungsraum OH14/203 für das Projekt reserviert. Insbesondere finden aber auch individuelle Gespräche mit den Teilnehmern jederzeit nach Bedarf statt. Insgesamt wird eine Arbeitsleistung von 6 LP (durchschnittlich 180 Zeitstunden) erwartet.
  • Prüfung: Für diese Veranstaltung wird ein Leistungsnachweis gemäß der Regeln für Fachprojekte ausgestellt. Die Prüfungsanforderungen richten sich nach der Modulbeschreibung. Bitte beachten Sie, dass ein Fachprojekt, obwohl unbenotet, nach Nichtbestehen höchstens 2x wiederholt werden darf.

Inhalt

In kleinen Gruppen (2-4 Personen), ggf. auch einzeln, werden verschiedene Projektaufgaben aus dem Bereich der Bioinformatik bearbeitet und gelöst.
Die Themen wechseln in jedem Semester und stammen aus folgenden Bereichen:
  • Analyse und Modellierung spektrometrischer Daten
  • Sequenzanalyse
  • Rekonstruktion biologischer Netzwerke
  • weitere aktuelle Themen

Die Wahl der Programmiersprache ist innerhalb eines Teams grundsätzlich frei.
Um schnell produktiv zu arbeiten, empfehle ich eine Skriptsprache wie Python.

Die Arbeit soll am Ende des Projektes kurz präsentiert werden (10-15 Minuten) und in einer kurzen Ausarbeitung zusammengefasst werden.
Source-Code muss hinreichend gut dokumentiert sein, so dass er wiederverwendbar ist.



Wintersemester 2009/10

  • Nächstes Gruppentreffen: Di 10.11. 14ct in OH14/214 (Büro Prof. Rahmann). Einzeltreffen nach Vereinbarung.
  • Anmeldung und erstes Treffen: Anmeldung bis 30.09.2009 per e-mail an den Veranstalter. Betreff: "Fachprojekt Bioinformatik". Bitte geben Sie an, welche Wahl/Wahlpflicht-Veranstaltungen Sie bereits bestanden haben oder parallel zum Fachprojekt hören werden. Erstes Treffen: Freitag 16.10.2009, 10:00 (s.t.!), in OH14, R.203. Wer zu diesem Termin aus triftigen Gründen nicht kommen kann, aber trotzdem teilnehmen möchte, muss sich bei mir vorher per e-mail mit Begründung entschuldigen lassen. Andernfalls wird sie/er automatisch ausgeschlossen.
  • Bitte die allgemeinen Voraussetzungen (s.o.) beachten; individuelle Absprachen sind aber möglich.

Projekt "Qualitätswerte von SOLiD-Sequenzierdaten"

Jana Jost

Hintergrund: Bei der DNA-Sequenzierung mit der SOLiD-Technologie werden DNA-Reads der Länge 35 im sogenannten color-space erzeugt.
Die Reads lassen sich (hoffentlich) in einem Referenzgenom (das man auch im color space betrachten kann) finden ("Read mapping").
Dies ist in vielen Fällen fehlerfrei möglich; manche Reads lassen sich aber nicht exakt mappen, sondern nur, wenn man dabei Fehler (im color space oder im sequence space) zulässt.
Andererseits kommen der Reads auch mit Qualitätswerten, die sich in Wahrscheinlichkeiten umrechnen lassen, die quantifizieren, wie stark die Gerätesoftware vermutet, dass das betreffende Basenpaar korrekt bestimmt wurde. Die Frage ist nun, ob die Qualitätswerte tatsächlich mit der beobachteten Anzahl an Fehlern beim Mapping korreliert.

Einarbeitung:
  • Was ist der color space?
  • Was bedeuten die Qualitätswerte?
  • Wie sehen die Daten aus?
Plan:
  • Finde alle Reads, die sich nicht exakt, sondern z.B. mit genau einer falschen Farbe mappen lassen.
  • Katalogisiere die fehlerhaften Stellen.
  • Untersuche, ob Korrelation mit den Qualitätswerten besteht.

Projekt "Modellierung von IMS-Daten"

Robert Kirberich, Nils Schmidt

Hintergrund: Ionenmobilitätsspektrometer messen in einem Stoffgemisch in Gasphase zu jeder Retentions- und Driftzeit eine Ionenintensität.
Dabei entstehen im Spektrum charakteristische Peaks für einzelne Stoffe. Die Peaks zeichnen sich insbesondere durch ein langsames Ausdünnen in Retentionszeitrichtung aus.
Während ein Spektrum mehrere MB gross ist (Rohdaten), lassen sich die darin enthaltenen relevanten Peaks vermutlich durch wenige Parameter beschreiben.
Hierzu gibt es in der Arbeitsgruppe bereits Ansätze; es sollen jedoch weitere Alternativen untersucht werden.

Einarbeitung:
  • Wie funktionieren IMS?
  • Welche Peakbeschreibungen gibt es bereits?
  • Wie sehen die Rohdaten aus?
Plan:
  • Daten einlesen und visualisieren
  • Modelle für Peaks erfinden / anpassen (ggf. mehrere)
  • Spektrum in Peaks zerlegen (für jedes Modell)
  • Evaluation - wie gut passt das Modell zu den Daten?

Projekt "Massenspektren von Proteinfamilien"

Manuel Allhoff

Hintergrund: Peptide Mass Fingerprinting (PMF) erlaubt die Identifikation von Proteinen mit Hilfe eines Massenspektrometers, indem das Protein z.B. mittels Trypsin-Verdau in Fragmente zerlegt wird. (Die Menge der Fragmentmassen ist häufig eindeutig genug, um ein Protein in einer Datenbank zu identifizieren.) Tatsächlich ist PFM vielen stochastischen Einflüssen unterworfen, die an vielen Stellen beschrieben sind: (1) Die Masse einer Aminosäure hängt die Summe der Atommassen, aber von jedem Atom gibt es verschiedene Isotope mit verschiedenen Massen, die mit unterschiedlichen relativen Häufigkeiten auftreten. (2) Manche Proteine werden noch modifiziert, indem an manche Aminosäuren chemische Gruppen angehängt werden (posttranslationale Modifikationen); auch dies lässt sich stochastisch modellieren. (3) Der Fragmentierungsprozess ist ebenfalls stochastisch ("missed cleavages"). Insgesamt lässt sich so zu einem Protein ein "erwartetes Massenspektrum" berechnen. Noch interessanter (und stochastischer) wird es, wenn man nicht ein einzelnes Protein, sondern eine durch ein stochastisches Modell (HMM) gegebene Proteinfamilie betrachtet. Die Pfam-Datenbank enthält solche Modelle. Kombiniert man alle diese Elemente miteinander, sollte es möglich sein, das erwartete Spektrum einer Proteinfamilie zu berechnen.

Einarbeitung:
  • Zusammensetzung der einzelnen Aminosäuren aus Atomen
  • Isotopenverteilung der Atome (welche Massen mit welchen Wahrscheinlichkeiten?)
  • Wie arbeitet Trypsin? Fragmentierungsregeln
  • Wie sehen HMM-Modelle in Pfam aus? Welchen Code gibt es zum Einlesen des HMM-Formats?
  • Wie können PAAs genutzt werden, um stochastische Massen zu addieren?
  • optional: was gibt es für posttranslationale Modifikationen, ggf. weglassen
Plan:
  • Berechne Massenverteilung für ein ganzes Polypeptid (ohne Fragmentierung)
  • Berechne Massenverteilung aller Fragmente eines Proteins
  • Kombiniere Fragmentierung mit Proteinfamilien-HMM

Comments