Allgemeine Informationen
InhaltIn kleinen Gruppen (2-4 Personen), ggf. auch einzeln, werden verschiedene Projektaufgaben aus dem Bereich der Bioinformatik bearbeitet und gelöst.Die Themen wechseln in jedem Semester und stammen aus folgenden Bereichen:
Die Wahl der Programmiersprache ist innerhalb eines Teams grundsätzlich frei. Die Arbeit soll am Ende des Projektes kurz präsentiert werden (10-15 Minuten) und in einer kurzen Ausarbeitung zusammengefasst werden. Wintersemester 2009/10
Projekt "Qualitätswerte von SOLiD-Sequenzierdaten"Jana JostHintergrund: Bei der DNA-Sequenzierung mit der SOLiD-Technologie werden DNA-Reads der Länge 35 im sogenannten color-space erzeugt. Die Reads lassen sich (hoffentlich) in einem Referenzgenom (das man auch im color space betrachten kann) finden ("Read mapping"). Dies ist in vielen Fällen fehlerfrei möglich; manche Reads lassen sich aber nicht exakt mappen, sondern nur, wenn man dabei Fehler (im color space oder im sequence space) zulässt. Andererseits kommen der Reads auch mit Qualitätswerten, die sich in Wahrscheinlichkeiten umrechnen lassen, die quantifizieren, wie stark die Gerätesoftware vermutet, dass das betreffende Basenpaar korrekt bestimmt wurde. Die Frage ist nun, ob die Qualitätswerte tatsächlich mit der beobachteten Anzahl an Fehlern beim Mapping korreliert. Einarbeitung:
Projekt "Modellierung von IMS-Daten"Robert Kirberich, Nils SchmidtHintergrund: Ionenmobilitätsspektrometer messen in einem Stoffgemisch in Gasphase zu jeder Retentions- und Driftzeit eine Ionenintensität. Dabei entstehen im Spektrum charakteristische Peaks für einzelne Stoffe. Die Peaks zeichnen sich insbesondere durch ein langsames Ausdünnen in Retentionszeitrichtung aus. Während ein Spektrum mehrere MB gross ist (Rohdaten), lassen sich die darin enthaltenen relevanten Peaks vermutlich durch wenige Parameter beschreiben. Hierzu gibt es in der Arbeitsgruppe bereits Ansätze; es sollen jedoch weitere Alternativen untersucht werden. Einarbeitung:
Projekt "Massenspektren von Proteinfamilien"Manuel AllhoffHintergrund: Peptide Mass Fingerprinting (PMF) erlaubt die Identifikation von Proteinen mit Hilfe eines Massenspektrometers, indem das Protein z.B. mittels Trypsin-Verdau in Fragmente zerlegt wird. (Die Menge der Fragmentmassen ist häufig eindeutig genug, um ein Protein in einer Datenbank zu identifizieren.) Tatsächlich ist PFM vielen stochastischen Einflüssen unterworfen, die an vielen Stellen beschrieben sind: (1) Die Masse einer Aminosäure hängt die Summe der Atommassen, aber von jedem Atom gibt es verschiedene Isotope mit verschiedenen Massen, die mit unterschiedlichen relativen Häufigkeiten auftreten. (2) Manche Proteine werden noch modifiziert, indem an manche Aminosäuren chemische Gruppen angehängt werden (posttranslationale Modifikationen); auch dies lässt sich stochastisch modellieren. (3) Der Fragmentierungsprozess ist ebenfalls stochastisch ("missed cleavages"). Insgesamt lässt sich so zu einem Protein ein "erwartetes Massenspektrum" berechnen. Noch interessanter (und stochastischer) wird es, wenn man nicht ein einzelnes Protein, sondern eine durch ein stochastisches Modell (HMM) gegebene Proteinfamilie betrachtet. Die Pfam-Datenbank enthält solche Modelle. Kombiniert man alle diese Elemente miteinander, sollte es möglich sein, das erwartete Spektrum einer Proteinfamilie zu berechnen. Einarbeitung:
|
