Aufgrund der enormen technologischen Fortschritte bei der molekularen Sequenzierung und den Analyseverfahren im Hochdurchsatz wachsen die biologischen Datenbanken exponentiell. Die Datenmengen zeigen einen schnelleren Anstieg als die Entwicklung in der Computer-Hardwaretechnologie an Geschwindigkeitszuwachs verspricht. Die Verfügbarkeit immer größerer Datenmengen bedingen in vielen Teilbereichen der Bioinformatik immer umfassendere Analysen. Eine Vielzahl der zur Verfügung stehenden Softwareprogramme können nur für die Analyse kleinerer Datenmengen eingesetzt werden, da sie eine schlechte Skalierung zeigen, zu aufwändige Datenstrukturen verwenden, oder ineffiziente Implementierungen sind. Aus diesem Grund befasst sich unsere Gruppe mit der Entwicklung von leistungsfähigen Bioinformatik-Softwareanwendungen, sowie mit deren Parallelisierung und Einsatz auf leistungsfähigen Computersystemen. Der anwendungsbezogene Forschungsschwerpunkt dieser Gruppe liegt dabei auf Computerverfahren, die mit der Rekonstruktion der Entwicklungsgeschichte von Genen und Organismen, sowie mit der molekularen Identifikation und Klassifikation in Zusammenhang stehen. Der informatische Schwerpunkt umfasst die algorithmische Optimierung, die Entwicklung von Heuristiken, die parallele und verteilte Programmierung und das Hochleistungsrechnen. Derzeit werden mehrere Projekte in der Gruppe bearbeitet.
Im Konwihr-Projekt ParBaum werden Maximum Likelihood (ML)-Verfahren entwickelt und benützt um einen umfassenden Stammbaum des Lebens aus molekularen Sequenzdaten zu berechnen. Technische Verbesserungen der Methode und die Entwicklung einer Heuristik führten zu "RAxML", einer sehr schnellen Implementierung des ML-Verfahrens. Durch Parallelisierung und Einsatz von Supercomputer, wie dem Infiniband-Cluster am Institut, gelang die Berechnung des bislang größten molekularen Stammbaums.
In einem Kooperationsprojekt mit dem Lehrstuhl für Mikrobiologie wird ARB, eine Softwareumgebung für molekulare Daten geschaffen. Derzeit ist die Komponente ARB-Genome unter Entwicklung, die die Verwaltung und Analyse von Genom-, Proteom- und Transkriptomdaten ermöglichen soll. Dies umfasst die effiziente Datenintegration, die Entwicklung komprimierter und verteilter Suchindizes, und schnelle Visualisierungsverfahren.
Ein weiteres Arbeitsgebiet sind Verfahren und Systeme für die Kodierung und die Analyse von DNA-Chips. Im Vordergrund steht die schnelle Suche in und Verarbeitung von großen Datenmengen. Es sind Programme in Entwicklung die eine schnelle Suche nach hochwertigen Sätzen an Sequenzsignaturen ermöglichen, unter Verwendung von parallelen Suchalgorithmen und kombinatorischen Verfahren. Zudem werden Methoden erforscht, um komplexen Signalmuster, die das Ergebnis von DNS-Chipexperimenten sind, ihre biologischen Bedeutung wiederzugeben.
Wir freuen uns stets über Kooperationen mit anderen Institutionen, Biologen, Bioinformatikern und Informatikern, für die das Interesse besteht, eigene Verfahren parallel auf Hochleistungsrechnern zu implementieren und/oder eigene Massendaten parallel zu verarbeiten.