Hochleistungscomputer

Der Bedarf an Rechenleistung und Datenspeicherplatz am MPI-DS ergibt sich sowohl aus numerischen Berechnungen und Simulationen als auch aus der Datenerfassung und -auswertung in Experimenten. Für beide Zwecke stellt die HPC-Gruppe Dateiserver für Personal- und Projektdaten, HPC-Cluster mit schnellem lokalen Datenspeicherplatz für paralleles Rechnen und HPC-Systeme für GPU-beschleunigte Codes zur Verfügung. Die notwendige Recheninfrastruktur skaliert weit über einzelne Workstations hinaus, liegt aber deutlich unterhalb großer Rechenzentren. Als mittelgroße HPC-Einrichtung muss sie eine interaktive Nutzung ermöglichen, z. B. für die Entwicklung groß angelegter paralleler Anwendungen oder die gezielte Erforschung des Parameterraums. Die Linux-Workstations sind Teil der HPC-Systeme am MPI-DS. Die Wissenschaftler können direkt von ihren Desktop-Systemen aus an ihren Daten arbeiten und ihre Aufgaben steuern.

Die HPC-Gruppe legt großen Wert darauf, die Hardware so homogen wie möglich zu halten, um den Wartungsaufwand zu minimieren und die Inter-operabilität zwischen den wissenschaftlichen Arbeitsgruppen zu maximieren. Derzeit besteht die HPC-Hardware am MPI-DS hauptsächlich aus Lenovo-Systemen mit Intel Omnipath-Netzwerkverbindungen für die parallelen Cluster. Einige ältere DELL-Cluster mit Mellanox Infiniband-Netzwerken werden noch gewartet. Die Wissenschaftler am MPI-DS haben direkten Zugang zu HPC-Clustern mit einer Gesamtgröße von etwa 1000 HPC-Systemen (mehr als 26.000 CPU-Kerne, etwa 160 TB RAM und 20 PB Datenspeicherkapazität).

Gekühlte Schränke mit einem HPC-Cluster in einem der Serverräume am MPI-DS. Jeder Schrank verfügt über eine Steuerungs- und Überwachungseinheit, ist modular aufgebaut, so dass er verschoben werden kann, und bei Bedarf kann die Kühlung bis zu 36 kW angepasst werden

Gekühlte Schränke mit einem HPC-Cluster in einem der Serverräume am MPI-DS. Jeder Schrank verfügt über eine Steuerungs- und Überwachungseinheit, ist modular aufgebaut, so dass er verschoben werden kann, und bei Bedarf kann die Kühlung bis zu 36 kW angepasst werden

Der Betrieb von Rechenanlagen dieser Größe erfordert eine sehr dichte Packung von Servern, die durch den Einsatz von Multicore-Maschinen und effizienten Systemdesigns wie Blade-Server-Gehäusen gewährleistet wird. Entsprechende Leistungsdichten von mehr als 20 kW pro Quadratmeter können nicht durch herkömmliche offene Luftstromkühlung mit Zwischenböden gekühlt werden. Ein effizientes Kühlsystem ist nicht nur aus ökologischer Sicht erforderlich, sondern auch aus Kostengründen, da die Stromkosten für die Kühlung bis zu einem Drittel der gesamten Stromkosten bei herkömmlicher Kühlung betragen können. Das MPI-DS war eines der ersten Institute der Max-Planck-Gesellschaft, das dieses Problem löste, indem es optimierte wassergekühlte Schränke verwendete, um nur die notwendigen Teile der Serverräume zu kühlen, wie in der Abbildung gezeigt.

Um die Ausfallsicherheit zu erhöhen, befindet sich die Hälfte der HPC-Systeme des MPI-DS in einem Serverraum im Institutsgebäude in Fassberg, während die andere Hälfte in einem externen Rechenzentrumsstandort in der ehemaligen Fernmeldezentrale (FMZ) der Universität Göttingen untergebracht ist. Die kleineren Serverräume der Abteilung am Fassberg wurden vor kurzem renoviert und können nun für die Projektdatenserver und Infrastruktur-Server aller Gruppen genutzt werden.

Um eine solch komplexe Anlage an verschiedenen Standorten zu verwalten, nutzt das MPI-DS Bereitstellungs-, Konfigurations- und Überwachungssysteme, die auf Open-Source-Software basieren. Das Überwachungssystem sammelt in regelmäßigen Abständen wichtige Zustandsdaten der HPC-Hardware und der Kühlanlagen. Diese Daten werden in einer umfassenden Übersicht zusammengefasst und ihre Historie kann zur weiteren Diagnose eingesehen werden. Im Falle eines Kühlungsausfalls ist das Überwachungssystem in der Lage, selbstständig eine Notabschaltung durchzuführen, um Maschinenschäden durch Überhitzung zu verhindern.