Hochleistungsrechnen und effiziente Rechenzentrumskühlung am MPIDS

Forschungsbericht (importiert) 2011 - Max-Planck-Institut für Dynamik und Selbstorganisation

Autoren
Fliegner, Denny
Abteilungen
Nichtlineare Dynamik (Theo Geisel)
Zusammenfassung
In den letzten Jahren finden HPC-Cluster größere Verbreitung auch abseits der großen Rechenzentren. Mit der höheren Rechenleistung sind aber auch höhere Anforderungen an die Infrastruktur verbunden. Insbesondere die effiziente Kühlung solcher Systeme stellt ein Problem dar.

Hochleistungsrechnen am MPIDS

Aus vielen Bereichen naturwissenschaftlicher Forschung sind Hochleistungsrechner heute kaum mehr wegzudenken. Durch die rasante Entwicklung der Leistung handelsüblicher Prozessoren findet man diese mittlerweile weit verbreitet auch außerhalb der großen Rechenzentren, meist in Form eines HPC (High-Performance-Compute) Clusters unter dem Betriebssystem Linux.

Am Max-Planck-Institut für Dynamik und Selbstorganisation (MPIDS) werden HPC-Cluster sowohl zur Datenanalyse als auch zur Durchführung von komplexeren Berechnungen und Simulationen genutzt. Die Bandbreite der Anwendungen ist vergleichsweise groß und erstreckt sich von der Fluiddynamik [1] und Statistischer Physik [2,3] über Neurobiologie [4,5] bis hin zu medizinischen Anwendungen z. B. in der Herzdynamik [6–8]. Einen erheblichen Anteil des HPC-Clusters am MPIDS machen die Systeme des Bernstein-Center for Computational Neuroscience (BCCN) Göttingen aus, die seit 2005 zunächst im Altbau und seit 2011 im Neubau des Instituts untergebracht wurden. Diese werden zusammen mit Systemen am Max-Planck-Institut für Experimentelle Medizin und der Universität Göttingen für anspruchsvollere Datenanalyse und Simulationen in den Neurowissenschaften verwendet.

Vor dem Hintergrund der sehr verschiedenen Anwendungsbereiche sind die verwendeten Rechnersysteme dagegen erstaunlich homogen. Der HPC-Cluster besteht zum größten Teil aus normalen Blade-Server-Systemen, die in Teilbereichen mit einem Infiniband-Netzwerk gekoppelt sind. Darüber hinaus verfügt das Institut seit 2011 über einen kleineren Teilcluster aus Rack-Servern mit großem Arbeitsspeicher und einem Infiniband-gekoppelten Teilcluster aus Blade-Server-Systemen mit zusätzlichem Grafikprozessor. Insgesamt stehen den Wissenschaftlern damit direkt am MPIDS insgesamt 6.000 Prozessorkerne, 20 Terabyte Arbeitsspeicher und über 1 Petabyte an Speicherkapazität zur Verfügung.

Wassergekühlte Rechnerschränke

Der Aufbau eines HPC-Clusters mit 1.000 Prozessorkernen stellt heute IT-technisch prinzipiell kein Problem mehr dar. Bei Verwendung von sehr verdichteten Rechnersystemen ist eine solche Anlage mittlerweile tatsächlich in einem einzigen Rechnerschrank unterzubringen. Allerdings erzeugt ein solcher Cluster auch unter Verwendung der energieeffizientesten Prozessoren ohne Weiteres bis zu 24 kW Abwärme auf einer Stellfläche von nur einem Quadratmeter. Die in der Mehrheit der Rechenzentren immer noch übliche klassische Kühlung mit Umluft aus einem Doppelboden ist mit einer Abwärmedichte dieser Größenordnung in aller Regel vollkommen überfordert.

Allein die Stromkosten für den Betrieb der Rechnersysteme eines solchen HPC-Clusters in einem einzigen Rechnerschrank summieren sich mittlerweile zu fünfstelligen Euro-Beträgen pro Jahr auf. Zusätzlich fallen noch Stromkosten für die Kühlung an. Unter klassischer Umluftkühlung können diese durchaus noch einmal 30% bis 50% der Stromkosten für die Rechnersysteme betragen. Bei der Planung eines HPC-Clusters und der dafür notwendigen Infrastruktur sind die Energiekosten daher heute ein zentrales Thema.

Als eines der ersten Institute der Max-Planck-Gesellschaft ist das MPIDS bereits seit 2004 dazu übergegangen, neue Rechenanlagen konsequent nur noch in geschlossenen, wassergekühlten Schränken aufzubauen. Hierbei besitzen die einzelnen Rechnerschränke jeweils einen Wärmetauscher, der über eine zentrale Anlage mit Kaltwasser versorgt wird und ein eigenes Umluftsystem mit redundanten Ventilatoren. Es werden damit nicht mehr – mit hohem Aufwand und entsprechenden Verlusten - ganze Gebäudeteile gekühlt, sondern nur noch der Inhalt der jeweiligen Rechnerschränke. 2005 wurde am MPIDS mit der Entwicklung eines Schranksystems begonnen, das in seiner Kühlleistung von 12 kW bis 36 kW skalierbar ist, über eine eigenständige Regelung und Überwachung verfügt, möglichst energiesparend arbeitet und darüber hinaus kompakt und portabel ist und ohne weitere bauliche Maßnahmen auch in bestehende Gebäude eingebracht werden kann. Mit dem Einzug in das neue Institutsgebäude im Jahre 2011 verfügt das MPIDS nun über insgesamt 32 dieser in Abbildung 1 dargestellten wassergekühlten Schränke. Ein großer Teil der Anlage wurde noch im Altbau erprobt und in den Neubau umgezogen.

Kaltwassererzeugung mit Turbinen

Wassergekühlte Rechnerschränke können in der Regel weitestgehend problemlos an bestehende Kaltwasserversorgungen angeschlossen werden. Allerdings werden solche Anlagen aus verschiedensten Gründen oft mit relativ niedrigen Temperaturen betrieben, meist mit 6°C im Kaltwasservorlauf. Mit einer eigenständigen Kältemaschine zur Versorgung der wassergekühlten Rechnerschränke kann mit wesentlich höheren Vorlauftemperaturen gearbeitet werden (16°C und mehr). In diesem Fall wird bei entsprechend niedrigen Außentemperaturen über weite Teile des Jahres überhaupt keine Verdichtung mehr benötigt (freie Kühlung). Es reicht dann einfach, das von der Anlage kommende Warmwasser in einem Rückkühler an der Außenluft zu kühlen. Hierbei fallen nur noch Stromkosten für die Pumpenleistung an.

Im Sommer sind dagegen auch mit dieser Lösung weiterhin Verdichter notwendig. Die in klassischen Kältemaschinen eingesetzten Scrollverdichter stellen große und schwere Geräte dar, die hohe Anlaufströme benötigen und vergleichsweise wartungsintensiv sind. Zudem wird oft mit großen Kaltwasserspeichern gearbeitet. Der COP (Coefficient of Performance) der Verdichter beträgt im relevanten Lastbereichen etwa 5, d. h. für eine Kälteleistung von 100 kW zur Kühlung der Rechner wird ein Fünftel der Leistung, also 20 kW für den Verdichter benötigt. Die seit einigen Jahren verfügbaren ölfreien Turboverdichter (Abb. 2) sind dagegen relativ kompakt, leicht und vergleichsweise wartungsarm. Im relevanten Teillastbereich erreichen sie einen COP von bis zu 10 und sind damit wesentlich effizienter als Scrollverdichter.


Am MPIDS wurde daher bereits 2008 mit der Planung einer eigenständigen Kältemaschine zur Kühlung der Rechenanlagen auf Basis von Turboverdichtern begonnen. Die Kältemaschine konnte schließlich Anfang 2010 noch im Altbau in Betrieb genommen werden. Im Gegensatz zu einer herkömmlichen Kältemaschine arbeitet diese mit einem konstanten Volumenstrom, dafür aber mit variabler Temperatur im Kaltwasservorlauf von 12°C bis 20°C. In der Zuluft der Rechnerschränke werden damit regelbar 16°C bis 24°C in der Zuluft der Rechnersysteme erreicht. Höhere Zulufttemperaturen sind zwar möglich, aber nicht in jedem Fall sinnvoll, da oft bereits unterhalb von 24°C die internen Lüfter der Rechnersysteme hochzuregeln beginnen, was pro Rechnerschrank bis zu 3 kW zusätzliche Leistungsaufnahme bedeuten kann und damit den Einspareffekt der freien Kühlung mehr als zunichte macht.

Es macht daher Sinn, die Trennung von Kaltwassererzeugung und Rechnerkühlung ganz aufzuheben und die gesamte Anlage mit einem gemeinsamen System zu regeln. Hierfür wurde am MPIDS bereits im Altbau ein auf dem quelloffenen Monitoring-Tool NAGIOS basierendes System entwickelt, das es erlaubt, alle relevanten Betriebsparameter der Kältemaschine, der wassergekühlten Rechnerschränke und der HPC-Cluster zentral zu erfassen und auszuwerten (Abb. 3). Nach erfolgtem Umzug der Kältemaschine in den Neubau im Frühjahr 2012 soll dieses zur Regelung der Gesamtanlage verwendet werden.

1.
Avila, K.; Moxey, D.; de Lozar, A.; Avila, M.; Barkley, D.; Hof, B.
The Onset of Turbulence in Pipe Flow
Science 333, 192-196 (2011)
2.
Timme, M.; van Bussel, F.; Fliegner, D.; Stolzenberg, S.
Counting Complex Disordered States by Efficient Pattern Matching: Chromatic Polynomials and Potts Partition Functions
New Journal of Physics 11, 023001 (2009)
3.
van Bussel, F.; Ehrlich, C.; Fliegner, D.; Stolzenberg, S.; Timme, M.
Chromatic polynomials of random graphs
Journal of Physics A: Mathematical and Theoretical 43, 175002 (2010)
4.
Monteforte, M.; Wolf, F.
Dynamical Entropy Production in Spiking Neuron Networks in the Balanced State
Physical Review Letters 105, 268104 (2010)
5.
Kaschube, M.; Schnabel, M.; Loewel, S.; Coppola, D. M.; White, L. E.; Wolf, F.
Universitality in the Evolution of Orientation Columns in the Visual Cortex
Science 330, 1113-1116 (2010)
6.
Bittihn, P.; Squires, A.; Luther, G.; Bodenschatz, E.; Krinsky, V.; Parlitz, U.; Luther, S.
Phase-resolved Analysis of the Susceptibility of Pinned Spiral Waves to Far-field Pacing in a Two-Dimensional Model of Excitable Media
Philosophical Transactions of the Royal Society A 368, 2221-2236 (2010)
7.
Behrend, A.; Bittihn, P.; Luther, S.
Predicting Unpinning Success Rates for a Pinned Spiral in an Excitable Medium
Computers in Cardiology 37, 345-348 (2010)
8.
Luther, S.; Fenton, F. H.; Kornreich, B. G.; Squires, A.; Bittihn, P.; Hornung, D.; Zabel, M.; Flanders, J.; Gladuli, A.; Campoy, L.; Cherry, E. M.; Luther, G.; Hasenfuss, G.; Krinsky, V. I.; Pumir, A.; Gilmour Jr, R. F.; Bodenschatz, E.
Low-Energy Control of Electrical Turbulence in the Heart
Nature 475, 235-239 (2011)
Zur Redakteursansicht