Skip to main content

Purdue-App verlangsamt Server, wenn Kühlung fehlschlägt

While Die Chiphersteller machen ihre Prozessoren immer leistungsfähiger, mindestens ein Kunde hat es für nützlich gehalten, diese Chips zu verlangsamen, zumindest lange genug, um sie in Betrieb zu halten, wenn die Klimaanlage des Rechenzentrums schwankt.

Patrick Finnegan, Systemadministrator an der Purdue University, hat eine Software entwickelt, die die Taktrate von Serverprozessoren verlangsamt, eine Drosselung, die die von ihnen erzeugte Wärme reduziert.

"Früher hatten wir nur die Möglichkeit, ein paar große Lüfter einzusetzen und zu hoffen, dass es genug war Server ausgeschaltet ", sagte Mike Shuey, der die Supercomputer von Purdue beaufsichtigt. "Diese Software bietet uns einen Mittelweg, der uns durch viele Ausfälle hinwegbringt."

[Weiterführende Literatur: Beste NAS-Boxen für Media-Streaming und Backup]

Purdue verkauft die Software jetzt für 250 US-Dollar über FolioDirect, ein Online-Produkt E-Commerce-Service für Bildungseinrichtungen.

Sobald die Umgebungstemperaturen bei den meisten Standardservern einen bestimmten Punkt erreichen, normalerweise bei etwa 32 Grad Celsius, werden sie automatisch abgeschaltet, um Schäden durch Überhitzung zu vermeiden. Kluge Administratoren werden sie vorher ausschalten, zumindest um ein sanftes Herunterfahren zu ermöglichen.

In der Welt des akademischen Supercomputers können diese Neustarts jedoch tödlich sein. Purdues Cluster führen viele serielle Jobs aus, die Tage, Wochen oder sogar Monate dauern können. Und während einige Programme häufige Sollwerte haben, zu denen sie zurückkehren können, sind sie nahe wo sie beim Herunterfahren sind, viele nicht. Ein Purdue-Forscher beispielsweise betreibt atmosphärische Klimamodelle, die vier Monate ununterbrochene Rechenzeit benötigen.

"Wenn wir nur einen Ausfall überleben können, um Maschinen abzuschalten, können wir zwei bis drei Millionen [m ] CPU-Stunden Arbeit ", sagte Shuey. "Es kann Wochen und Wochen dauern, bis wir wieder in dem Zustand sind, in dem wir in der Minute waren, bevor wir die Geräte ausgeschaltet haben."

Im Gegensatz dazu werden die Programme durch das Zurückdrosseln der Server gebremst, aber keine Arbeit lost.

Finnegan hat die Software mit einem für den Linux-Kernel verfügbaren Taktfrequenz-Skalierungstreiber erstellt, der sowohl Intel- als auch AMD-Chipsätze mit Fre- quenzskalierungsfunktionen steuern kann. Die Software stützt sich auch auf die Altair-Job-Scheduling-Software sowie eine Reihe von Cluster-Management-Tools des Oak Ridge National Laboratory des US-Energieministeriums.

Soweit Shuey weiß, ist keine andere Software für diese Aufgabe verfügbar Quelle oder kommerziell, zumindest für große Cluster von Servern.

Insgesamt betreibt das Purdue-Rechenzentrum rund 15.000 Prozessoren, meist über zwei Supercomputer-Cluster. Eine, die von Hewlett-Packard geliefert wird, Coates, läuft knapp unter 8000 Prozessoren von AMD. Die andere, von Dell gelieferte Konfiguration mit dem Spitznamen Steele, läuft mit 5.600 Intel-Prozessoren.

Das Purdue-Team schätzt, dass der Stromverbrauch von Prozessoren bei Intel-Prozessoren um bis zu 10 Prozent und bei AMD-Prozessoren um bis zu 30 Prozent gesenkt werden kann . Die Menge an Energie, die ein Server verbraucht, korreliert normalerweise direkt mit der Menge an Kühlung.

"Sie können 70 bis 80 Prozent Leistung verlieren, aber wir bekommen 30 Prozent Energieeinsparung", sagte Shuey.

Mindestens in In der aktuellen Inkarnation erfordert der Plan des Rechenzentrums für Kühlausfälle immer noch einen Menschen in der Schleife.

Die Anlage wird durch Kaltwasser gekühlt, das von der Hauptkühlungsanlage der Schule geleitet wird. Die optimale Temperatur für das Gebäude beträgt etwa 21 Grad Celsius (oder etwa 70 Grad Fahrenheit). Das Rechenzentrum verwendet ein APC-Temperaturüberwachungssystem, das Alarme auslöst, wenn die Temperatur über 26 Grad Celsius (oder etwa 80 Grad Fahrenheit) steigt. Wenn der Alarm ausgelöst wird, kann der Administrator die Software-Konsole verwenden, um die Server zu drosseln.

Da Finnegan die Software Anfang des Jahres geschrieben hat, musste die Schule in West Lafayette, Indiana, die Servergeschwindigkeiten zweimal reduzieren. aufgrund einer Kombination aus geplanten wartungsbedingten Ausfällen und einem wärmeren Sommer als üblich. Beide Male funktionierte die Drosselung wie geplant.

"Die Rechenjobs verlangsamten sich, aber die Temperatur im Rechenzentrum sank", sagte Shuey. "Es ist viel besser, Jobs eine Stunde lang laufen zu lassen, anstatt alle laufenden Arbeiten wegzuwerfen und Mitarbeiter zu mobilisieren, um die Dinge zu reparieren", sagt Shuey.

Joab Jackson berichtet über Unternehmenssoftware und allgemeine Technologie für Der IDG-Nachrichtendienst . Folge Joab auf Twitter unter @Joab_Jackson. Joabs E-Mail-Adresse ist [email protected]