ScalNEXT
ScalNEXT (Optimierung des Datenmanagements und des Kontrollflusses von Rechenknoten für Supercomputing) ist ein vom BMBF im Rahmen des SCALEXA-Programms gefördertes Forschungsvorhaben bei dem Smart Networking Hardware genutzt werden soll, um die Berechnungseffizienz und Flexibilität in Clustern für das High-Performance-Computing zu steigern.
Kontakt
Name
Projektentwicklungsteam – Fachbereich Informations- und Kommunikationstechnik / Team Leader Simulation Infrastructure and HPC
Telefon
- work
- +49 241 80 49724
- E-Mail schreiben
Moderne HPC-Systeme sind meist als Cluster-Systeme aufgebaut. Dies bedeutet, dass einzelne und meist völlig unabhängige Knoten mit eigenen Betriebssysteminstanzen nur durch ein grobes Ressourcen- bzw. Jobmanagement-System verbunden und durch ein Netzwerk gekoppelt sind. Die hierzu verwendeten Netzwerke wie z. B. Infiniband, Slingshot oder Tofu bieten dabei oft hohe Bandbreiten, sind aber in ihrer Latenz durch physikalische Größen begrenzt und zudem meist passiv, d.h. sie dienen nur der Kommunikation zwischen den Knoten. Neben den eigentlichen Rechenaufgaben bleiben damit auch Datenmanagement und Steuerung des bei den Knoten und damit mit maximaler Distanz verteilt. Letzteres führt zu hohen Latenzen für Management und Kontrollaufgaben, Skalierungsflaschenhälsen auf Grund einer hohen Zahl von aktiven End-Komponenten, sowie zu Kommunikationsflaschenhälsen durch die Notwendigkeit von Synchronisationsnachrichten.
Moderne Netzwerke bieten jedoch die Möglichkeit, viele dieser Aufgaben in das Netzwerk zu verlagern und damit zentraler im System zu verankern und Skalierungsprobleme zu umgehen. Diese sogenannten Smart Networks, die rekonfigurierbar und programmierbar sind, kommen schon heute in der modernen Telekommunikation und in Datenzentren, zusammen mit Techniken wie Software Defined Networks (SDNs), zum Einsatz. Im HPC-Bereich sind sie aber bisher kaum vertreten. Um dies zu ermöglichen, müssen noch mehrere Herausforderungen gelöst werden. Dazu gehören die sichere Virtualisierung der Netzwerkressourcen auf Benutzerebene, die Entwicklung von einfachen und zu bestehenden Programmieransätzen passenden APIs und die Umgestaltung von Betriebssystemen mit globalen, netzwerkübergreifenden Ansätzen.
Das ScalNEXT-Projekt greift diese Herausforderungen auf und entwickelt neue Technologien, um den Einsatz von Smart Networks im HPC-Bereich zu ermöglichen. Das Ziel von ScalNEXT ist die Steigerung der Skalierbarkeit von HPC-Systemen und Anwendungen. Wir entwickeln Basistechnologien, die die Auslagerung von Kernfunktionalität des Datenmanagements und des Kontrollflusses von Knoten weg in das Netzwerk (auf NICs und Switches) ermöglichen, und wir werden sie dort auf die drei Kernanwendungsbereiche Modellierung und Simulation (ModSim), Datenanalyse und I/O (HPDA) und Maschinelles Lernen (ML/KI) anwenden. In allen drei Bereichen werden damit zum einen Rechenknoten entlastet, die dann voll auf die nötigen Berechnungen angesetzt werden können; zum anderen werden Management- und Kontrollaufgaben auf die enger verknüpften und zentraler gelegenen Netzwerkressourcen übertragen. Dadurch entsteht eine deutliche Steigerung der Berechnungseffizienz und Skalierbarkeit, sowie die Möglichkeit Berechnungen in die Nähe der Daten auszulagern.
Weitere Informationen zum Projekt sind auf der Website der Gauß-Allianz zu finden:
Wir danken für die finanzielle Unterstützung des BMBF (Bundesministerium für Bildung und Forschung), Förderkennzeichen 16ME0688.