Wie die CXL-Forschung an der TUM die Zukunft des Cloud-Computing neu gestaltet
Forschung |

In den Anfängen des Cloud-Computing war Skalierung simpel: Man fügte einfach weitere Server in einem Rechenzentrum hinzu. Heute stößt die Cloud an eine physische „Speichergrenze“. Da KI-Modelle immer größer werden und die Echtzeit-Datenverarbeitung zum Rückgrat unseres digitalen Lebens wird, hat die vielfältige Hardware in einem Rechenzentrum Schwierigkeiten, effizient zusammenzuarbeiten. Die Technologie, die entwickelt wurde, um dieses Problem zu lösen und eine grenzenlose Cloud zu ermöglichen, in der jeder Chip auf einen riesigen, einheitlichen Speicherpool zugreifen kann, heißt Compute Express Link (CXL). Bis zu den jüngsten CXL-Forschungsergebnissen der Systems Research Group an der Technischen Universität München (TUM) verhinderte eine erhebliche architektonische Sprachbarriere, dieses Ziel zu erreichen.
Die heterogene digitale Sprachbarriere
Moderne Cloud-Infrastrukturen bestehen aus einem Flickenteppich verschiedener Chiparchitekturen, und jeder Chip verfügt über eigene interne Regeln, wie er Speicher liest, schreibt und synchronisiert. Versucht man, diese heterogenen Chips mit einem gemeinsamen CXL-Speicherpool zu verbinden, verstehen sie sich gegenseitig nicht, was zu einem inkohärenten Zustand führt. Dies verursacht eine stille Datenkorruption, also Bugs, die dazu führen, dass ein Programm unbemerkt falsche Ergebnisse liefert. Infolgedessen schätzen Cloud-Anbieter, dass sie etwa 25 % ihres gesamten Speichers verschwenden, da dieser auf einem einzelnen Server gebunden ist. Somit kann er nicht sicher mit einem anderen Chip geteilt werden, obwohl er ihn benötigt.
Ein universeller Übersetzer für Hardware
Die neueste CXL-Forschung der Systems Research Group an der TUM School of Computation, Information and Technology markiert einen entscheidenden Fortschritt: Die Forschenden haben ein automatisiertes System zur Generierung von CXL-Brücken entwickelt, die als Hochgeschwindigkeits-Grenzübergänge zwischen einem Chip und dem globalen Cloud-Speicher fungieren. Anstatt diese Brücken jahrelang in einem fehleranfälligen Prozess von Hand zu programmieren, können Anbieter nun eine einfache deklarative Beschreibung verwenden und damit automatisch einen verifizierten, hardware-fertigen Übersetzer generieren.
Diese Brücken bringen die Vielfältigkeit der Cloud durch zwei goldene Regeln in Einklang. Zum einen nutzen sie die Delegation: Kann ein Chip Daten lokal nicht finden, fragt die Brücke in seinem Namen das globale CXL-Netzwerk ab. Zum anderen sorgen sie für Synchronisation, indem sie als vorübergehende „Pause-Taste“ fungieren, also die Atomizität gewährleisten. Das Beispiel eines gemeinsam genutzten Dokuments veranschaulicht dies: Wenn zwei Personen versuchen, das Dokument gleichzeitig zu aktualisieren, geraten die Daten durcheinander. Die Brücke verhindert dies, indem sie die Anfrage eines Chips für den Bruchteil einer Sekunde zurückhält, jeden anderen Chip im System kontaktiert und mitteilt: „Wir aktualisieren dies gerade“, und den Chip erst fortfahren lässt, wenn alle anderen Chips die Änderung bestätigt haben. Diese „Warten-und-Überprüfen“-Regel stellt sicher, dass jeder Chip in der Cloud stets genau dieselbe Version der Wahrheit vor sich hat.
Mathematischer Sicherheitsbeweis
Bisher war es unmöglich zu verifizieren, ob diese Brücken zu 100 % fehlerfrei sind. Der Grund ist, dass die Überprüfung jeder potenziellen Interaktion zwischen verschiedenen Chips mehr Arbeitsspeicher erfordern würde, als Cloud-Server besitzen. Die Forschenden der TUM leisteten Pionierarbeit bei einer Technik namens Compositional Verification. Durch die Isolierung jedes Chip-Clusters und die Verwendung eines mathematischen Ersatzmodells für den Rest des Netzwerks reduzierten sie den Speicherbedarf, der für die Verifizierung erforderlich ist, um mehr als 98 %. Dadurch können Hardware-Designteams nun innerhalb von Minuten nachweisen, dass ihre Systeme sicher und frei von Deadlocks sind.
Die Zukunft von KI und Rechenzentren
Die Auswirkungen dieser Übersetzungsebene auf die Leistung sind kaum wahrnehmbar und verursachen im Vergleich zu manuell optimierten, kostspieligen Designs lediglich einen Mehraufwand von 2 %. Durch den Abbau der Barrieren zwischen verschiedenen Chips ermöglicht diese Forschung eine nachhaltigere Cloud, in der Anbieter ungenutzten Speicher zur Kostensenkung verwenden können. Außerdem ermöglicht sie die Skalierung von KI-Modellen über gemeinsam genutzte Speicherpools hinweg ohne manuelle Verwaltung – während mathematische Beweise das Ausprobieren ersetzen, um sicherzustellen, dass die Cloud sicher und fehlerfrei bleibt.
Die Cloud ist somit nicht mehr nur eine Ansammlung isolierter Boxen, sondern entwickelt sich zu einem einzigen, riesigen und perfekt synchronisierten „Gehirn“. Sowohl die digitale Sprachbarriere als auch die Speichergrenze, die zuvor die Rechenleistung begrenzten, sind nun überwunden.
Best Paper Award bei der ASPLOS 2026
Die Forschung stützt sich auf die folgenden Arbeiten der Systems Research Group der TUM:
- „vCXLGen: Automated Synthesis and Verification of CXL Bridges for Heterogeneous Architectures” von Anatole Lefort, Julian Pritzi, Nicolò Carpentieri, David Schall, Simon Dittrich, Soham Chakraborty, Nicolai Oswald und Pramod Bhatotia
- „C³: CXL Coherence Controllers for Heterogeneous Architectures” von Anatole Lefort, David Schall, Nicolò Carpentieri, Julian Pritzi, Soham Chakraborty, Nicolai Oswald und Pramod Bhatotia
Auf der ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS) 2026 wurde die erste Arbeit mit einem der renommierten „Best Paper Awards“ ausgezeichnet.
Die Forschung wird teilweise durch das Schwerpunktprogramm zu disruptiven Speichertechnologien (SPP 2377) der Deutschen Forschungsgemeinschaft finanziert und erfolgt in Zusammenarbeit mit der Technischen Universität Delft und der Forschungsabteilung des Unternehmens NVIDIA.