Informatik-Studierende erstellen Codebase für Video Action Model
Studium |

Interaktive Welten mit Gedächtnis
Googles neueste Version des Genie-Modells kann einfache Texteingaben in dynamische, interaktive 3D-Welten umwandeln – sogenannte Video Action Models. Im Vergleich zum Vorgängermodell unterstützt Genie 3 auch Interaktionen in Echtzeit. Die Umgebung kann sich Aktionen der Nutzerin oder des Nutzers merken und bleibt über mehrere Minuten hinweg konsistent. Diese Konsistenz gehört zu den größten Herausforderungen, vor der KI-Modelle beim Erstellen von 3D-Welten stehen. Genie 3 ist damit ein Meilenstein auf dem Weg zu „World Models“, also KI-Systemen, die virtuelle Umgebungen darstellen, verstehen und simulieren können.
Studierende der Informatik veröffentlichen Trainingscode
Googles neuestes World Model wurde mit tausenden Stunden an Gameplay-Videos trainiert, Google selbst legt für dieses Modell allerdings den Trainingscode nicht offen. Franz Srambical, Mihir Mahajan und Alfred Nguyen, Mitarbeitende der Professur für Algorithmisches Maschinelles Lernen und Erklärbare KI von Professor Stefan Bauer ist es nun gelungen, eine skalierbare Codebase für das Training von Modellen wie Genie 3 zu erstellen. Besonders bemerkenswert: Bei den drei Informatikern handelt es sich nicht etwa um Doktoranden, sondern um studentische Hilfskräfte. Die vollständige Codebase ist auf GitHub veröffentlicht und in einem Blogbeitrag beschrieben.
Tool zur Erfassung des Human Software Engineering Prozesses
Neben dem Trainingscode hat das Team um Stefan Bauer auch den gesamten Software Engineering Prozess während der Codebase-Erstellung aufgezeichnet und als Datensatz veröffentlicht. Dazu haben sie „Crowd-Code“ genutzt, ein ebenfalls von den Studierenden entwickeltes Tool zur Aufzeichnung des Arbeitsablaufes von Programmierenden. Es ermöglicht Studierenden und Forschenden, ohne jegliche KI-Kenntnisse zu einem Datensatz beizutragen, der für das Training der nächsten Generation von Sprachmodellen essenziell sein wird.
Schritt in Richtung allgemeine KI
Neben Anwendungen in den Bereichen Gaming und Bildung können Video Action Models auch für das Training von KI-Systemen zur Bewältigung verschiedener Aufgaben verwendet werden: Statt in der realen Welt lernen und handeln KI-Agenten oder KI-Roboter in einer simulierten 3D-Umgebung. Forschende können dadurch viele Herausforderungen des Trainings in der realen Welt vermeiden. Die neuesten Video World Models stellen damit einen wichtigen Schritt hin zu einer allgemeinen Künstlichen Intelligenz (Artificial General Intelligence, AGI) dar – einem KI-System, das wie Menschen in der Lage ist, in einer Vielzahl von Kontexten zu lernen und dieses Wissen in verschiedenen Situationen anzuwenden.