Modelle werden nicht automatisch besser, je mehr Daten sie erhalten – das habe ich hier bereits erwähnt. Interessant ist jedoch der Ansatz, der gefunden werden muss, um Modelle dennoch zu verbessern. Der folgende Ansatz ist einer der ersten von den ich lese.

Dr. Wolfgang Stieler schreibt in »OpenAI o3: Revolutionäres KI-Modell mit hohem Rechenaufwand und Preisschild« für heise.de

Die KI-Branche regierte darauf mit einer Strategie, die unter dem Schlagwort “test-time compute” bekannt geworden ist. Diese Strategie greift eine zentrale Schwäche großer Sprachmodelle auf: Sie berechnen immer das nächste, zum Input passende Token, dann hängen sie den Output vorne an den Prompt und wiederholen die Prozedur. Das funktioniert zwar für Texte, aber nicht für komplexe Probleme, bei denen die KI schrittweise mögliche Lösungswege ausprobiert und wenn sie in eine Sackgasse gerät, wieder neu ansetzen müsste.

Modelle wie o3 oder Gemini 2 berechnen zunächst Teillösungen, deren Qualität sie dann intern überprüfen, bevor sie mit dem nächsten Schritt weitermachen. Gibt man so einem Modell also etwa eine Programmieraufgabe, könnte es diese Aufgabe zunächst in Unterprobleme zerlegen. Dann erstellt es den Code für das erste Unterproblem und prüft, ob der überhaupt lauffähig ist. Erst dann geht es weiter. Um die bestmögliche Lösung zu finden, verfolgen die Modelle dabei zig verschiedene Lösungswege und wählen dann den besten aus. Das funktioniert natürlich nicht nur für Programmieraufgaben.