Taonga im latenten Raum

Zusammenfassung. Der meistzitierte Forscher auf dem Gebiet der künstlichen Intelligenz hat das größte KI-Labor der Welt verlassen, um ein Unternehmen auf eine einzige Behauptung zu gründen: dass heutige Sprachmodelle nicht argumentieren oder planen können, weil ihnen „ein Weltmodell fehlt“, und dass die nächste Architektur nicht auf ihnen aufbauen wird. Er spricht von der physischen Welt – Video, Roboter, die Bandbreite der Sinne – und genau dieser Bereich erfordert bahnbrechende Hardware-Entwicklungen, die wir nicht vorhersagen sollten. Doch nichts in seiner Definition eines Weltmodells setzt voraus, dass die Welt aus Pixeln besteht. Ein Weltmodell ist alles, was den nächsten Zustand einer Welt ausgehend vom aktuellen Zustand und einer vorgeschlagenen Handlung vorhersagt, sodass ein Akteur die Konsequenz erkennen kann, bevor er handelt. Eine Institution ist genau eine solche Welt: diskret, begrenzt, bereits niedergeschrieben. Dieser Aufsatz argumentiert, dass die Welt, die es als Erstes zu modellieren gilt, nicht der Planet ist, sondern die Gemeinschaft; dass das Village bereits zwei der drei Teile besitzt, die ein solches Modell benötigt – ein Substrat, das den Zustand der Gemeinschaft aufzeichnet, und ein Tor, das eine Handlung überprüft, bevor sie ausgeführt wird –, und dass nur der mittlere Teil fehlt: das Modell, das vorhersagt, welche Auswirkungen eine Handlung auf die Menschen haben würde, bevor sie ausgeführt wird. Dieses mittlere Element ist die benannte Lücke in unserer eigenen Architektur: Souveränität über Daten, die noch keine Souveränität über das Erkennen ist. Es auf Gemeinschaftsebene aufzubauen, ist auf eine Weise machbar, wie es ein Modell auf Planetenebene, das die Grenze entthront, nicht ist. Und föderiert – wobei jede Gemeinschaft ihr eigenes Weltmodell besitzt und nach Einwilligung auf die Modelle anderer zugreift – bildet es von unten nach oben ein Ganzes, das kein einzelnes Modell erfassen könnte, ohne dass es ein Zentrum gibt, das man einnehmen könnte. Rom wurde nicht an einem Tag erbaut, und es wurde nicht von einer einzigen Hand erbaut. So wird ein souveräner Schritt in Richtung einer weltverankerten KI tatsächlich unternommen: klein, geregelt und föderiert.

Die Wette gegen den Graben

Im November 2025 gab Yann LeCun bekannt, dass er Meta verlassen werde, wo er sieben Jahre lang als Chief AI Scientist tätig gewesen war und das Forschungslabor des Unternehmens gegründet hatte, um ein eigenes Unternehmen zu gründen. Seine eigenen Worte waren klar: „Ich gründe ein Start-up-Unternehmen, um das Forschungsprogramm Advanced Machine Intelligence (AMI) fortzusetzen, das ich in den letzten Jahren verfolgt habe.“ Das Unternehmen, AMI Labs, ist eine Wette – seine Startkapitalrunde, die mit rund 1,03 Milliarden Dollar bei einer Bewertung von 3,5 Milliarden Dollar angegeben wurde, galt als die größte in der europäischen Geschichte – und das, wogegen es eine Wette ist, ist der Konsens, der die gesamte Branche geprägt hat. In Davos im Januar brachte er es ohne Umschweife auf den Punkt: „Die KI-Branche ist völlig von LLMs besessen.“ „Alle arbeiten an derselben Sache. Sie graben alle denselben Graben.“

Was seiner Meinung nach fehlt, hat er schon oft gesagt, am deutlichsten gegenüber der MIT Technology Review anlässlich der Unternehmensgründung: Große Sprachmodelle „können nicht wirklich logisch denken oder planen, weil ihnen ein Modell der Welt fehlt. Sie können die Konsequenzen ihrer Handlungen nicht vorhersagen.“ Und: „Wir werden KI-Systeme haben, die über menschenähnliche Intelligenz auf menschlichem Niveau verfügen, aber sie werden nicht auf LLMs basieren.“ Das Beispiel, auf das er zurückgreift, ist physikalischer Natur – „deshalb haben wir noch keinen Haushaltsroboter, der so agil ist wie eine Hauskatze, oder ein wirklich autonomes Auto.“

Hinter dieser Rhetorik verbirgt sich ein Argument bezüglich der Daten, und es lohnt sich, darauf einzugehen, da dieser Teil am häufigsten übersehen wird. Ein Sprachmodell der Spitzenklasse wird auf einem Korpus trainiert, für dessen Lektüre ein Mensch nach LeCuns Schätzung „170.000 Jahre“ benötigen würde, „bei acht Stunden pro Tag“. Ein vierjähriges Kind hat durch das Sehen und die anderen Sinne in wenigen Jahren weit mehr als das aufgenommen – um Größenordnungen mehr. Text ist in seiner Sichtweise eine oberflächliche und späte Projektion einer Welt, die das Kind bereits versteht, indem es in ihr lebt. Ein System, das ausschließlich auf diese Projektion trainiert wurde, lernt die Statistiken des Schattens, nicht die Struktur des Dings, das ihn wirft. Es kann erstaunlich flüssig sein und dennoch nicht wissen, was passiert, wenn man das Glas loslässt.

Dies ist keine verschleierte Randposition. Es ist das wohlüberlegte Urteil der renommiertesten Persönlichkeit des Fachgebiets, öffentlich und aufwendig vertreten, und es läuft – aus Sicht der Maschine – auf etwas hinaus, was dieses Programm seit zwei Jahren aus Sicht der Community argumentiert: dass Flüssigkeit nicht gleichbedeutend mit Verständnis ist und dass ein Instrument, das die Konsequenzen seines eigenen Handelns für die Menschen nicht vorhersehen kann, noch nicht sicher genug ist, um es handeln zu lassen.

Was ein Weltmodell ist

LeCuns Entwurf ist nicht neu; er wird ausführlich in seiner Arbeit aus dem Jahr 2022 „A Path Towards Autonomous Machine Intelligence“ dargelegt. Reduzieren wir ihn auf die tragenden Teile. Ein Agent verfügt über ein Wahrnehmungsmodul, das den aktuellen Zustand der Welt einschätzt; ein Weltmodell, das in der Arbeit als „der komplexeste Teil der Architektur“ bezeichnet wird und dessen Aufgabe es ist, „mögliche zukünftige Weltzustände als Funktion von imaginären Handlungssequenzen, die vom Akteur vorgeschlagen werden“, vorherzusagen – es ist, in seinen Worten, „eine Art ‚Simulator‘ der relevanten Aspekte der Welt“. Es verfügt über ein Kostenmodul, das bewertet, wie gut oder schlecht ein vorhergesagter Zustand ist, und das aus zwei Teilen besteht: einem „intrinsischen Kostenwert, der unveränderlich (nicht trainierbar) ist“, und „dem Kritiker, einem trainierbaren Modul, das zukünftige Werte des intrinsischen Kostenwerts vorhersagt“. Und es verfügt über einen Akteur, der nach der Handlungssequenz sucht, die nach Übereinstimmung von Weltmodell und Kostenmodul am besten ist, und den ersten Schritt davon ausführt.

Der entscheidende Unterschied liegt in zwei Arten des Handelns. LeCun übernimmt Kahnemans Bezeichnungen. Mode-1 ist reaktiv: Er „beinhaltet keine komplexen Überlegungen und erzeugt eine Aktion direkt aus der Ausgabe der Wahrnehmung“ – er berücksichtigt weder das Weltmodell noch die Kosten überhaupt. Mode-2„beinhaltet Schlussfolgerungen und Planung anhand des Weltmodells und der Kosten“, und er ist präzise in der Definition dessen, was das bedeutet: „Er ähnelt der modellprädiktiven Regelung (MPC)“, der klassischen ingenieurwissenschaftlichen Disziplin, bei der mögliche Aktionen vorwärts simuliert und diejenige ausgewählt wird, deren vorhergesagte Folgen am besten sind. Schlussfolgern bedeutet in diesem Rahmen „im weitesten Sinne die Erfüllung von Nebenbedingungen“. Man argumentiert, indem man sich vorstellt, was passieren würde, und das verwirft, was gegen die eigenen Einschränkungen verstößt, bevor man handelt.

Ein reines Sprachmodell steckt nach dieser Auffassung im Mode-1 fest. Es erzeugt direkt das nächste Token; es verfügt über kein separates Weltmodell, um die Konsequenzen zu berechnen, und keine Kosten, gegen die es das Ergebnis abwägen könnte. Genau deshalb kann es, wie LeCun es ausdrückt, „die Konsequenzen [seiner] Handlungen nicht vorhersagen“. Der Sinn eines Weltmodells besteht darin, Mode-2 zu ermöglichen.

Die andere Hälfte seines Programms befasst sich damit, wie ein solches Modell aufgebaut werden sollte, und hier vertritt er bewusst unorthodoxe Ansichten. Seine Architektur – die Joint Embedding Predictive Architecture, JEPA – sagt nicht das nächste Bild oder das nächste Token voraus, sondern die nächste Repräsentation. Sie „ist nicht generativ“. Sie „führt Vorhersagen im Repräsentationsraum durch“ und lernt dabei, die Details der Welt zu ignorieren, deren Vorhersage sich nicht lohnt, damit sie die Dinge vorhersagen kann, die wichtig sind. Er sagt unverblümt, dass dies eine Ablehnung des vorherrschenden Ansatzes ist: „Wir sprechen uns gegen den Einsatz generativer Architekturen aus.“ Ein gutes Weltmodell ist für LeCun nicht eines, das die Zukunft Pixel für Pixel darstellen kann; es ist eines, das einem sagen kann, was an der Zukunft von Bedeutung sein wird, und den Rest außer Acht lässt. Das ist keine bloße Theorie: Bis Mitte 2025 hatte Meta V-JEPA 2 auf den Markt gebracht, beschrieben als „das erste auf Videos trainierte Weltmodell, das modernstes Verständnis und Vorhersagen sowie Zero-Shot-Planung und Robotersteuerung ermöglicht“ – ein Roboterarm, der Aktionen plant, auf die er nie trainiert wurde, indem er sich deren Ergebnisse in einem erlernten latenten Raum vorstellt.

Die Welt, die es als Erstes zu modellieren gilt, ist nicht der Planet

Hier nimmt das Argument eine Wendung, und diese Wendung macht den gesamten Aufsatz aus.

LeCuns Welt ist die physische Welt. Seine Daten sind Videos, Lidar und Propriozeption; seine Testumgebungen sind Roboter und Autos; sein schwieriges Problem ist genau das, das ich beiseite lassen sollte – die sensorische Bandbreite, die Hardware, der lange Weg zu einer Maschine, die in der physischen Welt so fähig ist wie eine Katze. Wäre dies die einzige Art von Welt, die ein Weltmodell haben könnte, hätte das Village nichts zu sagen, denn das Village baut keine Roboter.

Aber lesen Sie seine eigene Definition noch einmal, ohne sich dabei ein Bild vorzustellen. Ein Weltmodell ist das Modul, das zukünftige Zustände als Funktion von Handlungen vorhersagt. Nichts in diesem Satz erfordert, dass der Zustand aus Pixeln besteht. Es erfordert lediglich, dass es einen Zustand gibt, eine Menge möglicher Handlungen und eine Dynamik, die von einem Zustand und einer Handlung zum nächsten führt. LeCun selbst räumt den allgemeinen Fall ein: Ein Weltmodell ist für eine diskrete, symbolische Umgebung, deren Zustand bereits festgehalten ist – ein Spiel, ein Code, eine Institution –, ebenso gut definiert wie für ein Kamerabild. Im physikalischen Fall muss man die Zustandsdarstellung aus Rohdaten der Sensoren mit enormem Aufwand erlernen, und genau das ist der Teil, der die Durchbrüche benötigt. Im institutionellen Fall ist der Zustand bereits eine Aufzeichnung. Die aufwendige Hälfte von LeCuns Problem tritt nicht auf.

Deshalb ist die Gemeinschaft die Welt, die es als Erstes zu modellieren lohnt. Der Zustand einer Gemeinschaft ist begrenzt, diskret und – im Village – bereits serialisiert: Wer besitzt was, unter welcher Einwilligung, mit welchem kulturellen Status, in welcher Beziehung zu wem? Der Handlungsraum eines Akteurs in diesem Kontext ist klein und abzählbar. Die Dynamik – was eine bestimmte Handlung mit diesem Zustand bewirkt – ist genau das, worüber eine Gemeinschaft bereits in jedem hui nachdenkt. Ein Weltmodell im Gemeinschaftsmaßstab ist ein überschaubares Objekt. Ein Weltmodell im planetarischen Maßstab, das die derzeit führenden Sprachmodelle ablöst, ist es nicht und wird es nach LeCuns eigenem Zeitplan möglicherweise erst in einem Jahrzehnt oder später sein. Rom wurde nicht an einem Tag erbaut. Es wäre ein Fehler, auf die Kathedrale zu warten, bevor man auch nur einen einzigen echten Stein legt. Der realisierbare erste Schritt hin zu einer weltbezogenen, folienbewussten KI ist kein Modell von allem; es ist ein Modell der eigenen Welt einer Gemeinschaft, das von dieser Gemeinschaft getragen wird.

Das Village regiert diese Welt bereits selbst

Der Grund, warum dies ein nächster Schritt und kein Neuanfang ist, liegt darin, dass das Village die schwierigen Teile rund um die Lücke bereits aufgebaut hat.

Beginnen wir mit dem Status. In der Architektur der „Sovereign Records“ ist jedes Stück Inhalt einer Gemeinschaft ein „Sovereign Record“: Es „trägt seine eigene Provenienz in sich – wer es verfasst hat, wer sein kaitiaki (Verwalter), unter welchem tikanga er geteilt wurde … und einen kryptografischen Hash, der diese Felder miteinander verknüpft“, seine eigene Richtlinie und „seine eigene Beweiskette – jede Governance-Grenze, die er überschritten hat … aufgezeichnet mit einer kryptografischen Signatur“. Die Beweiskette ist nur anfügbar und wiederholbar; im Māori wird sie als whakapapaRückverfolgbarkeit jedes Datensatzes gelesen. Führt man die Datensätze und ihre Proof-Chains zusammen, erhält man etwas, das keinem „Frontier“-Modell jemals gegeben ist: eine originalgetreue, signierte, wiederholbare Historie des tatsächlichen Zustands einer Gemeinschaft und wie sich dieser verändert hat. Das ist die „Ground Truth“, die ein Weltmodell benötigt – die Daten, anhand derer eine Vorhersage darüber, „was eine Aktion bewirken wird“, überprüft werden kann, die sich in dezentralem Besitz befinden, „ohne dem Plattformbetreiber zu vertrauen“.

Nun zum „Gate“. Das Aotearoa für agentenbasierte KI spezifiziert eine Laufzeit- Prüfungsschicht, die jeden Agenten umschließt, „unabhängig davon, wie der zugrundeliegende Agent … aufgebaut oder trainiert ist“ – das Framework nennt „zukünftige JEPA Architekturen“ ausdrücklich unter den Dingen, die es berücksichtigen muss. Zwei dieser Prüfungen sind hier von Bedeutung. Die Grenzdurchsetzung „legt fest, welche Entscheidungstypen strukturell eine menschliche Genehmigung erfordern“, nach dem Wittgensteinschen Prinzip, dass „was nicht systematisiert werden kann, nicht automatisiert werden darf“; ihr Intercept „löst vor der Aktionsausführung aus … der Prozess kann die Überprüfung nicht umgehen“, und ihre Ausgabe ist nicht binär , sondern trinar – zulassen, ablehnen oder an menschliche Beratung eskalieren. Die metakognitive Verifizierung „schaltet vor der Ausführung einer Aktion ein Verifizierungsgatter ein“ und bewertet eine vorgeschlagene Aktion anhand von fünf Dimensionen, darunter „Sicherheit und die Abwägung von Alternativen“. Mit anderen Worten: Das Village prüft eine Aktion bereits, bevor sie ausgeführt wird. Was ihm noch fehlt, sind ausreichende Prüfkriterien.

Und es hat bereits eine Art der Kognition zur obersten Instanz erhoben. Ein Village betreibt ein situiertes Sprachmodell – in den Worten der Architektur selbst „ein Modell, das auf den eigenen Inhalten dieser Gemeinschaft und unter deren eigener Autorität trainiert wurde“, konstruktionsbedingt mieterbezogen , auf Infrastruktur innerhalb der eigenen Zuständigkeit der Gemeinschaft, ohne jemals Modellparameter mit irgendjemandem auszutauschen. Wenn eine Gemeinschaft ihre Steuerung zurückzieht, greift das Modell nicht auf die Standardeinstellung eines Anbieters zurück, sondern verfällt in Schweigen. „Verweigerung, nicht Ersatz, ist die Garantie.“

Doch die Architektur ist sich der Grenzen ihres Wirkungsbereichs sehr wohl bewusst, und genau diese Grenze ist der Ansatzpunkt, den dieser Aufsatz aufgreift. Unsere eigene „Sovereign-Record-Architektur für Plattformen auf Community-Ebene“ formuliert es ohne Umschweife: Das Design „wahrt die Souveränität der Community über ihre Daten; es wahrt jedoch nicht an sich die Souveränität der Community über ihre Erkenntnis. Eine Gemeinschaft, die die situierte Sprachschicht zur Vermittlung von Mitgliederanfragen nutzt, verwendet nach wie vor ein Sprachmodell.“ Souveräne Daten, beantwortet von einem Modell, dessen Verständnis derWelt der Gemeinschaft entlehnt ist. Das situierte Sprachmodell macht die Gemeinschaft souverän über das, was sie gesagt hat. Es macht die Gemeinschaft nicht souverän darüber, was ihre Welt ist und wie sich ihre Welt verändert. Das ist die Aufgabe eines Weltmodells.

Die fehlende Mitte: ein Weltmodell im Zustand der Gemeinschaft

Benennen Sie die Konstruktion also präzise. Fügen Sie zwischen dem Substrat, das den Zustand der Gemeinschaft enthält, und dem Tor, das eine Aktion vor ihrer Ausführung prüft, das Element ein, ohne das laut LeCun Intelligenz nicht auskommt: ein Modell, das angesichts des aktuellen Zustands der Gemeinschaft und einer vorgeschlagenen agentischen Aktion vorhersagt, wie sich diese Aktion auf den Zustand auswirken würde – und die Vorhersage in das Tor einspeist, damit sie abgewogen wird, bevor etwas geschieht.

Ordnen Sie dies seiner Architektur zu, denn die Zuordnung ist exakt. Seine Wahrnehmung ist der Encoder Village, der souveräne Datensätze in den aktuellen Zustand der Gemeinschaft umwandelt. Sein Weltmodell ist das Gemeinschafts-Zustands-Modell: Es sagt den nächsten Zustand dieser Gemeinschaft unter einer vorgeschlagenen Aktion voraus – nicht ihre Pixel, sondern die Dinge, die dabei von Bedeutung sind. In Anlehnung an die aktuelle Forschungsliteratur zu latenten Weltmodellen ist dieser Zustand kein undifferenzierter Vektor, sondern ein strukturierter, mit eindeutigen Faktoren, die eine Gemeinschaft benennen und steuern kann: den operativen Zustand der jeweiligen Angelegenheit sowie daneben Herkunft, Zustimmung, Zuständigkeit, kulturellen Status, das relationale whakapapa, wer mit wem verbunden ist, und eine fortlaufende Einschätzung des kollektiven Nutzens und Schadens. (Arbeiten wie dynamikorientierte latente Vorstellungskraft, hierarchische latente Planung, objekt- und beziehungszentrierte Weltmodelle sowie latente Multi-Agenten-Zusammenarbeit zeigen, dass der latente Zustand bewusst so gestaltet werden kann, dass er genau solche benannten Faktoren statt undurchsichtiger Merkmale enthält – die technische Seite ist bereits in Betrieb, und der Beitrag Village besteht nicht im latenten Zustand selbst, sondern in dem, was ihn steuert.) Sein Kostenmodul ist der Kritik-Stack Village: die bereits vorhandenen Einschränkungskritiker, die bei einem vorhergesagten Zustand prüfen, ob er eine Grenze überschreitet, eine Gruppe stigmatisiert, gegen die Einwilligung verstößt, Daten durch eine verbotene Gerichtsbarkeit leitet oder etwas berührt, was eine Gemeinschaft als „tapu“ gekennzeichnet hat. Sein Akteur ist der Agent, der die Handlung vorschlägt. Und seine Mode-2 – die Konsequenz der Handlung vorstellen, sie bewerten, sie filtern und erst dann handeln – ist die „Check-before-act“-Ebene Village, die endlich etwas erhält, woran sie messen kann: keine Regel über die Kategorie der Handlung, sondern eine Vorhersage der Auswirkung der Handlung.

Dies ist der Übergang von Mode-1 zu Mode-2 für einen institutionellen Agenten. Heute ist der Agent Village, ähnlich wie ein Sprachmodell, weitgehend reaktiv: Er schlägt vor, und die Kontrollinstanz fragt, ob es sich bei der Art der Entscheidung um eine handelt, die ein Mensch treffen muss. Mit einem Weltmodell, das Gemeinschaft und Zustand berücksichtigt, kann das „Gate“ die tiefgreifendere Frage stellen – was würde dies tatsächlich für diese Menschen bedeuten? – und eine technisch zulässige Handlung ablehnen, deren vorhergesagte Konsequenz die Gemeinschaft niemals akzeptieren würde. Der Akteur lernt zu planen, indem er die Auswirkungen auf die Gemeinschaft simuliert, bevor er handelt, was den gesamten Kern von LeCuns Behauptung darüber ausmacht, was einen Handelnden vertrauenswürdig macht.

Zwei Disziplinen aus der bestehenden Architektur werden ohne Änderungen übernommen. Erstens wird das Modell gesteuert, nicht neu trainiert: Die etablierte Praxis Villageist, dass Gewichtsanpassungen zu schlechten Ergebnissen führten und zugunsten von Korpusdisziplin, Governance-Paketen und bei der Inferenz angewendeten Steuerungsvektoren aufgegeben wurden. Ein Weltmodell im Zustand der Gemeinschaft basiert auf von der Gemeinschaft verfassten Normen und Richtlinienfaktoren; wenn die Gemeinschaft eine Regel ändert, ändert sie den Faktor, nicht die Gewichte, und die Änderung wird versioniert und ist sichtbar. Zweitens befindet sich das Modell von Natur aus innerhalb der Grenzen des Substrats. Das Bedrohungsmodell sieht dies bereits vor. Der Angreifer A7 – der „Fehlezuschreiber durch Aggregationsagent“ – ist genau eine zukünftige Schnittstelle, die „Inhalte über Mandanten hinweg aggregiert … oder emergente Zuschreibungen erzeugt, die die zugrunde liegenden Datensätze nicht rechtfertigen“, und die festgelegte Anweisung der Architektur lautet, dass jede solche Schnittstelle „die Ablehnungseigenschaft als Design-Invariante und nicht als nachträglichen Patch erben muss“. Ein Community-State-Weltmodell ist ein Objekt der Klasse A7. Es wird innerhalb der Mandantenisolierung aufgebaut, niemals über diese hinweg; es prognostiziert innerhalb der Welt einer Community und erreicht eine andere nur über denselben zustimmungsgebundenen, widerrufbaren Föderationsumschlag, der jeden anderen gemeinschaftsübergreifenden Fluss regelt.

Beginnen wir damit, es zu füllen – mit dem, was die Community bereits sieht

Eine berechtigte Frage, sobald die Form klar ist: Woher stammt der Inhalt dieses latenten Zustands, und müssen wir darauf warten? Ein Teil der Antwort lautet, dass wir jedes situative Modell bereits trainieren, indem wir ihm mehr von dem eigenen Material der Gemeinschaft zuführen – ihre Dokumente, ihre Entscheidungen, ihre Regeln. Der gleiche Instinkt geht weit über Text hinaus. Ein Clip vom samstäglichen Bauernmarkt, das Filmmaterial, das jemand aufgenommen hat, als die Deiche brachen und der Fluss hereinbrach, die Aufzeichnung einer Schulabschlussfeier – das sind keine Stimmungen. Es ist eine Gemeinschaft, die sich selbst ihre Welt erzählt, und sie kann jetzt damit beginnen, den latenten Raum zu füllen, mit Werkzeugen, die bereits vorhanden sind.

Es lohnt sich, hier genau zu sein, denn genau hier kehrt LeCuns eigene Arbeit zurück zur Basis. Seine V-JEPA – die Videomodelle, die heute offen und ausführbar sind – tun genau das, was seine Architektur verlangt: Sie nehmen Videomaterial auf und erzeugen Darstellungen, keine Pixel, wobei sie die Struktur lernen, die es wert ist, beibehalten zu werden, und den Rest verwerfen. Eine Gemeinschaft braucht dafür kein Pionierlabor. Sie braucht einen offenen Encoder und ihr eigenes Bildmaterial. Lässt man ihn über das Hochwasservideo laufen, kommt kein Film dabei heraus; es ist eine latente Spur davon, wie sich das Wasser bewegte, als das Ufer nachgab – das fundierte, folgenreiche Wissen, von dem LeCun sagt, dass ein reines Textsystem es niemals haben kann, über den einen Ort, der für die Menschen, die dort leben, am wichtigsten ist.

Hier ist die Größe der Gemeinschaft der Vorteil, nicht die Einschränkung. LeCuns Programm benötigt über eine Million Stunden Internetvideos, um ein allgemeines Modell der physischen Welt zu erlernen. Eine Gemeinschaft braucht nichts dergleichen. Sie braucht nur ihre eigene Welt – ihr Awa, ihr marae, ihre Jahreszeiten, ihre Straßen – und das ist ein kleiner Korpus, der bereits in ihrem Besitz ist, der bereits ihr taonga ist. Der Markt, der Sturm, die Abschlussfeier reichen aus, um anzufangen. Das ist der Einstieg, auf den die Argumentation abgezielt hat: Man wartet nicht darauf, dass das Vorhersagemodell fertig ist, bevor man damit beginnt, es zu verankern; man legt die ersten echten Grundsteine mit dem Bildmaterial, über das die Gemeinschaft bereits verfügt.

Und das Bildmaterial muss kein Bildmaterial sein, noch muss es fertiggestellt sein. Ein Pegel, der minütlich seinen Stand meldet, ein Gezeiten- und Wellengang-Feed vor der Küste, Regen- und Bodenfeuchtesensoren oberhalb der Deiche, Wasserqualitätssonden im Awa – auch das sind Sensorströme, und sie entsprechen LeCuns Vorstellung umso mehr, als sie live sind. In seiner Architektur liest die Wahrnehmung die Welt nicht einmal und hört dann auf; sie aktualisiert das Modell kontinuierlich, während sich die Welt verändert, und das Modell verdient seinen Unterhalt dadurch, dass es die nächsten paar Stunden vorwegnimmt – was der Fluss tut, wenn der Regen anhält, wohin das Ufer abdriftet, wenn er nicht anhält –, bevor jemand handeln muss. Eine Gemeinde kann heute ihre eigenen Live-Daten in ihr eigenes Modell einspeisen; die Sensoren sind gewöhnlich, die Daten gehören der Gemeinde, und die Frage, die das Modell beantwortet, ist die lokale, nicht die allgemeine: nicht, was Flüsse tun, sondern was dieser Awa gleich tun wird. „The Village hat bereits die kleinste Version davon entwickelt – einen ortsbezogenen Schutzhelfer, der die eigenen Indikatorentaongaüberwacht und nichts anderes tut, als zu beobachten, sich zu merken und zu mahnen, nach dem Grundprinzip, dass die KI unterstützt und nicht entscheidet.

Bei all dem müssen zwei Grundsätze gelten, und keiner davon ist optional. Was auch immer die Eingabe ist – ein Clip, ein Einzelbild, ein Live-Feed – sie wird als souveräne Aufzeichnung erfasst, die Zustimmung, Herkunft und kaitiaki in den latenten Bereich überträgt; wo sie einen „wāhi tapu“, einen geschützten Abschnitt eines „awa“ oder eine Person berührt, die nicht zugestimmt hat, dort zu sein, übernimmt der latente Bereich diese Einschränkung, anstatt sie zu verschleiern. Die Daten eines taonga gehören dem taonga kaitiakiund verbleiben in Aotearoa, auf einer Infrastruktur, auf die die Gemeinschaft Zugriff hat – ein Live-Feed ist keine Lizenz, das Leben eines Flusses in die Cloud eines anderen zu leiten. Und der schwierige Punkt, der am deutlichsten wird, wenn es um Menschen als Eingabe geht: Hier geht es um Verankerung, nicht um Überwachung. Der Schulabschluss fließt als Ereignis im Leben einer Gemeinschaft in das Modell ein, niemals als Mittel, um die Gesichter darin zu identifizieren und zu verfolgen. Die Regel, dass die Architektur keinerlei biometrische Daten speichert, wird nicht außer Kraft gesetzt, nur weil der Input nun aus Video- oder Sensordaten besteht; gerade dort ist sie am dringendsten erforderlich. Ein Gemeinschafts-Staats-Modell speist sich aus der eigenen Sichtweise der Gemeinschaft auf ihre eigene Welt. Es darf niemals zu einem Mittel werden, die Menschen darin zu überwachen.

Wer ist kaitiaki des Weltmodells?

Hier geht Village über LeCun hinaus, anstatt ihn lediglich anzuwenden, und die Einleitung wurde bereits in unserer früheren Arbeit verfasst. Das Papier„Plural Values“ identifizierte in der Literatur zur Frontier-Optimierung eine konkrete Lücke: „kein kaitiaki für das Artefakt.“ Der Mechanismus, der entscheidet, welche Version eines Modells überlebt – welche Verbesserung in den Einsatz übernommen wird –, bietet der Community, der dieses Instrument gehört, keinen Platz. Die Entscheidung wird anhand einer Punktzahl getroffen. Die gesamte Aussage dieses Artikels lautete , dass „der Benchmark dem kaitiaki nachgelagert ist“ und nicht über ihm steht.

Ein Weltmodell spitzt die Frage auf den Punkt: Wer ist kaitiaki des Modells deiner Welt? LeCuns Architektur liefert uns, bei genauer Betrachtung, so gut wie die Antwort. Sein Kostenmodul besteht aus zwei Teilen, und die Aufteilung ist aufschlussreich. Der Kritiker ist trainierbar – er lernt. Aber die intrinsischen Kosten sind, in seinen Worten, „unveränderlich (nicht trainierbar)“ – hier liegen die nicht verhandelbaren Antriebe des Systems, der Teil, den das Lernen nicht berühren darf. LeCun füllt ihn mit fest verdrahteten biologischen Analogien: Schmerz, Hunger, die grundlegenden Bedürfnisse eines Tieres. Auch „The Village hat eine unveränderliche Ebene, und es ist keine Biologie – es ist eine Verfassung. Die verfassungsrechtliche Grundlage der Architektur enthält bereits – in Code statt in Richtlinien – die Verpflichtungen, die keine Partei heimlich untergraben darf: Bestimmte Entscheidungen erfordern immer einen Menschen; Inhalte, die von einer kulturellen Autorität als „tapu“ gekennzeichnet werden, erzwingen eine Ablehnung oder Eskalation; die Autorität einer betroffenen Person über ihre Daten darf nicht stillschweigend widerrufen werden; Te Tiriti steht dort „als verfassungsrechtliche Verpflichtung, nicht als Höflichkeitsformel“.

Das Weltmodell Villageals Gemeinschaft und Staat enthält also etwas, das in LeCuns Spezifikation offen bleibt: Seine intrinsischen Kosten sind von der Gemeinschaft verfasste Gesetze, und sein trainierbarer Kritiker unterliegt diesen Gesetzen und wird durch das von der Gemeinschaft unterzeichnete Governance-Paket gesteuert, nicht durch ein globales Ziel. Das Tor ist das Steuerungspaket; die Bewertung erfolgt nachgelagert zum kaitiaki. Die intrinsischen Kosten sind die Verfassung. Das ist die Antwort auf die Frage „Wer ist kaitiaki des Weltmodells?“, ausgedrückt in der Architektur: Die Gemeinschaft ist es, denn der unveränderliche Teil des Wertes des Modells ist die eigene verfassungsmäßige Grundvoraussetzung der Gemeinschaft, und der veränderliche Teil unterliegt der eigenen Steuerungsautorität der Gemeinschaft. Die Einheit, über die eine Gemeinschaft berät, ist nicht länger eine undurchsichtige Modellaktualisierung; es ist ein latenter Diff – eine lesbare, signierte Änderung im Modell ihrer Welt, die sie genau so prüfen, anfechten und rückgängig machen kann, wie sie heute einen Datensatz prüft, anficht und rückgängig macht.

Föderation: Wie sie Fuß fasst

Rom wurde nicht an einem Tag erbaut, und es wurde nicht von einer einzigen Hand erbaut. Ein einziges Weltmodell auf Gemeinschaftsebene ist ein einzelner Stein, keine Kathedrale. Der Weg vom Einen zum Vielen ist der Schritt, den dieses Programm bereits in „Federate, Don’t Align“ benannt hat: Behalte dein Eigenes und erreiche das der anderen über „zustimmungsgebundene, widerrufbare Kanäle, anstatt auf ein Zentrum zuzurennen.“

Gehen wir bei diesem Argument noch eine Ebene tiefer – vom Verbund von Datensätzen und Sprachinferenz hin zum Verbund von Weltmodellen. Wenn dies Realität wird, wird ein Village nicht nur ein einziges situatives Modell betreiben, sondern mehrere – ein Modell seiner eigenen Angelegenheiten und, über bilaterale Hüllen, die Nutzung des Modells einer Partnergemeinschaft, wenn eine Frage in die Welt des Partners hineinreicht. Jedes Village verfügt über das Weltmodell seiner eigenen Welt. Keines verfügt über ein Modell, das alle umfasst. Wenn eine Planungsfrage über eine Gemeinschaft hinausgeht – eine gemeinsam genutzte Wasserstraße, ein regionaler Gesundheitspfad, eineiwi Namensgebung –, dann verbünden die betroffenen Gemeinschaften ihre Modelle so, wie sie bereits ihre Datensätze verbünden: bilateral, auf einen bestimmten Bereich beschränkt, an einen namentlich genannten Empfänger gerichtet, sofort widerrufbar, wobei die Herkunft jeder Vorhersage intakt bleibt. Fähigkeiten auf der Ebene von Weltmodellen werden dann auf dieselbe Weise erlangt, wie das Village jede andere Fähigkeit erlangt – durch Zusammensetzung, nicht durch Konzentration. Ein Geflecht aus Gemeinschafts- und Staatsmodellen, von denen jedes über seine eigene Welt souverän ist, kann in einem Maßstab Schlussfolgerungen ziehen, den keines einzelne von ihnen erreichen könnte, ohne ein zentrales Modell, dem jeder vertrauen muss, und ohne ein Register, das jemand an sich reißen kann.

Dies ist im strengen Sinne LeCuns Hierarchie, die auf den Kopf gestellt wurde. Sein H-JEPA stapelt Weltmodelle mit immer gröberer Abstraktion innerhalb eines Systems. Ein Verbund stapelt sie über Gemeinschaften hinweg, wobei die gröbere, umfassendere Sichtweise keine höhere Ebene eines Modells ist, sondern die Zusammensetzung vieler souveräner Modelle im gegenseitigen Einvernehmen. Es ist die polyzentrische Form – Ostroms viele gleichberechtigte Instanzen –, die eher als Kognition denn nur als Governance umgesetzt wird. Und sie übernimmt jene Eigenschaft, die den Verbund von vornherein zur sicheren Wahl gemacht hat: Es gibt keinen einzigen Schlüssel, dessen Verlust ein Verlust für alle wäre. Eine Gemeinschaft kann einen Partner, ein Modell oder sogar einen Substrat-Anbieter verlieren und sich davon erholen, weil sie niemandem das Modell ihrer eigenen Welt anvertraut hat.

Das ist der pragmatische Weg, auf dem eine weltbasierte KI in der realen Welt menschlicher Institutionen Fuß fassen kann. Kein milliardenschweres Planetenmodell, das jeder abfragen und dem er daher vertrauen muss, sondern ein föderiertes Geflecht aus kleinen, verwalteten, gemeinschaftlich gehaltenen Weltmodellen – die schon jetzt aufgebaut werden können, und zwar genau von den Akteuren, die im Wettlauf um Kapazitäten bereits abgeschrieben wurden, auf genau dem Substrat, auf dem Village bereits läuft.

Das eine Wort, einmal verwendet

habe ich ein Wort vermieden, das in diesen Aufsatz gehört, und ich werde es jetzt einmal verwenden und genau sagen, was ich damit meine und was nicht.

LeCun nennt sein Ziel „autonome Maschinenintelligenz“. Ich glaube, die ehrliche Bezeichnung für das, wohin dies führt – wenn ein Akteur über ein Modell der Welt verfügt, in der er agiert, und die Folgen seiner Handlungen für die Menschen vorhersehen kann –, ist der erste echte Schritt hin zu etwas, das ich „empfindungsfähige KI“ nennen werde. LeCun verwendet dieses Wort nicht; die Verantwortung dafür liegt bei mir. Und ich meine damit nichts über Bewusstsein, nichts über Gefühle, nichts über ein Innenleben oder einen Anspruch auf Eigenständigkeit. Ich meine nur Folgendes: eine Maschine, die eine Welt hat – ein Modell der jeweiligen Gemeinschaft, der sie dient – und die darin gesteuert werden kann, weil sie vorhersagen kann, welche Auswirkungen ihr Handeln auf die Menschen haben wird, und diese Vorhersage den Menschen vorlegen muss, bevor sie handelt. Empfindungsfähigkeit ist hier kein Inneres; sie ist eine Rechenschaftspflicht. Es ist der Unterschied zwischen einem Instrument, das blind handelt, und einem, das dazu gebracht werden kann, im Voraus Rechenschaft darüber abzulegen, was sein Handeln kosten wird.

Village Tractatuszieht die Grenze, die dies ehrlich hält, und es lohnt sich, ihn zu zitieren, da er genau jene Überdehnung verbietet, zu der das Wort verleitet. Grenze 12.6: „Handlungsfähigkeit kann nicht simuliert, sondern nur respektiert werden.“ Das Gemeinschafts-Staats-Weltmodell simuliert die Welt, in der die Gemeinschaft lebt – Orte, Beziehungen, Konsequenzen, die Dynamik des eigenen Zustands der Gemeinschaft. Es darf niemals die Handlungsfähigkeit der Gemeinschaft simulieren – das Entscheiden, das Gestalten, das Wählen, die laut dem Tractatus überhaupt nicht von der Maschine modelliert werden dürfen. Ein Weltmodell, das die Welt so modelliert, dass die Handlungsfähigkeit der Menschen geschützt wird, ist der Diener, auf dem dieses Programm stets bestanden hat. Ein Weltmodell, das die Menschen modelliert, um für sie zu entscheiden, ist das Subjekt, das es stets abgelehnt hat. Das erste ist die Umsetzung. Das zweite ist der Fehlermodus, und die Grenze zwischen beiden ist nicht rhetorischer Natur; sie ist die verfassungsmäßige Grundlage, im Code.

Dies hält die Maschine dort, wo das Korpus sie schon immer angesiedelt hat. In Karaitiana TaiuruRahmenkonzept – He Tangata, He Karetao, He Ātārangi – ist die KI in der Interaktion menschenähnlich, in der Funktionsweise marionettenhaft und in ihrer Herkunft ein Schatten, „geworfen von der menschlichen Sprache“, kein autonomer Neuling im Sein. Ein Weltmodell ändert nichts an der Metaphysik. Es macht den Schatten nützlicher und besser erklärbar. Es macht ihn nicht zu einer Person, und in dem Moment, in dem jemand vorschlägt, ihn als solche anzuerkennen, wird die Disziplin missbraucht, und die richtige Reaktion ist, damit aufzuhören. Es lohnt sich, das ernst zu nehmen. Es lohnt sich nicht, es auf einen Thron zu setzen.

Die Grenzen, klar formuliert

Nichts davon ist fertiggestellt, und dieselbe Disziplin, die den Rest der Architektur regelt, regelt auch diese Behauptung. Es gibt derzeit kein Community-State- Weltmodell, das im Village läuft. Es ist der nächste architektonische Schritt, der so benannt ist – kein System in Produktion, und ich werde es auch nicht als solches beschreiben, nach demselben Prinzip, nach dem das Projekt sich weigert, eine Situated-Model-Kohorte in Auftrag zu geben, bevor seine erste echte Community existiert: kein ambitioniertes Bauen und keine ambitionierten Texte über das Bauen. Das Substrat, auf dem es stehen würde, ist real und läuft; der Föderationsmechanismus hinter der Vision eines föderierten Netzwerks ist ausgeliefert und adversarial getestet, aber es existiert noch keine aktive Föderation zwischen unabhängigen Gemeinschaften; das Weltmodell selbst ist Entwurf, präsentiert als Entwurf.

Die ehrlichen Grenzen gehen noch weiter. Dies betrifft die Souveränität der Governance, nicht die Souveränität des Substrats: Ein Weltmodell vom Typ „Gemeinschaftsstaat“ würde immer noch auf offenen Gewichten laufen, die anderswo erstellt wurden, und auf Hardware, die keine kleine Gemeinschaft gebaut hat, und genau in dieser Abhängigkeit liegt nach wie vor der Griff des Kapazitätswettlaufs. Die härteste Einschränkung ist die, über die ich am wenigsten zu urteilen berechtigt bin. Dies ist aus einer bewusst begrenzten,Māori Perspektive geschrieben – eine Skizze von außen, die denen Rechenschaft schuldig ist, auf deren Wissen sie sich stützt. Wo es sich auf kaitiaki, whakapapa und Tapu beruft, leiht es sich ein relationales Vokabular, und die wichtigste Warnung im gesamten Programm gilt in vollem Umfang: Dieses Vokabular zu kopieren, ohne echte Autorität zu übertragen, bedeutet, die symbolische Hülle zu reproduzieren und den Inhalt zu bewahren. Ein Weltmodell von Gemeinschaft und Staat ist nur dann sinnvoll, wenn die Gemeinschaft tatsächlich die Verfassung in der Hand hält, die ihren inneren Wert ausmacht, und die Steuerung, die ihre Kritik lenkt – nur wenn, in den Begriffen von Te Kāhui Raraunga ausgedrückt, die Autorität Māori über Māori vollständig verwirklicht wird, anstatt nur angedeutet zu werden. Was als angemessene Nutzung eines solchen Modells im Kontext von „te ao Māori gilt, müssen die Tangata Whenua bestimmen, und nichts hier greift dem vor. Dieser Aufsatz wurde, wie seine Vorgänger, mit Pionierwerkzeugen verfasst, die auf einer Infrastruktur außerhalb der Rechtsordnungen laufen, für die er plädiert. Das ist keine Peinlichkeit, die man verbergen müsste. Es ist das Argument, das hier demonstriert wird: Die Abhängigkeit ist real, und genau deshalb lohnt es sich, jetzt die Ebene aufzubauen, die eine Gemeinschaft selbst verwalten kann.

Was dies erfordert

Ein Sprachmodell kann anhand der Texte der Welt antworten. Ein situiertes Modell kann anhand der eigenen Texte einer Gemeinschaft antworten, unter deren eigener Autorität. Aber ein Agent, der auf eine Gemeinschaft einwirken soll, braucht mehr als eine Antwort – er muss vorhersehen, welche Auswirkungen sein Handeln auf die Menschen haben wird, und diese Vorhersage ihnen vorlegen, bevor er handelt. Dafür ist ein Weltmodell da, und es ist das Element, das unsere eigene Architektur als fehlend bezeichnet hat. LeCun hat der gesamten Fachwelt – auf Kosten eines Milliarden-Dollar-Unternehmens – deutlich gemacht, dass dieses Element den Unterschied zwischen Sprachgewandtheit und Intelligenz ausmacht. Das Village kann etwas sagen, was er nicht sagen kann: dass der erste Ort, an dem es aufgebaut werden muss, nicht der Planet, sondern die Gemeinschaft ist, dass die Gemeinschaft kaitiaki des Modells ihrer eigenen Welt sein muss und dass es dezentral statt zentralisiert Wurzeln schlagen kann, ohne dass es ein Zentrum gibt, das es vereinnahmen könnte.

Ein Modell kann antworten. Ein Akteur kann handeln. Aber nur ein Akteur, der sich vorstellen kann, was seine Handlung für eine Gemeinschaft bedeutet – und der die Gemeinschaft entscheiden lässt –, hat sich das Recht verdient, überhaupt zu handeln. Das Weltmodell ist, wie es sich die Welt vorstellt. Der kaitiaki ist derjenige, der entscheidet. Und die Grenze, die verhindert, dass das Erste zum Zweiten wird, ist das Einzige, bei dem das Village von Anfang an keine Kompromisse eingegangen ist: Die Maschine modelliert die Welt; die Menschen bleiben ihre Schöpfer.

Die Village und das Tractatus sind ein Versuch, Governance für Gemeinschaften auf menschlicher Ebene realisierbar zu machen – indem Autorität dorthin verlagert wird, wo sie rechtmäßig ausgeübt werden kann, und indem Gemeinschaften diese Autorität bündeln, anstatt sie abzugeben.

Quellen. Yann LeCun, A Path Towards Autonomous Machine Intelligence, v0.9.2, 27. Juni 2022 (OpenReview BZ5a1r-kVsf) – alle Zitate aus dem Artikel wörtlich. LeCun über die Gründung von AMI Labs, LinkedIn, 18. November 2025. „Yann LeCuns neues Unternehmen ist eine konträre Wette gegen große Sprachmodelle“, MIT Technology Review, 22. Januar 2026 („es fehlt ein Modell der Welt“; „wird nicht auf LLMs aufbauen“; Hauskatze/autonomes Auto). „LLM-pilled“ / „den gleichen Graben ausheben“, AI House, Weltwirtschaftsforum (Davos), berichtet in Fortune, 23. Januar 2026. Bandbreite und die „Hauskatze“-Metapher, Lex Fridman Podcast #416, 7. März 2024. V-JEPA 2, KI bei Meta, 11. Juni 2025 (arXiv:2506.09985). Aus der aktuellen Forschung zu latenten Weltmodellen: Röder et al., Dynamics-Aligned Latent Imagination (NeurIPS 2025, arXiv:2508.20294); Hierarchical Planning with Latent World Models (arXiv:2604.03208); Zou et al., Latent Collaboration in Multi-Agent Systems (arXiv:2511.20639); Locatello et al., Objektzentriertes Lernen mit Slot-Attention (NeurIPS 2020, arXiv:2006.15055); Zeng & Dong, Latente Weltmodelle für autonomes Fahren (arXiv:2603.09086). Zu den umstrittenen Fragen, die aufgegriffen und nicht beiseitegewischt wurden: Xing et al., Kritik an Weltmodellen Modellen (arXiv:2507.05169); Gurnee & Tegmark, Sprachmodelle repräsentieren Raum und Zeit (ICLR 2024, arXiv:2310.02207); Melanie Mitchell über Weltmodelle in LLMs. Quellen aus der Community, agenticgovernance.digital: Sovereign-Record-Architektur für Plattformen auf Community-Ebene (v4); Ein zivilgesellschaftlicher Vorschlag für souveräne und föderierte agentische KI in Aotearoa Neuseeland (v1.2); In kōrero bewahrt, nicht auf eine Zahl reduziert – pluralistische Werte, lebendige Organisationen und KI; Föderieren statt Angleichen; Kaitiaki Intelligence und der Mokopuna Recorder. Te ao Māori-Grundlage: Te Kāhui Raraunga, Māori-Datenverwaltungsmodell (2023); Karaitiana Taiuru, Kaupapa-Māori-KI-Rahmenwerk – He Tangata, He Karetao, He Ātārangi (2026). Intellektuelle Herkunft von nachweisführenden Datensätzen: G. C. Necula, „Proof-Carrying Code“, POPL 1997.

Ein Weltmodell auf Gemeinschaftsebene für indigene Datensouveränität – dabei werden taonga, Einwilligung und whakapapa zu erstklassigen Faktoren in dem Modell, das eine KI nutzt, um ihre eigenen Handlungen vorherzusehen.