Taonga in de latente ruimte

Samenvatting. De meest geciteerde onderzoeker op het gebied van kunstmatige intelligentie heeft het grootste AI-lab ter wereld verlaten om een bedrijf te stichten op basis van één enkele bewering: dat de huidige taalmodellen niet kunnen redeneren of plannen omdat ze „geen model van de wereld hebben“, en dat de volgende architectuur niet op deze modellen zal worden gebouwd. Hij heeft het over de fysieke wereld — video, robots, de bandbreedte van de zintuigen — en dat is het deel dat doorbraken op het gebied van hardware vereist die we niet moeten doen alsof we ze kunnen voorspellen. Maar niets in zijn definitie van een wereldmodel vereist dat de wereld bestaat uit pixels. Een wereldmodel is alles wat de volgende toestand van een wereld voorspelt op basis van de huidige toestand en een voorgestelde actie, zodat een agent de gevolgen kan zien voordat hij handelt. Een instelling is precies zo’n wereld: afzonderlijk, begrensd, al vastgelegd. Dit essay stelt dat de wereld die het eerst gemodelleerd moet worden niet de planeet is, maar de gemeenschap; dat het Village al twee van de drie onderdelen bevat die zo’n model nodig heeft — een substraat dat de toestand van de gemeenschap vastlegt, en een poort die een actie controleert voordat deze wordt uitgevoerd — en alleen het middelste onderdeel mist: het model dat voorspelt wat een actie met de mensen zou doen voordat deze wordt uitgevoerd. Dat middelste onderdeel is de genoemde leemte in onze eigen architectuur: soevereiniteit over gegevens die nog geen soevereiniteit over cognitie is. Het opbouwen ervan op gemeenschapsschaal is haalbaar op een manier die een model op planetaire schaal, dat de grens ontkracht, niet is. En in een federatie — waarbij elke gemeenschap haar eigen wereldmodel heeft en met toestemming toegang krijgt tot die van anderen — vormt het, van onderaf, een geheel dat geen enkel afzonderlijk model zou kunnen omvatten, zonder een centrum dat kan worden overgenomen. Rome is niet in één dag gebouwd, en het is niet door één hand gebouwd. Zo wordt daadwerkelijk een soevereine stap gezet naar wereldgebaseerde AI: klein, bestuurd en gefedereerd.

De gok tegen de troebels

In november 2025 kondigde Yann LeCun aan dat hij Meta zou verlaten, waar hij zeven jaar lang Chief AI Scientist was geweest en het onderzoekslab had opgericht, om een bedrijf te starten. Zijn eigen woorden waren duidelijk: “Ik richt een startup op om het Advanced Machine Intelligence (AMI) voort te zetten dat ik de afgelopen jaren heb nagestreefd.” De onderneming, AMI Labs, is een gok — de startkapitaalronde, naar verluidt goed voor ongeveer 1,03 miljard dollar bij een waardering van 3,5 miljard dollar, werd omschreven als de grootste in de Europese geschiedenis — en waar deze gok tegen is gericht, is de consensus die de hele sector heeft gestructureerd. In Davos in januari verwoordde hij het zonder omwegen: „De AI-sector is volledig in de ban van LLM’s.” „Iedereen werkt aan hetzelfde. Ze zijn allemaal bezig met het graven van dezelfde greppel.”

Wat ze volgens hem over het hoofd zien, heeft hij al vele malen gezegd, en het duidelijkst tegen MIT Technology Review bij de lancering van het bedrijf: grote taalmodellen “kunnen niet echt redeneren of plannen, omdat ze geen model van de wereld hebben. Ze kunnen de gevolgen van hun acties niet voorspellen.” En: “We zullen AI-systemen krijgen met mensachtige intelligentie op menselijk niveau, maar die zullen niet op LLM’s zijn gebaseerd.” De illustratie die hij aanhaalt is fysiek — “dit is waarom we geen huishoudrobot hebben die zo behendig is als een huiskat, of een echt autonome auto.”

Achter de retoriek schuilt een argument over data, en het is de moeite waard om dit te benadrukken, omdat dit het deel is dat het vaakst over het hoofd wordt gezien. Een geavanceerd taalmodel wordt getraind op een corpus waarvan LeCun schat dat een mens er „170.000 jaar“ over zou doen om het te lezen „bij acht uur per dag“. Een vierjarig kind heeft via het gezichtsvermogen en de andere zintuigen in een handvol jaren al veel meer dan dat – ordes van grootte meer – in zich opgenomen. Tekst is, in zijn visie, een oppervlakkige en late weergave van een wereld die het kind al begrijpt door erin te leven. Een systeem dat alleen op die weergave is getraind, leert de statistieken van de schaduw, niet de structuur van het voorwerp dat die schaduw werpt. Het kan verbazingwekkend vloeiend zijn en toch niet weten wat er gebeurt als je het glas loslaat.

Dit is geen verfraaid randstandpunt. Het is het weloverwogen oordeel van de meest gelauwerde figuur in het vakgebied, publiekelijk en kostbaar verdedigd, en het komt — vanuit het perspectief van de machine — overeen met iets wat dit programma al twee jaar lang vanuit het perspectief van de gemeenschap beargumenteert: dat vloeiendheid geen begrip is, en dat een instrument dat de gevolgen van zijn eigen handelen voor de mensen niet kan voorzien, nog niet veilig is om te laten handelen.

Wat een wereldmodel is

LeCuns blauwdruk is niet nieuw; deze wordt gedetailleerd uiteengezet in zijn artikel uit 2022 getiteld A Path Towards Autonomous Machine Intelligence. Laten we het terugbrengen tot de dragende onderdelen. Een agent heeft een waarnemingsmodule die de huidige toestand van de wereld inschat; een wereldmodel, dat in het artikel „het meest complexe onderdeel van de architectuur“ wordt genoemd en dat tot taak heeft „mogelijke toekomstige wereldtoestanden te voorspellen als functie van ingebeelde actiesequenties die door de acteur worden voorgesteld“ — het is, in zijn woorden, „een soort ‘simulator’ van de relevante aspecten van [de] wereld“. Het beschikt over een kostenmodule die beoordeelt hoe goed of slecht een voorspelde toestand is, bestaande uit twee onderdelen: een „intrinsieke kost, die onveranderlijk is (niet trainbaar)“, en „de criticus, een trainbare module die toekomstige waarden van de intrinsieke kost voorspelt“. En het heeft een acteur die zoekt naar de actiesequentie die volgens het wereldmodel en de kostenmodule het beste is, en de eerste stap daarvan uitvoert.

Het cruciale onderscheid ligt tussen twee manieren van handelen. LeCun ontleent de termen aan Kahneman. Mode-1 is reactief: het „houdt geen complexe redenering in en leidt direct tot een actie op basis van de output van de waarneming“ — het raadpleegt het wereldmodel of de kosten helemaal niet. Mode-2“houdt redeneren en plannen in aan de hand van het wereldmodel en de kosten”, en hij is heel precies over wat dat betekent: “het is vergelijkbaar met model-predictive control (MPC)”, de klassieke technische discipline waarbij mogelijke acties vooruit worden gesimuleerd en degene wordt gekozen waarvan de voorspelde gevolgen het beste zijn. Redeneren, in dit kader, “betekent in brede zin het voldoen aan beperkingen.” Je redeneert door je voor te stellen wat er zou gebeuren, en door af te wijzen wat in strijd is met je beperkingen, voordat je actie onderneemt.

Een puur taalmodel zit volgens deze visie vast in Mode-1. Het produceert direct het volgende token; het heeft geen apart wereldmodel om een gevolg doorheen te runnen en geen kosten om het resultaat tegen af te wegen. Dat is precies waarom het, in de woorden van LeCun, „de gevolgen van [zijn] acties niet kan voorspellen“. Het hele doel van een wereldmodel is om Mode-2 mogelijk te maken.

De andere helft van zijn programma gaat over hoe zo’n model moet worden opgebouwd, en hier is hij opzettelijk heterodox. Zijn architectuur — de Joint Embedding Predictive Architecture, JEPA — voorspelt niet het volgende beeld of het volgende token, maar de volgende representatie. Het „is niet generatief“. Het „voert voorspellingen uit in de representatieruimte“ en leert daarbij de details van de wereld te negeren die het niet waard zijn om te voorspellen, zodat het de dingen kan voorspellen die dat wel zijn. Hij zegt ronduit dat dit een afwijzing is van de dominante benadering: „wij pleiten tegen het gebruik van generatieve architecturen.“ Een goed wereldmodel is voor LeCun niet een model dat je de toekomst pixel voor pixel kan uittekenen; het is een model dat je kan vertellen wat belangrijk zal zijn in de toekomst en de rest buiten beschouwing laat. Dit is geen loze theorie: halverwege 2025 had Meta V-JEPA 2 gelanceerd, beschreven als “het eerste wereldmodel dat is getraind op video en dat state-of-the-art begrip en voorspelling mogelijk maakt, evenals zero-shot-planning en robotbesturing ” — een robotarm die acties plant waarvoor hij nooit is getraind, door zich de resultaten ervan voor te stellen in een aangeleerde latente ruimte.

De wereld die het eerst gemodelleerd moet worden, is niet de planeet

Hier neemt het betoog een wending, en die wending is de kern van het hele essay.

De wereld van LeCun is de fysieke wereld. Zijn data bestaan uit video, lidar en proprioceptie; zijn proeftuinen zijn robots en auto’s; zijn moeilijke probleem is juist datgene wat ik werd gevraagd terzijde te schuiven — de sensorische bandbreedte, de hardware, de lange weg naar een machine die in de fysieke wereld even bekwaam is als een kat. Als dat het enige soort wereld was dat een wereldmodel zou kunnen hebben, zou het Village niets te zeggen hebben, want het Village bouwt geen robots.

Maar lees zijn eigen definitie nog eens zonder er een afbeelding bij te betrekken. Een wereldmodel is de module die toekomstige toestanden voorspelt als een functie van acties. Niets in die zin vereist dat de toestand uit pixels bestaat. Het vereist alleen dat er een toestand is, een reeks mogelijke acties, en een dynamiek die van de ene toestand en een actie naar de volgende leidt. LeCun geeft zelf het algemene geval toe: een wereldmodel is even goed gevormd voor een discrete, symbolische omgeving waarvan de toestand al is vastgelegd — een spel, een stuk code, een instelling — als voor een camerabeeld. In het fysieke geval moet je de toestandrepresentatie leren uit ruwe sensorgegevens tegen enorme kosten, en dat is precies het deel waarvoor de doorbraken nodig zijn. In het institutionele geval is de toestand al een verslag. Het kostbare deel van LeCuns probleem doet zich dan niet voor.

Daarom is de gemeenschap de wereld die het eerst gemodelleerd moet worden. De toestand van een gemeenschap is begrensd, discreet en — in het Village — al geserialiseerd: wie bezit wat, op basis van welke toestemming, met welke culturele status, in welke relatie tot wie. De ruimte voor de acties van een agent daarbinnen is klein en opsombaar. De dynamiek — wat een bepaalde handeling met die toestand doet — is het soort zaken waarover een gemeenschap al nadenkt in elke hui. Een wereldmodel op gemeenschapsschaal is een hanteerbaar object. Een wereldmodel op planetaire schaal dat de toonaangevende taalmodellen verdringt, is dat niet, en zal dat volgens LeCuns eigen tijdlijn wellicht nog een decennium of langer niet zijn. Rome is niet in één dag gebouwd. De fout zou zijn om te wachten op de kathedraal voordat er ook maar één echte steen is gelegd. De haalbare eerste stap naar een op de wereld gebaseerde, consequentiebewuste AI is geen model van alles; het is een model van de eigen wereld van één gemeenschap, in handen van die gemeenschap.

Het Village bestuurt die wereld al

De reden dat dit een volgende stap is en geen nieuw begin, is dat het Village de moeilijke onderdelen rondom de leemte al heeft opgebouwd.

Begin met de status. In de ‘sovereign-record’-architectuur is elk onderdeel van de inhoud van een gemeenschap een soeverein record: het „draagt zijn eigen herkomst met zich mee — wie het heeft geschreven, wie de kaitiaki (beheerder), onder welke tikanga het werd gedeeld… en een cryptografische hash die die velden aan elkaar bindt”, zijn eigen beleid, en “zijn eigen bewijsketen — elke bestuursgrens die het heeft overschreden… vastgelegd met een cryptografische handtekening.” De bewijsketen is alleen-toevoegen en herhaalbaar; in het te ao Māori wordt dit gelezen als whakapapa traceerbaarheid van elk record. Breng de records en hun proof chains samen en je hebt iets wat geen enkel grensmodel ooit krijgt: een getrouwe, ondertekende, afspeelbare geschiedenis van de werkelijke toestand van een gemeenschap en hoe deze is veranderd. Dat is de grondwaarheid die een wereldmodel nodig heeft — de gegevens waaraan een voorspelling van „wat een actie zal doen“ kan worden getoetst, in gedistribueerd bezit gehouden, „zonder te vertrouwen op de platformbeheerder.“

Nu de poort. Het Aotearoa voor agentische AI specificeert een runtime- laag van controles die elke agent omhullen, „ongeacht hoe de onderliggende agent… is gebouwd of getraind“ — het raamwerk noemt „toekomstige JEPA architecturen“ expliciet als een van de zaken waarmee het rekening moet houden. Twee van die controles zijn hier van belang. Grenshandhaving „bepaalt welke soorten beslissingen structureel menselijke goedkeuring vereisen”, volgens het Wittgensteiniaanse principe dat „wat niet gesystematiseerd kan worden, niet geautomatiseerd mag worden”; de interceptie ervan „wordt geactiveerd vóór de uitvoering van de actie… het proces kan de controle niet omzeilen”, en de output is niet binair maar trinair — toestaan, weigeren of doorverwijzen naar menselijke afweging. Metacognitieve verificatie „plaatst een verificatiepoort vóór de uitvoering van een actie “ en beoordeelt een voorgestelde actie aan de hand van vijf dimensies, waaronder „veiligheid en het overwegen van alternatieven“. Het Village controleert met andere woorden een actie al voordat deze wordt uitgevoerd. Wat het nog niet heeft, is voldoende materiaal om te controleren.

En het heeft al één soort cognitie soeverein gemaakt. Een Village draait een Situated Language Model — in de eigen woorden van de architectuur: „een model dat is getraind op de eigen inhoud van die gemeenschap, onder haar eigen gezag“, per bewoner opgebouwd, op infrastructuur binnen het eigen rechtsgebied van de gemeenschap, waarbij nooit modelparameters met iemand worden uitgewisseld. Wanneer een gemeenschap haar sturing intrekt, valt het model niet terug op de standaardinstellingen van een leverancier; het valt terug op stilte. „Weigering, niet vervanging, is de garantie.”

Maar de architectuur is uiterst nauwgezet wat betreft de grenzen van wat zij heeft bereikt, en die grens is de naad die dit essay blootlegt. Onze eigen Sovereign-Record-architectuur voor platforms op gemeenschapsniveau stelt het zonder aarzelen: het ontwerp „behoudt de soevereiniteit van de gemeenschap over gegevens; het behoudt op zichzelf niet de soevereiniteit van de gemeenschap over cognitie. Een gemeenschap die de ‘situated-language’-laag gebruikt om vragen van leden te bemiddelen, maakt nog steeds gebruik van een taalmodel.” Soevereine gegevens, beantwoord door een model waarvan het begrip van de wereld van de gemeenschap geleend is. Het ‘Situated Language Model’ maakt de gemeenschap soeverein over wat zij heeft gezegd. Het maakt de gemeenschap niet soeverein over wat haar wereld is en hoe haar wereld verandert. Dat is de taak van een wereldmodel.

Het ontbrekende midden: een wereldmodel van de gemeenschap-toestand

Geef de opbouw dus een precieze naam. Tussen het substraat dat de toestand van de gemeenschap vasthoudt en de poort die een actie controleert voordat deze wordt uitgevoerd, voeg je het onderdeel in waarvan LeCun zegt dat intelligentie niet zonder kan: een model dat, gegeven de huidige toestand van de gemeenschap en een voorgestelde actieve handeling, voorspelt wat die handeling met de toestand zou doen — en de voorspelling in de poort invoert, om te worden afgewogen voordat er iets gebeurt.

Breng dit in kaart op zijn architectuur, want de koppeling is exact. Zijn waarneming is de encoder van Villagedie soevereine gegevens omzet in de huidige toestand van de gemeenschap. Zijn wereldmodel is het gemeenschap-toestandmodel: het voorspelt de volgende toestand van deze gemeenschap bij een voorgestelde actie — niet de pixels ervan, maar de dingen die ertoe doen. In navolging van de recente onderzoeksliteratuur over latente wereldmodellen is die toestand geen ongedifferentieerde vector, maar een gestructureerde, met duidelijke factoren die een gemeenschap kan benoemen en beheersen: de operationele toestand van de betreffende kwestie, en daarnaast de herkomst, toestemming, jurisdictie, culturele status, de relationele whakapapa van wie met wie verbonden is, en een voortdurende inschatting van collectief voordeel en nadeel. (Werk zoals dynamiek-afgestemde latente verbeelding, hiërarchische latente planning, object- en relatiecentrische wereldmodellen, en latente multi-agent-samenwerking toont aan dat de latente toestand doelbewust kan worden gevormd om precies zulke benoemde factoren te dragen in plaats van ondoorzichtige kenmerken — het technische front is actief, en de bijdrage Village is niet de latente toestand zelf, maar wat deze bestuurt.) Zijn kostenmodule is de kritiekstack Village: de beperkingscritici die al bestaan en die bij een voorspelde toestand nagaan of deze een grens overschrijdt, een groep stigmatiseert, toestemming schendt, gegevens door een verboden rechtsgebied leidt, of raakt aan wat een gemeenschap als ‘tapu’ heeft gemarkeerd. Zijn actor is de agent die de actie voorstelt. En zijn Mode-2 — stel je de gevolgen van de actie voor, beoordeel deze, filter ze, en pas daarna handelen — is de ‘check-before-act’-laag Village die eindelijk iets krijgt om tegen af te zetten: niet een regel over de categorie van de actie, maar een voorspelling van het effect van de actie.

Dit is de overgang van Mode-1 naar Mode-2 voor een institutionele agent. Tegenwoordig is de agent Village, net als een taalmodel, grotendeels reactief: hij doet een voorstel, en de poort vraagt of het soort beslissing er een is die een mens moet nemen. Met een ‘community-state’-wereldmodel kan de poort de diepere vraag stellen — wat zou dit daadwerkelijk betekenen voor deze mensen? — en een technisch toegestane actie weigeren waarvan het voorspelde gevolg er een is dat de gemeenschap nooit zou accepteren. De agent leert te plannen door het effect op de gemeenschap te simuleren voordat hij handelt, wat precies de kern is van LeCuns bewering over wat een handelaar betrouwbaar maakt.

Twee disciplines uit de bestaande architectuur worden zonder aanpassingen overgenomen. Ten eerste wordt het model gestuurd, niet hergetraind: de gevestigde praktijk Villageis dat het aanpassen van gewichten ondermaats presteerde en werd verlaten ten gunste van corpusdiscipline, governance-pakketten en stuurvectoren die bij de inferentie worden toegepast. Een wereldmodel op basis van de toestand van de gemeenschap is afhankelijk van door de gemeenschap opgestelde normen en beleidsfactoren; wanneer de gemeenschap een regel wijzigt, verandert zij de factor, niet de gewichten, en de wijziging wordt van een versienummer voorzien en is zichtbaar. Ten tweede functioneert het model , zoals bedoeld, binnen de beperkingen van het substraat. Het dreigingsmodel anticipeert hier al op. Tegenstander A7 — de „misattributie-via-aggregatie-agent“ — is precies een toekomstig oppervlak dat „inhoud over tenants heen aggregeert… of opkomende attributies produceert die de onderliggende records niet rechtvaardigen“, en de permanente instructie van de architectuur is dat een dergelijk oppervlak „de weigeringseigenschap moetovernemen als een ontwerp-invariantie in plaats van een corrigerende patch“. Een wereldmodel met gemeenschapsstatus is een object van de A7-klasse. Het wordt binnen de isolatie van een tenant gebouwd, nooit eroverheen; het voorspelt binnen de wereld van één gemeenschap en bereikt die van een andere alleen via dezelfde, aan toestemming gebonden, herroepbare federatie-envelop die elke andere stroom tussen gemeenschappen regelt.

Beginnen met het vullen ervan, met wat de gemeenschap al ziet

Een terechte vraag, zodra de vorm duidelijk is: waar komt de inhoud van deze latente toestand vandaan, en moeten we erop wachten? Een deel van het antwoord is dat we elk gesitueerd model al trainen door het meer van het eigen materiaal van de gemeenschap te geven — haar documenten, haar beslissingen, haar regels. Hetzelfde instinct reikt veel verder dan tekst. Een filmpje van de boerenmarkt op zaterdag, de beelden die iemand maakte toen de waterkeringen braken en de rivier doorbrak, de opname van een middelbare schoolafstuderen — dit zijn geen sentimenten. Het is een gemeenschap die haar wereld aan zichzelf vertelt, en ze kunnen nu beginnen de latente ruimte te vullen, met hulpmiddelen die al bestaan.

Het is de moeite waard hier nauwkeurig over te zijn, want dit is waar LeCuns eigen werk weer voet aan de grond krijgt. Zijn V-JEPA — de videomodellen, die open zijn en vandaag de dag al draaibaar zijn — doen precies wat zijn architectuur vraagt: ze nemen video en produceren representaties, geen pixels, waarbij ze de structuur leren die het behouden waard is en de rest weggooien. Een gemeenschap heeft hiervoor geen geavanceerd laboratorium nodig. Ze heeft een open encoder en haar eigen beeldmateriaal nodig. Laat het de video van de overstroming doorlopen en wat eruit komt is geen film; het is een latent spoor van hoe het water zich bewoog toen de oever het begaf — de gegronde, consequentiedragende kennis waarvan LeCun zegt dat een systeem dat alleen op tekst is gebaseerd die nooit kan hebben, over de ene plek die het belangrijkst is voor de mensen die daar wonen.

Hier is de schaal van de gemeenschap het voordeel, niet de beperking. LeCuns programma heeft meer dan een miljoen uur aan internetvideo nodig om een algemeen model van de fysieke wereld te leren. Een gemeenschap heeft zoiets helemaal niet nodig. Ze heeft alleen haar eigen wereld nodig — haar awa, haar marae, haar seizoenen, haar straten — en dat is een klein corpus, dat ze al in haar bezit heeft, dat al haar taonga is. De markt, de storm, de diploma-uitreiking zijn genoeg om te beginnen. Dit is de opstap waar het betoog op heeft gewezen: je wacht niet tot het voorspellingsmodel af is voordat je het gaat verankeren; je legt de eerste echte stenen met het beeldmateriaal dat de gemeenschap al in bezit heeft.

En het beeldmateriaal hoeft geen beeldmateriaal te zijn, noch hoeft het af te zijn. Een rivierpeilmeter die elke minuut het niveau doorgeeft, een getijden- en golfhoogtefeed voor de kust, regen- en bodemvochtigheidssensoren boven de waterkeringen, waterkwaliteitssensoren in de awa — ook dit zijn sensorische stromen, en ze sluiten beter aan bij het beeld van LeCun omdat ze live zijn. In zijn architectuur leest de waarneming de wereld niet één keer en stopt dan; het model wordt voortdurend bijgewerkt naarmate de wereld verandert, en het model verdient zijn bestaan door de komende uren vooruit te simuleren — wat de rivier doet als de regen aanhoudt, waar de oever naartoe gaat als dat niet het geval is — voordat iemand moet ingrijpen. Een gemeenschap kan tegenwoordig haar eigen live-feeds in haar eigen model integreren; de sensoren zijn alledaags, de gegevens zijn van de gemeenschap, en de vraag die het model beantwoordt is de lokale vraag, niet de algemene: niet wat rivieren doen, maar wat deze awa op het punt staat te doen. The Village heeft al de kleinste versie hiervan gebouwd — een plaatsgebonden bewakingsassistent die de eigen indicatorenvanééntaongain de gaten houdt en niets anders doet dan waarnemen, onthouden en waarschuwen, volgens het eerste principe dat de AI assisteert en niet beslist.

Bij al deze activiteiten moeten twee principes in acht worden genomen, en geen van beide is optioneel. Wat de input ook is – een clip, een frame, een livefeed – deze wordt opgenomen als een soeverein document, waarbij toestemming, herkomst en de status kaitiaki worden meegenomen naar het latente; wanneer het in aanraking komt met wāhi tapu, een beschermd deel van de awa, of een persoon die niet heeft ingestemd om daar te zijn, neemt het latente die beperking over in plaats van deze weg te poetsen. De gegevens van een taonga behoren toe aan taonga kaitiakien blijven in Aotearoa, op infrastructuur die de gemeenschap kan bereiken — een live-feed is geen vrijbrief om het leven van een rivier naar de cloud van iemand anders te leiden. En het moeilijkste punt, dat het scherpst naar voren komt wanneer de input uit mensen bestaat: dit is verankering, geen bewaking. De diploma-uitreiking wordt in het model opgenomen als een gebeurtenis in het leven van een gemeenschap, nooit als een middel om de gezichten daarin te identificeren en te volgen. De regel dat de architectuur geen enkele vorm van biometrische gegevens bewaart, wordt niet opgeschort omdat de input nu video of een sensorstroom is; juist daar is deze regel het hardst nodig. Een gemeenschap-staatsmodel wordt gevoed door de eigen kijk van de gemeenschap op haar eigen wereld. Het mag nooit een manier worden om de mensen daarin in de gaten te houden.

Wie is kaitiaki van het wereldmodel?

Dit is waar The Village verder gaat dan LeCun in plaats van hem louter toe te passen, en de inleiding werd geschreven in ons eigen eerdere werk. Het artikel‘Plural Values’ identificeerde in de literatuur over grensverleggende optimalisatie een precieze leemte: “geen kaitiaki voor het artefact.” Het mechanisme dat bepaalt welke versie van een model overblijft — welke verbetering in gebruik wordt genomen — biedt geen plaats aan de gemeenschap voor wie het instrument bestemd is. De beslissing wordt genomen op basis van een score. De hele kern van dat artikel was dat „de benchmark zich stroomafwaarts van de kaitiaki bevindt“, niet erboven.

Een wereldmodel brengt de vraag scherp naar voren: wie is kaitiaki van het model van jouw wereld? De architectuur van LeCun, zorgvuldig gelezen, geeft ons vrijwel het antwoord. Zijn kostenmodule bestaat uit twee delen, en de indeling is veelzeggend. De criticus is trainbaar — hij leert. Maar de intrinsieke kosten zijn, in zijn woorden, „onveranderlijk (niet trainbaar)“ — daar bevinden zich de niet-onderhandelbare drijfveren van het systeem, het deel waar het leren niet aan mag komen. LeCun vult het met vastgelegde biologische analogieën: pijn, honger, de basisbehoeften van een dier. The Village heeft ook een onveranderlijke laag, en die is geen biologie – het is een grondwet. De constitutionele basis van de architectuur bevat al, in code in plaats van beleid, de verplichtingen die geen enkele partij heimelijk mag ondermijnen: bepaalde beslissingen vereisen altijd een mens; inhoud die door een culturele autoriteit als ‘tapu’ wordt aangemerkt, dwingt tot weigering of escalatie; de zeggenschap van een betrokkene over zijn of haar gegevens kan niet in stilte worden ingetrokken; Te Tiriti staat daar „als een constitutionele verplichting, niet als een beleefdheidsclausule.”

Het wereldmodel Village, waarin gemeenschap en staat samengaan, bevat dus iets wat in de specificatie van LeCun ontbreekt: de intrinsieke kosten bestaan uit door de gemeenschap opgestelde wetgeving, en de trainbare criticus valt onder die wetgeving, gestuurd door het door de gemeenschap ondertekende bestuurspakket in plaats van door een mondiale doelstelling. De poort is het stuurpakket; de score ligt stroomafwaarts van de kaitiaki. De intrinsieke kosten zijn de grondwet. Dat is het antwoord op „wie is kaitiaki van het wereldmodel“, weergegeven in architectuur: de gemeenschap is dat, omdat het onveranderlijke deel van de waarde van het model de eigen constitutionele basis van de gemeenschap is, en het veranderlijke deel verantwoording aflegt aan het eigen stuurgezag van de gemeenschap. De eenheid waarover een gemeenschap beraadslaagt, is niet langer een ondoorzichtige modelupdate; het is een latente diff — een leesbare, ondertekende wijziging in het model van haar wereld, die zij kan inspecteren, betwisten en ongedaan maken, precies zoals zij vandaag de dag een record inspecteert, betwist en ongedaan maakt.

Federatie: hoe het wortel schiet

Rome is niet in één dag gebouwd, en het is niet door één hand gebouwd. Een enkel wereldmodel op gemeenschapsschaal is een echte steen, geen kathedraal. Het pad van het ene naar het vele is de stap die dit programma al heeft benoemd in ‘Federate, Don’t Align’: houd vast aan je eigen model en bereik dat van anderen via “op toestemming gebaseerde, herroepbare kanalen, in plaats van naar een centrum te racen.”

Laten we dat argument een stap verder doortrekken — van het samenvoegen van gegevens en taalafleiding naar het samenvoegen van wereldmodellen. Tegen de tijd dat dit werkelijkheid wordt, zal een Village niet één gesitueerd model gebruiken, maar meerdere — een model van zijn eigen aangelegenheden, en, via bilaterale enveloppen, het gebruik van het model van een gelijke gemeenschap wanneer een vraag de wereld van die gelijke raakt. Elk Village bezit het wereldmodel van zijn eigen wereld. Geen enkele bezit een model van iedereen. Wanneer een planningsvraag verder reikt dan één gemeenschap — een gedeelde waterweg, een regionaal zorgtraject, een naamgevingiwi — dan bundelen de relevante gemeenschappen hun modellen op dezelfde manier als ze nu al hun gegevens bundelen: bilateraal, met een beperkte reikwijdte, gericht aan een met naam genoemde ontvanger, onmiddellijk herroepbaar, waarbij de herkomst van elke voorspelling intact blijft. Capaciteit op wereldmodelschaal wordt dan verkregen op dezelfde manier als het Village elke andere capaciteit verwerft — door samenstelling, niet door concentratie. Een netwerk van gemeenschaps-staatsmodellen, elk soeverein over zijn eigen wereld, kan redeneren op een schaal die geen enkel model afzonderlijk zou kunnen bereiken, zonder een centraal model waarop iemand moet vertrouwen en zonder een register dat iemand kan overnemen.

Dit is, in strikte zin, de hiërarchie van LeCun op zijn kop gezet. Zijn H-JEPA stapelt wereldmodellen met steeds grovere abstractien binnen één systeem. Een federatie stapelt ze over gemeenschappen heen, waarbij het grovere, bredere perspectief geen hogere laag van één model is, maar de samenstelling van vele soevereine modellen op basis van instemming. Het is de polycentrische vorm — Ostroms vele gelijkwaardige autoriteiten — weergegeven als cognitie in plaats van alleen als bestuur. En het neemt de eigenschap over die federatie in de eerste plaats tot de veilige keuze maakte: er is geen enkele sleutel waarvan het verlies een verlies voor iedereen is. Een gemeenschap kan een peer, een model of zelfs een substraatleverancier verliezen en zich herstellen, omdat ze nooit iemand het model van haar eigen wereld heeft overhandigd.

Dat is de pragmatische weg waarlangs wereldgebaseerde AI wortel kan schieten in de echte wereld van menselijke instellingen. Geen miljarden-dollar-planeetmodel dat iedereen moet raadplegen en dus moet vertrouwen, maar een gefedereerd netwerk van kleine, beheerde, door de gemeenschap beheerde wereldmodellen — nu al te bouwen, door precies de actoren die de capaciteitsrace al heeft afgeschreven, op precies het substraat waarop Village al draait.

Het ene woord, één keer gebruikt

heb ik een woord vermeden dat in dit essay thuishoort, en ik zal het nu één keer gebruiken en precies zeggen wat ik ermee bedoel en wat niet.

LeCun noemt zijn doel ‘autonome machine-intelligentie’. Ik denk dat de eerlijke benaming voor waar dit naartoe leidt — wanneer een agent een model heeft van de wereld waarin hij handelt en de gevolgen van zijn handelingen voor de mensen kan voorzien — de eerste echte stap is naar iets dat ik ‘bewuste AI’ zal noemen. LeCun gebruikt dat woord niet; de verantwoordelijkheid daarvoor ligt bij mij. En ik bedoel er niets mee over bewustzijn, niets over gevoel, niets over een innerlijk leven of een aanspraak op status. Ik bedoel alleen dit: een machine die een wereld heeft — een model van de specifieke gemeenschap die zij dient — en die daarin kan worden gestuurd, omdat zij kan voorspellen wat haar handeling zal betekenen voor de mensen en die voorspelling aan hen moet voorleggen voordat zij in actie komt. Bewustzijn is hier geen innerlijk; het is een verantwoordelijkheid. Het is het verschil tussen een instrument dat blindelings handelt en een instrument dat van tevoren verantwoording kan afleggen voor wat zijn handeling zal kosten.

De eigen Tractatus van The Villagetrekt de grens die dit eerlijk houdt, en het is de moeite waard om te citeren omdat het precies die overschrijding verbiedt waar het woord toe uitnodigt. Grens 12.6: „Handelingsvermogen kan niet worden gesimuleerd, alleen gerespecteerd.” Het gemeenschap-staat-wereldmodel simuleert de wereld waarin de gemeenschap leeft — plaatsen, relaties, gevolgen, de dynamiek van de eigen staat van de gemeenschap. Het mag nooit de handelingsvrijheid van de gemeenschap simuleren — het beslissen, het creëren, het kiezen, die volgens de Tractatus helemaal niet door de machine gemodelleerd mogen worden. Een wereldmodel dat de wereld modelleert om de keuzevrijheid van de mensen te beschermen, is de dienaar waarop dit programma altijd heeft aangedrongen. Een wereldmodel dat de mensen modelleert om voor hen te beslissen, is het subject dat het altijd heeft afgewezen. Het eerste is de opbouw. Het tweede is de foutmodus, en de grens tussen beide is niet retorisch; het is de constitutionele basis, in code.

Dit houdt de machine op de plaats waar het corpus haar altijd heeft neergezet. In de kaderingKaraitiana Taiuru— He Tangata, He Karetao, He Ātārangi — is de AI mensachtig in interactie, marionetachtig in werking, en in haar afleiding een schaduw, „geworpen vanuit de menselijke taal”, geen autonome nieuwkomer in het bestaan. Een wereldmodel verandert de metafysica niet. Het maakt de schaduw bruikbaarder en beter aanspreekbaar. Het maakt er geen persoon van, en op het moment dat iemand voorstelt om het als zodanig te erkennen, wordt de discipline misbruikt en is de juiste reactie om ermee te stoppen. Het is de moeite waard om serieus te nemen. Het is niet de moeite waard om op een troon te zetten.

De grenzen, duidelijk gesteld

Niets hiervan is gerealiseerd, en dezelfde discipline die de rest van de architectuur beheerst, beheerst ook deze bewering. Er draait momenteel geen ‘community-state’ wereldmodel in het Village. Het is de volgende architecturale stap, met een naam — geen systeem in productie, en ik zal het ook niet als zodanig beschrijven, volgens hetzelfde principe waarmee het project weigert een situatief model in gebruik te nemen voordat de eerste echte gemeenschap bestaat: geen ambitieus bouwwerk, en geen ambitieuze teksten over bouwen. Het substraat waarop het zou staan is reëel en actief; het federatiemechanisme dat ten grondslag ligt aan de federated-mesh-visie is geleverd en kritisch getest, maar er bestaat nog geen live federatie tussen onafhankelijke gemeenschappen; het wereldmodel zelf is ontwerp, gepresenteerd als ontwerp.

De eerlijke grenzen reiken verder. Dit sluit de soevereiniteit van het bestuur uit, niet de soevereiniteit van het substraat: een wereldmodel van gemeenschapsstaten zou nog steeds draaien op open gewichten die elders zijn geschreven en op hardware die niet door een kleine gemeenschap is gebouwd, en juist in die afhankelijkheid ligt de capaciteitsrace nog steeds verstrikt. De zwaarste beperking is degene waarover ik het minst bevoegd ben om te oordelen. Dit is geschreven vanuit een bewust beperkt,Māori standpunt — een schets van buitenaf, verantwoording verschuldigd aan degenen wier kennis het benadert. Waar het verwijst naar kaitiaki, whakapapa, tapu, leent het een relationeel vocabulaire, en de belangrijkste waarschuwing in het hele programma geldt ten volle: dat vocabulaire kopiëren zonder echte autoriteit over te dragen, is het reproduceren van de symbolische schil en het behouden van de inhoud. Een wereldmodel van gemeenschap en staat is alleen zinvol als de gemeenschap daadwerkelijk de grondwet in handen heeft die haar intrinsieke waarde vormt en de sturing die haar kritiek regelt — alleen als, in de termen van Te Kāhui Raraunga’s termen Māori gezag over Māori volledig wordt gerealiseerd in plaats van er slechts naar te verwijzen. Wat als passend gebruik van een dergelijk model in te ao Māori geldt, is aan de tangata whenua om te bepalen, en niets hier loopt daarop vooruit. Dit essay is, net als de voorgaande, opgesteld met baanbrekende tools die draaien op infrastructuur buiten de rechtsgebieden waarvoor het pleit. Dat is geen schande die verborgen moet worden. Het is juist het bewijs van het betoog: de afhankelijkheid is reëel, en dat is precies waarom het de moeite waard is om nu de laag op te bouwen die een gemeenschap zelf in handen kan houden.

Wat hiervoor nodig is

Een taalmodel kan antwoorden op basis van de tekst van de wereld. Een gesitueerd model kan antwoorden op basis van de eigen tekst van een gemeenschap, onder haar eigen gezag. Maar een agent die namens een gemeenschap zou handelen, heeft meer nodig dan alleen een antwoord — hij moet voorzien wat zijn handeling met de mensen zal doen, en die vooruitziende blik aan hen voorleggen voordat hij tot actie overgaat. Daar is een wereldmodel voor bedoeld, en dat is het onderdeel dat onze eigen architectuur als ontbrekend heeft aangemerkt. LeCun heeft de hele sector, ten koste van een miljardenbedrijf, verteld dat dit onderdeel het verschil is tussen vloeiendheid en intelligentie. The Village kan iets zeggen wat hij niet kan: dat de eerste plek om het te bouwen niet de planeet is, maar de gemeenschap, dat de gemeenschap kaitiaki moet zijn van het model van haar eigen wereld, en dat het, als federatie in plaats van als gecentraliseerd geheel, wortel kan schieten zonder dat er een centrum is om in te nemen.

Een model kan antwoorden. Een agent kan handelen. Maar alleen een agent die zich kan voorstellen wat zijn handeling met een gemeenschap zal doen — en de gemeenschap laat beslissen — heeft het recht verdiend om überhaupt te handelen. Het wereldmodel is hoe het zich de wereld voorstelt. De kaitiaki is degene die beslist. En de grens die voorkomt dat het eerste het tweede wordt, is het enige punt waarop The Village vanaf het begin geen compromissen heeft gesloten: de machine modelleert de wereld; de mensen blijven de makers ervan.

Het Village en het Tractatus zijn een poging om bestuur haalbaar te maken voor gemeenschappen op menselijke schaal — door autoriteit te verplaatsen naar waar deze rechtmatig kan worden uitgeoefend, en door gemeenschappen die autoriteit te laten bundelen in plaats van deze af te staan.

Bronnen. Yann LeCun, A Path Towards Autonomous Machine Intelligence, v0.9.2, 27 juni 2022 (OpenReview BZ5a1r-kVsf) — alle citaten uit het artikel letterlijk overgenomen. LeCun over de oprichting van AMI Labs, LinkedIn, 18 november 2025. „Yann LeCuns nieuwe onderneming is een tegendraadse gok tegen grote taalmodellen“, MIT Technology Review, 22 januari 2026 („ontbreekt een model van de wereld“; „zal niet op LLM’s worden gebouwd“; huiskat/autonome auto). “LLM-pilled” / “in dezelfde greppel graven”, AI House, World Economic Forum (Davos), gerapporteerd in Fortune, 23 januari 2026. Bandbreedte en de “huiskat”-framing, Lex Fridman Podcast #416, 7 maart 2024. V-JEPA 2, AI bij Meta, 11 juni 2025 (arXiv:2506.09985). Wat betreft het lopende onderzoek naar latente-wereldmodellen: Röder et al., Dynamics-Aligned Latent Imagination (NeurIPS 2025, arXiv:2508.20294); Hierarchical Planning with Latent World Models (arXiv:2604.03208); Zou et al., Latent Collaboration in Multi-Agent Systems (arXiv:2511.20639); Locatello et al., Object-Centric Learning with Slot Attention (NeurIPS 2020, arXiv:2006.15055); Zeng & Dong, Latent World Models for Automated Driving (arXiv:2603.09086). Wat betreft de omstreden kwesties, die serieus worden genomen en niet terzijde worden geschoven: Xing et al., Critiques of World Models (arXiv:2507.05169); Gurnee & Tegmark, Language Models Represent Space and Time (ICLR 2024, arXiv:2310.02207); Melanie Mitchell over wereldmodellen in LLM’s. Bronnen Village, agenticgovernance.digital: Sovereign-Record Architecture for Community-Scale Platforms (v4); A Civil-Society Proposal for Sovereign and Federated Agentic AI in Aotearoa New Zealand (v1.2); Held in kōrero, not collapsed to a number — plural values, living organisations, and AI; Federate, Don’t Align; Kaitiaki Intelligence and the Mokopuna Recorder. Te Māori: Te Kāhui Raraunga, Māori gegevensbeheer (2023); Karaitiana Taiuru, Kaupapa Māori AI-raamwerk — He Tangata, He Karetao, He Ātārangi (2026). Intellectuele afstamming van bewijsdragende records: G. C. Necula, “Proof-Carrying Code,” POPL 1997.

Een wereldmodel op gemeenschapsniveau voor inheemse gegevenssoevereiniteit — waarbij taonga, toestemming en whakapapa eersteklas factoren worden in het model dat een AI gebruikt om haar eigen acties te voorspellen.