Taonga dans l'espace latent

Résumé. Le chercheur le plus cité dans le domaine de l’ intelligence artificielle a quitté le plus grand laboratoire d’IA au monde pour fonder une entreprise autour d’une seule affirmation : les modèles linguistiques actuels ne peuvent ni raisonner ni planifier car ils « manquent d’un modèle du monde », et la prochaine architecture ne sera pas construite sur leur base. Il parle du monde physique — la vidéo, les robots, la bande passante des sens — et c’est cette partie qui nécessite des avancées matérielles que nous ne devrions pas prétendre prévoir. Mais rien dans sa définition d’un modèle du monde n’exige que le monde soit constitué de pixels. Un modèle du monde est tout ce qui prédit l’état suivant d’un monde donné à partir de l’état actuel et d’une action proposée, de sorte qu’un agent puisse en voir les conséquences avant d’agir. Une institution est exactement un tel monde : discret, délimité, déjà consigné par écrit. Cet essai soutient que le monde qu’il convient de modéliser en premier lieu n’est pas la planète, mais la communauté ; que le Village dispose déjà de deux des trois éléments dont un tel modèle a besoin — un substrat qui enregistre l’état de la communauté, et une porte qui vérifie une action avant son exécution — et qu’il ne lui manque que l’élément intermédiaire, le modèle qui prédit l’impact d’une action sur les personnes avant qu’elle ne se produise. Cet élément central correspond à la lacune identifiée dans notre propre architecture : une souveraineté sur les données qui n’est pas encore une souveraineté sur la cognition. Sa mise en place à l’échelle communautaire est réalisable, contrairement à un modèle à l’échelle planétaire qui détrônerait la frontière. Et fédérée — chaque communauté détenant son propre modèle du monde, accédant à ceux des autres avec leur consentement — elle se compose, de bas en haut, pour atteindre une portée qu’aucun modèle unique ne pourrait détenir, sans centre à capturer. Rome ne s’est pas construite en un jour, et elle n’a pas été construite par une seule main. C’est ainsi qu’un pas souverain vers une IA ancrée dans le monde est réellement franchi : petit, gouverné et fédéré.

Le pari contre la tranchée

En novembre 2025, Yann LeCun a annoncé qu’il quittait Meta, où il occupait le poste de directeur scientifique en IA depuis sept ans et avait fondé le laboratoire de recherche de l’entreprise, pour créer sa propre société. Ses propres mots étaient clairs : « Je crée une start-up afin de poursuivre le programme de recherche Advanced Machine Intelligence (AMI) que je mène depuis plusieurs années. » Cette entreprise, AMI Labs, est un pari — son tour de table initial, estimé à environ 1,03 milliard de dollars pour une valorisation de 3,5 milliards de dollars, a été décrit comme le plus important de l’histoire européenne — et ce contre quoi elle parie, c’est le consensus qui a structuré l’ensemble du secteur. À Davos, en janvier, il l’a dit sans détours : « Le secteur de l’IA est complètement obsédé par les LLM . » « Tout le monde travaille sur la même chose. Ils creusent tous la même tranchée. »

Ce qui, selon lui, leur manque, il l’a répété à maintes reprises et l’a exprimé très clairement au MIT Technology Review lors du lancement de l’entreprise : les grands modèles linguistiques « ne peuvent pas véritablement raisonner ni planifier, car ils ne disposent pas d’un modèle du monde. Ils ne peuvent pas prédire les conséquences de leurs actions. » Et : « Nous allons disposer de systèmes d’IA dotés d’une intelligence semblable à celle de l’homme et d’un niveau équivalent à celui de l’homme, mais ils ne reposeront pas sur des LLM. » L’ illustration qu’il utilise est d’ordre physique : « C’est pourquoi nous n’avons pas de robot domestique aussi agile qu’un chat, ni de voiture véritablement autonome. »

Derrière cette rhétorique se cache un argument concernant les données, et il vaut la peine de le souligner car c’est la partie la plus souvent négligée. Un modèle linguistique de pointe s’entraîne sur un corpus dont la lecture prendrait, selon LeCun, « 170 000 ans » à un être humain « à raison de huit heures par jour ». Un enfant de quatre ans a assimilé, par la vue et les autres sens, bien plus que cela — des ordres de grandeur supérieurs — en l’espace de quelques années. Le texte, selon son point de vue, n’est qu’une projection superficielle et tardive d’un monde que l’enfant comprend déjà en y vivant. Un système entraîné uniquement sur cette projection apprend les statistiques de l’ombre, et non la structure de la chose qui la projette. Il peut faire preuve d’une aisance étonnante sans pour autant savoir ce qui se passe si l’on lâche le verre.

Il ne s’agit pas d’une position marginale déguisée. C’est le jugement mûrement réfléchi de la figure la plus éminente du domaine, défendu publiquement et à grands frais, et il converge — du point de vue de la machine — vers une idée que ce programme défend depuis deux ans du point de vue de la communauté : que la fluidité n’est pas la compréhension, et qu’un instrument incapable de prévoir les conséquences de ses propres actions sur les personnes n’est pas encore assez sûr pour qu’on le laisse agir.

Qu’est-ce qu’un modèle du monde ?

Le projet de LeCun n’est pas nouveau ; il est exposé en détail dans son article de 2022 intitulé « A Path Towards Autonomous Machine Intelligence ». Réduisons-le à ses éléments essentiels. Un agent dispose d’un module de perception qui estime l’état actuel du monde ; d’un modèle du monde, que l’article qualifie de « pièce la plus complexe de l’ architecture » et dont la fonction est de prédire « les états futurs possibles du monde en fonction des séquences d’actions imaginées proposées par l’ acteur » — il s’agit, selon ses propres termes, d’« une sorte de “simulateur” des aspects pertinents du monde ». Il dispose d’un module de coût qui évalue la qualité d’un état prédit, composé de deux sous-parties : un « coût intrinsèque, qui est immuable (non entraînable) », et « le critique, un module entraînable qui prédit les valeurs futures du coût intrinsèque ». Et il dispose d’un acteur qui recherche la séquence d’actions que le modèle du monde et le coût s’accordent à considérer comme la meilleure, et qui en exécute la première étape.

La distinction cruciale porte sur deux façons d’agir. LeCun emprunte les termes de Kahneman. Mode-1 est réactif : il « n’implique aucun raisonnement complexe et produit une action directement à partir du résultat de la perception » — il ne consulte absolument pas le modèle du monde ni le coût . Mode-2« implique un raisonnement et une planification à travers le modèle du monde et le coût », et il précise exactement ce que cela signifie : « cela s’apparente au contrôle prédictif par modèle (MPC) », la discipline d’ingénierie classique consistant à simuler les actions candidates de manière prospective et à choisir celle dont les conséquences prédites sont les meilleures. Le raisonnement, dans ce cadre, « au sens large [signifie] la satisfaction des contraintes ». On raisonne en imaginant ce qui se passerait et en rejetant ce qui enfreint nos contraintes, avant d’agir.

Un modèle linguistique pur, selon cette approche, est bloqué en Mode-1. Il produit directement le token suivant ; il ne dispose d’aucun modèle distinct du monde permettant d’évaluer les conséquences, ni d’aucun coût par rapport auquel peser le résultat. C’est précisément pour cette raison que, selon les termes de LeCun, il « ne peut pas prédire les conséquences de [ses] actions ». L’intérêt même d’un modèle du monde est de rendre Mode-2 possible.

L’autre volet de son programme porte sur la manière dont un tel modèle devrait être construit, et sur ce point, il se montre délibérément hétérodoxe. Son architecture — l’ Joint Embedding Predictive Architecture, ou JEPA — ne prédit pas la prochaine image ni le prochain token, mais la prochaine représentation. Elle « n’est pas générative ». Elle « effectue des prédictions dans l’espace des représentations », en apprenant à ignorer les détails du monde qui ne valent pas la peine d’être prédits, afin de pouvoir prédire ceux qui le méritent. Il affirme sans détour qu’il s’agit là d’un rejet de l’approche dominante : « nous nous opposons à l’utilisation d’architectures génératives ». Pour LeCun, un bon modèle du monde n’est pas celui qui peut vous décrire l’avenir pixel par pixel ; c’est celui qui peut vous dire ce qui aura de l’importance dans l’avenir et laisser le reste de côté. Il ne s’agit pas d’une théorie vaine : à la mi-2025, Meta avait lancé V-JEPA 2, décrit comme « le premier modèle du monde entraîné sur des vidéos qui permet une compréhension et une prédiction de pointe, ainsi qu’une planification en zéro-shot et le contrôle de robots » — un bras robotisé planifiant des actions pour lesquelles il n’avait jamais été entraîné, en imaginant leurs résultats dans un espace latent appris.

Le monde qu’il convient de modéliser en premier n’est pas la planète

C’est là que l’argument prend un tournant, et ce tournant constitue l’essence même de cet essai.

Le monde de LeCun est le monde physique. Ses données sont la vidéo, le lidar et la proprioception ; ses terrains d’essai sont les robots et les voitures ; son problème épineux est celui qu’on m’a demandé de mettre de côté — la bande passante sensorielle, le matériel, le long chemin vers une machine aussi capable dans le monde physique qu’ un chat. Si c’était le seul type de monde qu’un modèle du monde pouvait avoir, le Village n’aurait rien à dire, car le Village ne construit pas de robots.

Mais relisez sa propre définition sans y associer d’image. Un modèle du monde est le module qui prédit les états futurs en fonction des actions. Rien dans cette phrase n’exige que l’état soit constitué de pixels. Elle exige seulement qu’il y ait un état, un ensemble d’actions possibles et une dynamique qui fasse passer d’un état et d’une action à l’état et à l’action suivants. LeCun lui-même admet le cas général : un modèle du monde est tout aussi bien formé pour un environnement discret et symbolique dont l’état est déjà consigné — un jeu, un ensemble de code, une institution — que pour le flux d’une caméra. Dans le cas physique, il faut apprendre la représentation de l’état à partir de données brutes de capteurs à un coût énorme, ce qui est précisément la partie qui nécessite des percées. Dans le cas institutionnel, l’état est déjà un enregistrement. La partie coûteuse du problème de LeCun ne se pose pas.

C’est pourquoi la communauté est le monde qu’il convient de modéliser en premier lieu. L’ état d’une communauté est délimité, discret et — au sein du Village — déjà sérialisé : qui détient quoi, en vertu de quel consentement, avec quel statut culturel, dans quelle relation avec qui. L’espace des actions d’un agent sur cet état est restreint et dénombrable. La dynamique — ce qu’une action donnée fait à cet état — est le genre de chose sur laquelle une communauté raisonne déjà lors de chaque hui. Un modèle du monde à l’échelle d’une communauté est un objet gérable. Un modèle du monde à l’échelle planétaire qui remplacerait les modèles linguistiques de pointe ne l’est pas, et ne le sera peut-être pas avant une décennie ou plus selon le calendrier de LeCun lui-même. Rome ne s’est pas construite en un jour. L’erreur serait d’attendre la cathédrale avant de poser la moindre pierre. La première étape réalisable vers une IA ancrée dans le monde et consciente des conséquences n’est pas un modèle de tout ; c’est un modèle du monde propre à une communauté, détenu par cette communauté.

Le Village gouverne déjà ce monde

La raison pour laquelle il s’agit d’une étape suivante et non d’un nouveau départ est que le Village a déjà construit les éléments complexes autour de cette lacune.

Commençons par l’État. Dans l’architecture des enregistrements souverains, chaque élément du contenu d’une communauté est un enregistrement souverain: il « porte sa propre provenance — qui l’a rédigé, qui en est kaitiaki (gardien), selon quel tikanga il a été partagé… ainsi qu’un hachage cryptographique liant ces champs entre eux », sa propre politique, et « sa propre chaîne de preuves — chaque frontière de gouvernance qu’il a franchie… enregistrée avec une signature cryptographique ». La chaîne de preuves est en écriture seule et rejouable ; dans le registre te ao Māori, elle est interprétée comme la traçabilitéwhakapapa de chaque enregistrement. Rassemblez les enregistrements et leurs chaînes de preuve, et vous obtenez quelque chose qu’aucun modèle de frontière n’a jamais offert : un historique fidèle, signé et rejouable de l’état réel d’une communauté et de la manière dont elle a évolué. C’est la vérité de terrain dont un modèle mondial a besoin — les données par rapport auxquelles une prédiction de « ce qu’une action va entraîner » peut être vérifiée, détenues de manière distribuée, « sans faire confiance à l’ opérateur de la plateforme ».

Passons maintenant à la barrière. Le cadre d’IA agentique Aotearoa spécifie une couche d’exécution de contrôles qui encapsulent tout agent, « indépendamment de la manière dont l’ agent sous-jacent… est construit ou entraîné » — le cadre cite explicitementles « futures JEPA » parmi les éléments qu’il doit prendre en charge. Deux de ces contrôles sont ceux qui importent ici. L’application des limites « détermine quels types de décisions nécessitent structurellement une approbation humaine », selon le principe wittgensteinien selon lequel « ce qui ne peut être systématisé ne doit pas être automatisé »; son interception « se déclenche avant l’exécution de l’action… le processus ne peut contourner la vérification », et son résultat n’est pas binaire mais trinaire — autoriser, refuser ou transmettre à la délibération humaine. La vérification métacognitive « place une barrière de vérification avant l’exécution de l’action » et évalue une action proposée selon cinq dimensions, parmi lesquelles « la sécurité et la prise en compte des alternatives ». Le Village, en d’autres termes, vérifie déjà une action avant de l’exécuter. Ce qui lui manque encore, c’est de disposer de suffisamment d’éléments pour effectuer cette vérification.

Et il a déjà élevé un type de cognition au rang de souverain. Un Village exploite un modèle linguistique situé — selon les propres termes de l’architecture, « un modèle entraîné sur le contenu propre à cette communauté, sous son autorité », dédié à chaque locataire de par sa conception, sur une infrastructure située sous la juridiction de la communauté elle-même, sans jamais échanger de paramètres de modèle avec qui que ce soit. Lorsqu’une communauté retire son pilotage, le modèle ne se rabat pas sur les paramètres par défaut d’un fournisseur ; il se rabat sur le silence. « Le refus, et non la substitution, est la garantie. »

Mais l’architecture est scrupuleuse quant aux limites de ce qu’elle a réalisé, et c’est précisément cette limite que le présent essai met en lumière. Notre propre « Architecture Sovereign-Record pour les plateformes à l’échelle communautaire» l’affirme sans détour : la conception « préserve la souveraineté de la communauté sur les données ; elle ne préserve pas en soi la souveraineté de la communauté sur la cognition. Une communauté utilisant la couche de langage situé pour traiter les requêtes de ses membres utilise toujours un modèle de langage. » Des données souveraines, auxquelles répond un modèle dont la compréhension du monde de la communauté est empruntée. Le modèle de langage situé rend la communauté souveraine sur ce qu’elle a dit. Il ne rend pas la communauté souveraine sur ce qu’est son monde et sur la manière dont celui-ci évolue. C’est le rôle d’un modèle de monde.

Le maillon manquant : un modèle du monde « communauté-état »

Donnez donc un nom précis à cette construction. Entre le substrat qui contient l’ état de la communauté et la porte qui vérifie une action avant son exécution, insérez l’élément dont, selon LeCun, l’intelligence ne peut se passer : un modèle qui, à partir de l’état actuel de la communauté et d’une action proposée par un agent, prédit l’impact de cette action sur l’état — et transmet cette prédiction à la porte, afin qu’elle soit prise en compte avant que quoi que ce soit ne se produise.

Reportez-le sur son architecture, car la correspondance est exacte. Sa perception est le codeur Villagequi transpose les enregistrements souverains dans l’état actuel de la communauté. Son modèle du monde est le modèle « communauté-état » : il prédit l’état suivant de cette communauté sous l’effet d’une action proposée — non pas ses pixels, mais les éléments qui comptent à son sujet. Selon la littérature scientifique récente sur les modèles de monde latents, cet état n’est pas un vecteur indifférencié mais un vecteur structuré, comportant des facteurs distincts qu’une communauté peut nommer et régir : l’état opérationnel de la question en jeu, ainsi que sa provenance, le consentement, la juridiction, le statut culturel, le whakapapa relationnel indiquant qui est lié à qui, et une lecture permanente des avantages et inconvénients collectifs. (Des travaux tels que l’imagination latente alignée sur la dynamique, la planification latente hiérarchique, les modèles du monde centrés sur les objets et les relations, et la collaboration multi-agents latente montrent que l’état latent peut être délibérément façonné pour porter précisément ces facteurs nommés plutôt que des caractéristiques opaques — le volet technique est opérationnel, et la contribution Village ne réside pas dans l’état latent mais dans ce qui le régit.) Son modulede coût correspond à la pile de critiques Village: les critiques de contraintes qui existent déjà, demandant d’un état prédit s’il franchit une limite, stigmatise un groupe, enfreint le consentement, achemine des données à travers une juridiction interdite, ou touche à ce qu’une communauté a marqué comme « tapu ». Son acteur est l’agent proposant l’ action. Et sa boucle Mode-2 — imaginer la conséquence de l’action, l’évaluer, la filtrer, puis seulement agir — est la couche « vérifier avant d’agir » Village qui dispose enfin d’un élément de comparaison: non pas une règle concernant la catégorie de l’action, mais une prédiction de l’effet de l’action.

C’est le passage du Mode-1 au Mode-2 pour un agent institutionnel. Aujourd’hui, l’agent Village, à l’instar d’un modèle linguistique, est largement réactif : il propose, et le filtre demande si ce type de décision est de celles qu’un humain doit prendre. Avec un modèle du monde « communauté-état », la barrière peut poser la question plus profonde — quel serait l’impact réel de cette action sur ces personnes ? — et refuser une action techniquement autorisée dont la conséquence prédite est telle que la communauté ne l’accepterait jamais. L’agent apprend à planifier en simulant son effet sur la communauté avant d’agir, ce qui constitue tout le fond de l’argument de LeCun sur ce qui rend un acteur digne de confiance.

Deux principes de l’architecture existante sont repris sans modification. Premièrement, le modèle est orienté, et non réentraîné: la pratique établie Villageest que la modification des poids s’est avérée peu performante et a été abandonnée au profit de la discipline du corpus, des packs de gouvernance et des vecteurs d’orientation appliqués lors de l’inférence. Un modèle du monde « état-communauté » dépend de normes et de facteurs de politique élaborés par la communauté ; lorsque la communauté modifie une règle, elle modifie le facteur, et non les poids, et la modification est versionnée et visible. Deuxièmement, le modèle s’inscrit , de par sa conception, dans les contraintes du substrat. Le modèle de menace l’anticipe déjà. L’adversaire A7 — la « fausse attribution via un agent d’agrégation » — est précisément une surface future qui « agrège le contenu entre les locataires… ou produit des attributions émergentes que les enregistrements sous-jacents ne justifient pas », et l’instruction permanente de l’architecture est que toute surface de ce type doit «hériter de la propriété de refus en tant qu’invariant de conception plutôt que comme correctif ». Un modèle de monde « communauté-état » est un objet de classe A7. Il est construit à l’intérieur de l’isolation d’un locataire, jamais au-delà de celle-ci ; il effectue des prédictions au sein du monde d’une communauté et n’accède à celui d’une autre que par le biais de la même enveloppe de fédération révocable et soumise au consentement qui régit tous les autres flux intercommunautaires.

Commencer à le remplir avec ce que la communauté voit déjà

Une question légitime, une fois la forme clarifiée : d’où provient le contenu de cet état latent, et devons-nous l’attendre ? Une partie de la réponse réside dans le fait que nous entraînons déjà chaque modèle situé en lui fournissant davantage de matériel propre à la communauté — ses documents, ses décisions, ses règles. Le même instinct va bien au-delà du texte. Un extrait du marché fermier du samedi, les images filmées par quelqu’un lorsque les digues ont cédé et que la rivière a débordé, l’enregistrement d’une remise de diplômes au lycée — ce ne sont pas des sentiments. C’est une communauté qui se raconte son monde à elle-même, et elle peut commencer dès maintenant à remplir l’espace latent, avec des outils qui existent déjà.

Il convient d’être précis sur ce point, car c’est là que les travaux de LeCun retrouvent leur ancrage concret. Ses modèles V-JEPA — ceux dédiés à la vidéo, ouverts et exécutables dès aujourd’hui — font précisément ce que son architecture exige : ils prennent des vidéos et produisent des représentations, pas des pixels, en apprenant à identifier la structure qui mérite d’être conservée et en écartant le reste. Une communauté n’a pas besoin d’un laboratoire de pointe pour y parvenir. Elle a besoin d’un encodeur ouvert et de ses propres séquences vidéo. Appliquez-le à la vidéo de l’inondation et ce qui en ressort n’est pas un film ; c’est une trace latente de la façon dont l’eau s’est déplacée lorsque la berge a cédé — cette connaissance ancrée dans la réalité et porteuse de conséquences dont LeCun affirme qu’un système exclusivement textuel ne pourra jamais disposer, concernant le lieu qui compte le plus pour les personnes qui y vivent.

Ici, l’échelle communautaire est un atout, pas une limite. Le programme de LeCun a besoin de plus d’un million d’heures de vidéos sur Internet pour apprendre un modèle général du monde physique. Une communauté n’a besoin de rien de tel. Elle n’a besoin que de son propre monde — son awa, son marae, ses saisons, ses rues — et cela constitue un petit corpus, qu’elle possède déjà, qui est déjà son taonga. Le marché, la tempête, la remise des diplômes suffisent pour commencer. C’est là la rampe d’accès vers laquelle l’argument a toujours tendu : on n’attend pas que le modèle prédictif soit achevé avant de commencer à l’ancrer dans la réalité ; on pose les premières véritables pierres avec les images dont la communauté dispose déjà.

Et ces images n’ont pas besoin d’être des images, ni d’être finalisées. Un jauge de rivière indiquant son niveau à la minute près, un flux de marée et de houle au large de la côte, des capteurs de précipitations et d’humidité du sol au-dessus des digues de protection, des sondes de qualité de l’eau dans l’awa — ce sont là aussi des flux sensoriels, et ils sont d’autant plus fidèles à la vision de LeCun qu’ils sont en temps réel. Dans son architecture, la perception ne se contente pas de lire le monde une seule fois ; elle met à jour le modèle en continu à mesure que le monde change, et le modèle justifie son existence en anticipant les prochaines heures — ce que fera la rivière si la pluie cesse, où ira la berge si ce n’est pas le cas — avant que quiconque ne doive agir. Une communauté peut aujourd’hui intégrer ses propres flux en temps réel dans son propre modèle ; les capteurs sont ordinaires, les données appartiennent à la communauté, et la question à laquelle le modèle répond est locale, et non générale : non pas ce que font les rivières, mais ce que cet awa s’apprête à faire. Le Village a déjà mis au point la plus petite version de ce système — un assistant de surveillance local qui observe les indicateurs propresàuntaongaet ne fait rien d’autre que remarquer, mémoriser et alerter, selon le principe fondamental selon lequel l’IA assiste et ne décide pas.

Deux principes doivent être respectés lors de toute cette démarche, et aucun n’est facultatif. Quelle que soit la donnée d’entrée — un extrait vidéo, une image, un flux en direct —, elle est enregistrée en tant qu’ enregistrement souverain, intégrant le consentement, la provenance et le statut de kaitiaki dans le latent ; lorsqu’elle touche un wāhi tapu, un tronçon protégé d’awa, ou une personne qui n’a pas consenti à être là, le latent hérite de cette restriction plutôt que de la faire disparaître. Les données d’un taonga appartiennent au kaitiaki dece taongaet restent en Aotearoa, sur une infrastructure à laquelle la communauté a accès — un flux en direct n’est pas un permis pour acheminer la vie d’une rivière vers le cloud de quelqu’un d’autre. Et le point le plus délicat, particulièrement sensible lorsque l’entrée concerne des personnes : il s’agit d’ancrage, pas de surveillance. La remise des diplômes s’inscrit dans le modèle en tant qu’événement de la vie d’une communauté, jamais comme un moyen d’ identifier et de suivre les visages qui la composent. La règle selon laquelle l’architecture ne conserve aucune donnée biométrique d’aucune sorte n’est pas suspendue parce que l’ apport est désormais une vidéo ou un flux de capteurs ; c’est précisément là qu’elle est la plus nécessaire. Un modèle communauté-État se nourrit de la vision qu’a la communauté de son propre monde. Il ne doit jamais devenir un moyen de surveiller les personnes qui la composent.

Qui est kaitiaki du modèle du monde ?

C’est là que le Village va au-delà de LeCun plutôt que de se contenter de l’appliquer, et cette introduction a été rédigée dans nos propres travaux antérieurs. L’ article« Plural Values » a identifié, dans la littérature sur l’optimisation de pointe, une absence précise : « aucun kaitiaki sur l’artefact ». Le mécanisme qui décide quelle version d’un modèle survit — quelle amélioration est mise en service — ne laisse aucune place à la communauté à laquelle cet outil appartient. La décision est prise par un score. L’argument central de cet article était que « le benchmark se situe en aval du kaitiaki », et non au-dessus de lui.

Un modèle du monde aiguise la question jusqu’à la réduire à l’essentiel : qui est kaitiaki du modèle de votre monde ? L’architecture de LeCun, si on la lit attentivement, nous fournit pratiquement la réponse. Son module de coût comporte deux parties, et cette division est révélatrice. Le critique est entraînable — il apprend. Mais le coût intrinsèque est, selon ses propres termes, « immuable (non entraînable) » — c’est là que résident les pulsions non négociables du système, la partie que l’apprentissage n’est pas autorisé à toucher. LeCun la remplit d’analogues biologiques câblés en dur : la douleur, la faim, les besoins fondamentaux d’ un animal. Le Village possède lui aussi une couche immuable, et ce n’est pas de la biologie — c’est une constitution. Le socle constitutionnel de l’architecture contient déjà, sous forme de code plutôt que de politique, les engagements qu’aucune partie ne peut éroder subrepticement : certaines décisions nécessitent toujours l’intervention d’un humain ; un contenu que l’autorité culturelle qualifie de « tapu » entraîne le refus ou l’escalade ; l’autorité d’une personne concernée sur ses données ne peut être révoquée en silence ; le Te Tiriti y figure « en tant qu’engagement constitutionnel, et non comme une simple formule de courtoisie ».

Ainsi, le modèle de monde « communauté-État » Villagecomporte un élément que la spécification de LeCun laisse en blanc : son coût intrinsèque réside dans une loi rédigée par la communauté, et son critique entraînable s’inscrit dans le cadre de cette loi, guidé par le pack de gouvernance signé par la communauté plutôt que par un objectif global. La porte, c’est le protocole de pilotage ; le score se situe en aval du kaitiaki. Le coût intrinsèque, c’est la constitution. Telle est la réponse à la question « qui est kaitiaki du modèle du monde », traduite en termes d’architecture : c’est la communauté, car la partie immuable de la valeur du modèle est le seuil constitutionnel propre à la communauté, et la partie modifiable répond à l’autorité de pilotage propre à la communauté. L’unité sur laquelle une communauté délibère n’est plus une mise à jour opaque du modèle ; c’est un diff latent — un changement lisible et signé dans le modèle de son monde, qu’elle peut inspecter, contester et annuler exactement comme elle inspecte, conteste et annule un enregistrement aujourd’hui.

La fédération : comment elle prend racine

Rome ne s’est pas construite en un jour, et elle n’a pas été construite par une seule main. Un modèle du monde unique à l’échelle d’une communauté est une simple pierre, pas une cathédrale. Le chemin menant de l’unique au multiple est la démarche que ce programme a déjà dénommée dans « Federate, Don’t Align » : conservez le vôtre, et rejoignez celui des autres par le biais de « canaux liés au consentement et révocables, plutôt que de vous précipiter vers un centre ».

Approfondissons un peu ce raisonnement : passons de la fédération des enregistrements et de l’inférence linguistique à la fédération des modèles du monde. Lorsque cela deviendra réalité, un Village n’exploitera pas un seul modèle situé, mais plusieurs : un modèle de ses propres affaires et, par le biais d’enveloppes bilatérales, le modèle d’une communauté homologue lorsqu’une question touche au monde de cette dernière. Chaque Village détient le modèle du monde qui lui est propre. Aucun ne détient un modèle commun à tous. Lorsqu’une question de planification dépasse le cadre d’une seule communauté — une voie navigable partagée, un parcours de soins régional, une dénominationiwi —, les communautés concernées fédèrent leurs modèles de la même manière qu’elles fédèrent déjà leurs données : de manière bilatérale, avec un champ d’application limité, adressées à un destinataire nommé, révocables instantanément, tout en conservant intacte la provenance de chaque prédiction . La capacité à l’échelle du modèle du monde s’acquiert alors de la même manière que le Village acquiert toutes ses autres capacités — par composition, et non par concentration. Un maillage de modèles communauté-état, chacun souverain sur son propre monde, peut raisonner à une échelle qu’aucun d’entre eux ne pourrait atteindre seul, sans modèle central auquel quiconque doive se fier et sans registre que quiconque puisse saisir.

Il s’agit, au sens strict, de la hiérarchie de LeCun renversée. Son H-JEPA empile des modèles du monde à des niveaux d’abstraction de plus en plus grossiers au sein d’un seul système. Une fédération les empile entre les communautés, où la vision plus grossière et plus large n’est pas une couche supérieure d’un seul modèle, mais la composition de nombreux modèles souverains sous consentement. C’est la forme polycentrique — les nombreuses autorités égales entre elles d’Ostrom — transposée en cognition plutôt qu’en simple gouvernance. Et elle hérite de la propriété qui a fait de la fédération le choix sûr dès le départ : il n’existe pas de clé unique dont la perte serait une perte pour tous. Une communauté peut perdre un pair, un modèle, voire un fournisseur de substrat, et s’en remettre, car elle n’a jamais confié à quiconque le modèle de son propre monde.

C’est la voie pragmatique qui permettra à une IA ancrée dans le monde de s’enraciner dans le monde réel des institutions humaines. Non pas un modèle planétaire d’un milliard de dollars que tout le monde doit interroger et donc auquel tout le monde doit faire confiance, mais un maillage fédéré de petits modèles de monde, gouvernés et détenus par des communautés — construisables dès maintenant, par précisément les acteurs que la course aux capacités a déjà écartés, sur précisément le substrat sur lequel Village fonctionne déjà.

Le mot unique, utilisé une seule fois

J’ai évité jusqu’à présent un mot qui a sa place dans cet essai, et je vais l’utiliser maintenant, une seule fois, en précisant exactement ce que j’entends par là et ce que je n’entends pas.

LeCun appelle son objectif « intelligence artificielle autonome ». Je pense que le nom honnête de ce vers quoi cela mène, lorsqu’un agent dispose d’un modèle du monde dans lequel il agit et peut prévoir les conséquences de ses actions sur les personnes, est le premier véritable pas vers ce que j’appellerai une IA sensible. LeCun n’utilise pas ce mot ; la responsabilité de ce choix m’incombe. Et je n’entends par là rien qui ait trait à la conscience, rien qui ait trait aux sentiments, rien qui ait trait à une vie intérieure ou à une prétention à un statut. Je veux simplement dire ceci : une machine qui possède un monde — un modèle de la communauté particulière qu’elle sert — et qui peut être régie en son sein, car elle est capable de prédire les conséquences de ses actions sur les personnes et doit leur soumettre cette prédiction avant d’agir. La sensibilité, ici, n’est pas une dimension intérieure ; c’est une obligation de rendre des comptes. C’est la différence entre un instrument qui agit à l’aveugle et un instrument que l’on peut obliger à rendre compte, à l’avance, de ce que son action coûtera.

Le Village du Tractatustrace la ligne qui garantit cette honnêteté, et il vaut la peine de le citer car il interdit précisément les excès auxquels le mot invite. Limite 12.6 : « L’autonomie ne peut être simulée, seulement respectée. » Le modèle mondial « communauté-État » simule le monde dans lequel vit la communauté — les lieux, les relations, les conséquences, la dynamique de l’État propre à la communauté. Il ne doit en aucun cas simuler l’ autonomie de la communauté — la prise de décision, la création, le choix, que le Tractatus considère comme ne relevant absolument pas de la modélisation par la machine. Un modèle mondial qui modélise le monde pour protéger l’autonomie des personnes est le serviteur sur lequel ce programme a toujours insisté. Un modèle mondial qui modélise les personnes afin de décider à leur place est le sujet qu’il a toujours refusé. Le premier est la construction. Le second est le mode de défaillance, et la ligne qui les sépare n’est pas rhétorique ; c’est le seuil constitutionnel, en code.

Cela maintient la machine là où le corpus l’a toujours placée. Dans le cadre conceptuelKaraitiana Taiuru— He Tangata, He Karetao, He Ātārangi —, l’IA est semblable à une personne dans l’interaction, semblable à une marionnette dans son fonctionnement, et, dans son origine, une ombre , « projetée à partir du langage humain », et non un nouvel être autonome. Un modèle du monde ne change pas la métaphysique. Il rend l’ombre plus utile et plus responsable. Il n’en fait pas une personne, et dès l’instant où quelqu’un propose de lui accorder ce statut, la discipline est détournée et la bonne réaction est de s’arrêter. Cela mérite d’être pris au sérieux. Cela ne mérite pas d’être placé sur un trône.

Les limites, énoncées clairement

Rien de tout cela n’est livré, et la même discipline qui régit le reste de l’architecture régit cette affirmation. Il n’existe actuellement aucun modèle mondial de type « communauté-État » en fonctionnement au sein du Village. Il s’agit de la prochaine étape architecturale, dénommée ainsi — et non d’un système en production, et je ne le décrirai pas comme tel, selon le même principe qui pousse le projet à refuser de mettre en service une cohorte de modèles situés avant que sa première véritable communauté n’existe : pas de construction ambitieuse, et pas d’écrits ambitieux sur la construction. Le substrat sur lequel il reposerait est réel et opérationnel ; le mécanisme de fédération sous-jacent à la vision du maillage fédéré est livré et a fait l’objet de tests adversariaux, mais aucune fédération active entre des communautés indépendantes n’ existe encore ; le modèle mondial lui-même est une conception, présentée comme telle.

Les limites réelles vont plus loin. Cela concerne la souveraineté en matière de gouvernance, et non la souveraineté du substrat : un modèle mondial de type « communauté-État » fonctionnerait toujours sur des poids ouverts créés ailleurs et sur du matériel qu’aucune petite communauté n’a construit, et c’est précisément dans cette dépendance que la course aux capacités continue d’ exercer son emprise. La contrainte la plus difficile est celle sur laquelle je suis le moins à même de me prononcer. Ce texte est rédigé dans une perspective délibérément limitée etMāori — une esquisse vue de l’extérieur, qui doit rendre des comptes à ceux dont les connaissances elle s’inspire. Lorsqu’il invoque kaitiaki, whakapapa, tapu, il emprunte un vocabulaire relationnel, et la mise en garde la plus importante de tout le programme s’applique pleinement : copier ce vocabulaire sans déléguer une véritable autorité revient à reproduire la coquille symbolique tout en conservant la substance. Un modèle de monde « communauté-État » n’a de sens que si la communauté détient véritablement la constitution qui en constitue le coût intrinsèque et la gouvernance qui régit sa critique — seulement si, selon les termes de Te Kāhui Raraunga, l’autorité Māori sur les données Māori soit pleinement réalisée plutôt que simplement évoquée. Ce qui constitue une utilisation appropriée d’un tel modèle dans les contextes du te ao Māori, c’est aux tangata whenua d’en décider, et rien ici ne s’y oppose. Cet essai, comme ceux qui l’ont précédé, a été rédigé à l’aide d’outils de pointe fonctionnant sur une infrastructure située en dehors des juridictions qu’il défend. Ce n’est pas une honte à cacher. C’est l’ argument même, démontré : la dépendance est réelle, et c’est précisément pour cette raison qu’il vaut la peine de construire dès maintenant la couche qu’une communauté peut détenir.

Ce que cela implique

Un modèle linguistique peut répondre à partir des textes du monde entier. Un modèle situé peut répondre à partir des textes propres à une communauté, sous son autorité. Mais un agent qui agirait au nom d’une communauté a besoin de plus qu’une simple réponse — il doit anticiper les conséquences de son action sur les personnes, et leur soumettre cette anticipation avant de passer à l’action. C’est à cela que sert un modèle mondial, et c’est l’élément que notre propre architecture a identifié comme manquant. LeCun a fait savoir à l’ensemble de la communauté scientifique, au prix d’une entreprise d’un milliard de dollars, que cet élément constitue la différence entre la fluidité et l’intelligence. Le Village peut affirmer ce qu’il ne peut pas dire : que le premier lieu où le construire n’est pas la planète mais la communauté, que la communauté doit être kaitiaki du modèle de son propre monde, et que, fédérée plutôt que centralisée, elle peut s’enraciner sans qu’il y ait de centre à capturer.

Un modèle peut répondre. Un agent peut agir. Mais seul un agent capable d’ imaginer ce que son acte fera à une communauté — et de laisser la communauté être celle qui décide — a gagné le droit d’agir. Le modèle du monde, c’est la façon dont il l’imagine. Le kaitiaki, c’est celui qui décide. Et la ligne qui empêche le premier de devenir le second est la seule chose sur laquelle le Village a refusé tout compromis depuis le début : la machine modélise le monde ; les personnes en restent les auteurs.

La plateforme Village et le cadre Tractatus constituent une tentative de rendre la gouvernance réalisable pour des communautés à échelle humaine — en redonnant l’autorité à ceux qui peuvent légitimement la détenir, et en permettant aux communautés de fédérer cette autorité plutôt que de s’en défaire.

Sources. Yann LeCun, A Path Towards Autonomous Machine Intelligence, v0.9.2, 27 juin 2022 (OpenReview BZ5a1r-kVsf) — toutes les citations tirées de l’article sont reproduites mot pour mot. LeCun sur la création AMI Labs, LinkedIn, 18 novembre 2025. « La nouvelle entreprise de Yann LeCun est un pari à contre-courant contre les grands modèles linguistiques », MIT Technology Review, 22 janvier 2026 (« manque d’un modèle du monde » ; « ne sera pas construit sur des LLM » ; chat domestique/voiture autonome). « LLM-pilled » / « creuser la même tranchée », AI House, Forum économique mondial (Davos), rapporté dans Fortune, 23 janvier 2026. Bande passante et métaphore du « chat domestique », podcast de Lex Fridman n° 416, 7 mars 2024. V-JEPA 2, IA chez Meta, 11 juin 2025 (arXiv:2506.09985). Sur le front de la recherche en cours sur les modèles de monde latent : Röder et al., Dynamics-Aligned Latent Imagination (NeurIPS 2025, arXiv:2508.20294) ; Hierarchical Planning with Latent World Models (arXiv:2604.03208) ; Zou et al., Latent Collaboration in Multi-Agent Systems (arXiv:2511.20639) ; Locatello et al., Object-Centric Learning with Slot Attention (NeurIPS 2020, arXiv:2006.15055) ; Zeng & Dong, Latent World Models for Automated Driving (arXiv:2603.09086). Concernant les questions controversées , abordées sans être éludées : Xing et al., Critiques of World (arXiv:2507.05169) ; Gurnee & Tegmark, Les modèles linguistiques représentent l’espace et le temps (ICLR 2024, arXiv:2310.02207) ; Melanie Mitchell sur les modèles du monde dans les LLM. Sources Village, agenticgovernance.digital : Architecture « Sovereign-Record » pour les plateformes à l’échelle communautaire (v4) ; Une proposition de la société civile pour une IA agentique souveraine et fédérée en Aotearoa New Zealand (v1.2) ; Conservé dans kōrero, non réduit à un chiffre — valeurs plurielles, organisations vivantes et IA; Fédérer, ne pas aligner; Kaitiaki Intelligence et le Mokopuna Recorder. Ancrage dans le te ao Māori: Te Kāhui Raraunga, modèleMāori de gouvernance des données (2023) ; Karaitiana Taiuru, cadre d’IAKaupapa Māori — He Tangata, He Karetao, He Ātārangi (2026). Héritage intellectuel des enregistrements porteurs de preuves : G. C. Necula, « Proof-Carrying Code », POPL 1997.

Un modèle mondial à l’échelle communautaire pour la souveraineté des données autochtones — fairetaonga, du consentement et whakapapa des facteurs de premier plan dans le modèle qu’une IA utilise pour anticiper ses propres actions.