# This AI Model Can Intuit How the Physical World Works
**Date de l'événement :** 07/12/2025
* Publié le 07/12/2025

## Notre decryptage
L'intelligence artificielle franchit une nouvelle étape vers une compréhension quasi humaine de notre réalité, une avancée majeure pour les industries créatives qui s'appuient sur la modélisation du monde. Tout comme un nourrisson apprend la permanence des objets en observant son environnement — comprenant qu'un verre d'eau caché derrière une planche existe toujours —, de nouveaux modèles d'IA développent désormais cette même intuition physique. Au cœur de cette évolution se trouve V-JEPA (Video Joint Embedding Predictive Architecture), un système développé par Meta. Contrairement aux approches précédentes, ce modèle ne se contente pas d'analyser froidement les données ; il manifeste une forme de "surprise" lorsque les événements visuels contredisent sa connaissance acquise du monde. Pour les créateurs et les technologues, c'est une révolution : la machine ne se contente plus de voir, elle commence à "sentir" la cohérence d'une scène. Le défi majeur pour les ingénieurs, comme pour les artistes travaillant avec des outils numériques, a longtemps été la tyrannie du détail. La plupart des systèmes d'IA traditionnels opèrent dans ce qu'on appelle "l'espace des pixels". Ils traitent chaque point de l'image avec la même importance. Randall Balestriero, informaticien à l'Université Brown, souligne l'inefficacité de cette méthode : dans une rue de banlieue, une IA classique risque de se perdre dans le mouvement insignifiant des feuilles d'un arbre au détriment de la couleur d'un feu tricolore. Pour une application créative ou de conduite autonome, ce "bruit" visuel est un obstacle à la compréhension globale. C'est ici que l'approche de Yann LeCun, directeur de la recherche en IA chez Meta, change la donne avec une architecture axée sur l'abstraction. V-JEPA ne cherche pas à prédire les pixels manquants d'une vidéo masquée. Il utilise plutôt des "représentations latentes", c'est-à-dire des niveaux d'abstraction supérieurs. Pour faire une analogie avec le dessin, au lieu de copier méticuleusement chaque trait de texture, l'IA saisit les volumes, la position et l'orientation des objets. Elle apprend à ignorer les détails superflus pour se concentrer sur l'essentiel, une compétence que tout artiste visuel doit maîtriser. Le processus d'apprentissage de V-JEPA repose sur la prédiction conceptuelle. En masquant certaines parties d'une vidéo, l'algorithme force le modèle à deviner le contenu manquant non pas visuellement, mais structurellement. Quentin Garrido, chercheur chez Meta, explique que cette capacité à écarter les informations inutiles est cruciale pour l'efficacité du système. Une fois cette intuition physique acquise, le modèle peut être adapté à des tâches spécifiques — comme la classification d'actions dans des vidéos — avec beaucoup moins de données annotées par des humains, un gain de temps précieux pour les flux de production. La pertinence de ce modèle pour simuler la réalité a été testée via le protocole IntPhys. Face à des vidéos montrant des actions physiquement plausibles ou impossibles, V-JEPA a atteint un taux de précision de près de 98 %. Plus fascinant encore, l'équipe a pu quantifier mathématiquement la "surprise" de l'IA. Lorsqu'une balle disparaît derrière un obstacle et ne réapparaît pas logiquement, le modèle génère une erreur de prédiction élevée, mimant la réaction cognitive d'un enfant de six mois. Micha Heilbron, scientifique cognitif à l'Université d'Amsterdam, y voit la preuve que l'intuition physique est un trait qui peut s'apprendre sans connaissances innées complexes. Bien que prometteuse, cette technologie a ses limites. Karl Friston, neuroscientifique computationnel, note que le modèle manque encore d'une gestion fine de l'incertitude. De plus, la version la plus récente, V-JEPA 2, entraînée sur 22 millions de vidéos et publiée en juin 2024, souffre d'une mémoire courte. Quentin Garrido compare d'ailleurs la capacité mémorielle actuelle du modèle à celle d'un poisson rouge : il ne peut gérer que quelques secondes de vidéo à la fois. Néanmoins, l'application de ces modèles à la robotique ouvre des perspectives créatives immenses. En s'entraînant avec seulement quelques heures de données robotiques, le système a pu planifier des actions et manipuler des objets. Si l'IA possède désormais une intuition physique, elle pave la voie à des assistants créatifs capables de comprendre la dynamique du monde réel, libérant ainsi les créateurs des contraintes techniques pour se concentrer sur l'imaginaire.

### Galerie d'image
![1.jpeg](https://firebasestorage.googleapis.com/v0/b/memory-miacc.firebasestorage.app/o/prod%2FAWAgCCVMWK3hFgdeEHAY%2FprojectsMedias%2FNplc5U0nraeSYGVDApFW%2Fthumbs%2F1_1600x900.png?alt=media&token=27235010-46bf-4f0f-a061-cbfe38de1e7a) 

### Source
**[Wired](https://www.miacc.fr/structure/wired_8OrXCDvPiYDBnrPCdunw)** 


## Article original écrit par
Anil Ananthaswamy

## Article
The V-JEPA system uses ordinary videos to understand the physics of the real world.

**Lien :** [https://www.wired.com/story/how-one-ai-model-creates-a-physical-intuition-of-its-environment/](https://www.wired.com/story/how-one-ai-model-creates-a-physical-intuition-of-its-environment/)

### ICC
`#Audiovisuel & Cinéma` `#Jeux vidéo & e-sport` `#Édition numérique & nouveaux médias` 


---
### Navigation pour IA
- [Index de tous les contenus](https://www.miacc.fr/llms.txt)
- [Plan du site (Sitemap)](https://www.miacc.fr/sitemap.xml)
- [Retour à l'accueil](https://www.miacc.fr/)