Isabelle Bordry
👤 SpeakerAppearances Over Time
Podcast Appearances
En fait, plus traditionnellement, les robots sont entraînés avec des modèles vision, langage et action.
Ils se servent de la perception visuelle et de la compréhension du langage naturel pour générer les actions.
Le problème, c'est que c'est très lent.
Il faut des milliers et des milliers d'heures pour générer une seule action très simple pour l'homme.
Et c'est là que le World Model a un avantage de taille, c'est qu'il va utiliser une combinaison de vidéos et d'instructions pour doter Neo de nouvelles capacités.
Donc au total, le modèle repose sur pas moins de 14 milliards de données, dont 900 heures de vidéos.
Et ça, ça lui permet justement d'apprendre à réaliser des tâches concrètes.
sur lequel il n'a pas été entrené.
Un exemple concret pour essayer de mieux comprendre, c'est que par exemple, un robot classique, s'il a appris à déplacer une pomme dans une assiette, il ne va pas réussir à déplacer une pomme de terre dans une casserole.
Alors que Neo, lui, avec le World Model, il a appris simplement à déplacer d'autres objets, donc même s'il n'a jamais vu de pommes de terre, il va pouvoir récupérer, enfin répéter ce geste.
C'est ça, c'est un petit peu l'idée.
Alors après, ça ne veut pas dire qu'il suffit au robot de regarder une seule vidéo pour faire toutes les actions.
Si on lui montre comment garer une voiture, il ne va pas réussir à faire un créneau du premier coup.
En revanche, il va réussir à tenter l'action, pas forcément la réussir parce que pour le moment, il est centré sur des actions très simples.
Par exemple, faire une poignée de main ou mettre des toasts à griller.
Donc, tu l'as compris, c'est une belle avancée.
Et bon, il faut encore un petit peu l'améliorer.
Donc, la prochaine étape de One X et d'OpenAI, c'est de faire comprendre à nos détaches plus complexes pour vraiment le rendre autonome dans la maison.
Un peu le rêve.
20 000 dollars, le rêve.