Facebook et Matterport travaillent ensemble pour mettre à la disposition des chercheurs et de leurs jeunes IA des milliers de jumeaux numériques virtuels et interactifs d’espaces réels. Pour apprendre à un robot à s’orienter dans une maison, il faut soit lui faire passer beaucoup de temps réel dans un grand nombre de maisons réelles, soit lui faire passer beaucoup de temps virtuel dans un grand nombre de maisons virtuelles.
Matterport et Facebook créent Habitat 2.0
Du côté de Facebook AI Research, la grande avancée est en deux parties : le nouvel environnement d’entraînement Habitat 2.0 ; et l’ensemble de données qu’ils ont créé pour le rendre possible. Vous vous souvenez peut-être d’Habitat, créé il y a quelques années ; dans le cadre de la recherche de ce qu’il appelle « l’IA incarnée » ; c’est-à-dire des modèles d’IA qui interagissent avec le monde réel. Facebook a assemblé un certain nombre d’environnements virtuels assez photoréalistes pour qu’ils puissent y naviguer.
De nombreux robots et IA ont appris des choses comme le mouvement et la reconnaissance des objets dans des espaces idéalisés et irréalistes. Des espaces qui ressemblent plus à des jeux qu’à la réalité. Un salon du monde réel est très différent d’un salon reconstitué. En apprenant à se déplacer dans un environnement qui ressemble à la réalité, les connaissances d’une IA seront plus facilement transférables à des applications du monde réel ; comme la robotique domestique.
Mais en fin de compte, ces environnements n’avaient qu’une profondeur de polygone ; avec une interaction minimale et aucune simulation physique réelle. Si un robot heurte une table, il ne tombe pas et ne renverse pas des objets partout. Le robot pouvait aller dans la cuisine, mais il ne pouvait pas ouvrir le réfrigérateur ; ou sortir quelque chose de l’évier. Habitat 2.0 et le nouvel ensemble de données ReplicaCAD changent la donne. Cela offre une interactivité accrue et des objets 3D au lieu de simples surfaces 3D interprétées.
Rendre les robots plus intelligents
Les robots simulés dans ces nouveaux environnements à l’échelle d’un appartement peuvent rouler comme avant. Lorsqu’ils arrivent devant un objet, ils peuvent réellement en faire quelque chose. Par exemple, si la tâche d’un robot est de prendre une fourchette sur la table de la salle à manger et d’aller la poser dans l’évier, il y a quelques années, prendre et poser la fourchette était une simple supposition, car il était impossible de le simuler efficacement. Dans le nouveau système Habitat, la fourchette est physiquement simulée ; tout comme la table sur laquelle elle se trouve, l’évier vers lequel elle se dirige, etc. Cela rend le système plus intense en termes de calcul, mais aussi beaucoup plus utile.
Ils ne sont pas les premiers à atteindre ce stade, loin s’en faut. Cependant, l’ensemble du domaine avance à grands pas. Aussi, chaque fois qu’un nouveau système sort, il dépasse les autres d’une certaine manière et indique le prochain grand goulot d’étranglement ou la prochaine opportunité. Dans ce cas, le concurrent le plus proche d’Habitat 2.0 est probablement ManipulaTHOR d’AI2. Il combine des environnements à l’échelle de la pièce avec la simulation d’objets physiques.
Là où Habitat le bat, c’est au niveau de la vitesse. D’après l’article qui le décrit, le simulateur peut fonctionner environ 50 à 100 fois plus vite. Ce qui signifie qu’un robot peut effectuer beaucoup plus d’entraînement par seconde de calcul.
L’ensemble de données utilisé s’appelle ReplicaCAD. Il s’agit essentiellement des scans originaux de la pièce recréés avec des modèles 3D personnalisés. Facebook admet qu’il s’agit d’un processus manuel laborieux et qu’il cherche des moyens de le mettre à l’échelle. Mais il fournit un produit final très utile.
Des objets, des mouvements et des présences robotiques de base sont pris en charge, mais la fidélité a dû céder le pas à la vitesse à ce stade.
Matterport passe au niveau supérieur
Matterport fait également de grands pas en partenariat avec Facebook. Après avoir procédé à une énorme expansion de sa plateforme au cours des deux dernières années, la société a rassemblé une énorme collection de bâtiments numérisés en 3D. Bien qu’elle ait déjà travaillé avec des chercheurs, la société a décidé qu’il était temps de mettre une plus grande partie de sa collection à la disposition de la communauté.
« Nous avons représenté tous les types de structures physiques existantes, ou presque. Maisons, gratte-ciel, hôpitaux, bureaux, bateaux de croisière, avions, Taco Bells, McDonalds … et toutes les informations contenues dans un jumeau numérique sont très importantes pour la recherche. », explique le PDG RJ Pittman. « Nous étions persuadés que cela aurait des implications pour tout ; de la vision par ordinateur à la robotique en passant par l’identification des objets domestiques. Facebook n’a pas eu besoin d’être convaincu … pour l’habitat et l’IA incarnée, c’est en plein milieu du fairway. »
À cette fin, l’entreprise a créé un ensemble de données, HM3D, composé d’un millier d’intérieurs méticuleusement capturés en 3D. Depuis les scans de maisons que les navigateurs immobiliers peuvent reconnaître jusqu’aux entreprises et aux espaces publics. Il s’agit de la plus grande collection de ce type qui ait été rendue largement disponible.
Le réalisme pour entrainer l’IA
Les environnements, qui sont scannés et interprétés par une IA entraînée sur des jumeaux numériques précis. Ils sont dimensionnellement exacts au point de pouvoir, par exemple, calculer les chiffres exacts de la surface des fenêtres ou du volume total des placards. Il s’agit d’un terrain de jeu réaliste pour les modèles d’IA. Et, bien que l’ensemble de données qui en résulte ne soit pas (encore) interactif, il reflète parfaitement le monde réel dans toutes ses variations. Il est distinct de l’ensemble de données interactives de Facebook mais pourrait constituer la base d’une extension.
« Il s’agit spécifiquement d’un ensemble de données diversifié. Nous voulions nous assurer que nous disposions d’un groupe riche de différents environnements du monde réel. Vous avez besoin de cette diversité de données si vous voulez en tirer le meilleur parti pour former une IA ou un robot. »
Toutes les données ont été fournies volontairement par les propriétaires des espaces ; donc ne vous inquiétez pas qu’elles aient été aspirées de manière non éthique par des petits caractères. En fin de compte, explique Pittman, la société veut créer un ensemble de données plus vaste et plus paramétré auquel on peut accéder par API. Des espaces virtuels réalistes en tant que service, en gros.
« Peut-être que vous construisez un robot d’accueil, pour les chambres d’hôtes d’un certain style aux États-Unis – ne serait-il pas formidable de pouvoir en obtenir un millier ? » a-t-il songé. « Nous voulons voir jusqu’où nous pouvons pousser les avancées avec ce premier ensemble de données, obtenir ces apprentissages, puis continuer à travailler avec la communauté des chercheurs et nos propres développeurs et partir de là. C’est un point de départ important pour nous. »
Les deux ensembles de données seront ouverts et pourront être utilisés par les chercheurs du monde entier.