DeepFleet : L'IA d'Amazon prédit le trafic robotique, booste l'efficacité

Marktechpost

Amazon a franchi une étape importante en déployant son millionième robot dans ses centres de traitement et de tri mondiaux, consolidant ainsi sa position de plus grand opérateur mondial de robotique mobile industrielle. Cette expansion remarquable coïncide avec le lancement de DeepFleet, une suite pionnière de modèles de fondation d’IA conçus pour améliorer la coordination entre ces vastes flottes de robots. Entraînés sur des milliards d’heures de données opérationnelles réelles, ces modèles sont prêts à optimiser les mouvements des robots, à réduire considérablement la congestion et à augmenter l’efficacité globale jusqu’à 10 %.

Le concept des modèles de fondation, qui a gagné en importance dans l’IA du langage et de la vision, implique l’entraînement de vastes ensembles de données pour apprendre des schémas généraux qui peuvent ensuite être adaptés à une multitude de tâches spécifiques. Amazon applique désormais cette approche puissante à la robotique, où le défi de coordonner des milliers de robots dans des environnements d’entrepôt dynamiques exige un niveau d’intelligence prédictive bien au-delà de ce que les simulations traditionnelles peuvent offrir. Dans les centres de traitement, les robots sont essentiels pour transporter les étagères d’inventaire aux travailleurs humains, tandis que dans les installations de tri, ils gèrent efficacement les colis destinés à la livraison. Avec des flottes comptant des centaines de milliers d’unités, les goulots d’étranglement opérationnels comme les embouteillages et les blocages sont courants, ralentissant l’ensemble du processus. DeepFleet aborde directement ces problèmes en prévoyant avec précision les trajectoires et les interactions des robots, permettant une planification et une intervention proactives.

Les modèles exploitent un ensemble de données incroyablement riche et diversifié, couvrant des millions d’heures de robot et englobant diverses configurations d’entrepôts, générations de robots et cycles opérationnels. Ces données étendues permettent à DeepFleet de capturer des comportements émergents complexes, tels que les vagues de congestion, et de généraliser à travers divers scénarios, de la même manière que les grands modèles linguistiques s’adaptent à de nouvelles requêtes.

DeepFleet est construit sur quatre architectures de modèles distinctes, chacune conçue avec une approche unique pour comprendre la dynamique multi-robots. Le modèle Centré sur le Robot (RC), par exemple, fonctionne comme un observateur ciblé, prédisant les actions individuelles des robots en fonction des données du voisinage local, telles que les robots, les objets et les marqueurs proches. Malgré sa taille relativement modeste avec 97 millions de paramètres, ce modèle a démontré une précision supérieure dans les prédictions de position et d’état lors des évaluations. En revanche, le modèle Robot-Plancher (RF) adopte une vue plus large, intégrant les états individuels des robots avec les caractéristiques globales du plancher comme les sommets et les arêtes, permettant des prédictions synchrones qui équilibrent les interactions locales avec le contexte de l’entrepôt. Ce modèle plus grand, avec 840 millions de paramètres, a obtenu de solides performances sur les prédictions de temps. Une troisième approche, le modèle Image-Plancher (IF), a tenté de visualiser l’entrepôt comme une image multicanal en utilisant un encodage convolutionnel pour les caractéristiques spatiales, mais il a sous-performé, probablement en raison de difficultés à capturer des interactions robotiques précises au niveau des pixels à grande échelle. Enfin, le modèle Graphe-Plancher (GF) offre une solution efficace sur le plan computationnel, représentant le plancher de l’entrepôt comme un graphe spatio-temporel. Cela lui permet de gérer efficacement les relations globales, en prédisant les actions et les états avec seulement 13 millions de paramètres, ce qui le rend léger mais très compétitif. Ces conceptions variées, différant dans leurs approches temporelles (synchrones versus basées sur les événements) et spatiales (locales versus globales), permettent à Amazon de tester quelles méthodes sont les mieux adaptées à la prévision à grande échelle.

Les évaluations de performance sur des données d’entrepôt non vues ont utilisé des métriques telles que la déformation temporelle dynamique (DTW) pour la précision de la trajectoire et l’erreur de délai de congestion (CDE) pour le réalisme opérationnel. Le modèle RC a mené globalement, atteignant un score DTW de 8,68 pour la position et un CDE de 0,11 %, tandis que le modèle GF a offert de solides résultats avec une complexité computationnelle significativement inférieure. Des expériences de mise à l’échelle ont en outre confirmé que des modèles plus grands entraînés sur des ensembles de données plus étendus réduisent constamment les pertes de prédiction, reflétant les tendances observées dans d’autres modèles de fondation. Pour le modèle GF, les extrapolations suggèrent qu’une version à 1 milliard de paramètres, entraînée sur 6,6 millions d’épisodes, pourrait atteindre une efficacité computationnelle optimale. Cette évolutivité est un avantage critique, car la vaste flotte de robots d’Amazon fournit un volume inégalé de données opérationnelles. Les premières applications de DeepFleet incluent la prévision de la congestion et le routage adaptatif, avec un potentiel futur s’étendant à l’attribution automatisée des tâches et à la prévention des blocages.

DeepFleet a déjà un impact tangible sur le réseau mondial d’Amazon, qui s’étend sur plus de 300 installations dans le monde, y compris des déploiements récents au Japon. En améliorant l’efficacité des déplacements des robots, la technologie contribue directement à un traitement plus rapide des colis et à une réduction des coûts opérationnels, ce qui profite finalement aux clients. Au-delà de l’efficacité, Amazon souligne également son engagement envers le développement de la main-d’œuvre, ayant perfectionné les compétences de plus de 700 000 employés depuis 2019 dans des rôles liés à la robotique et à l’IA. Cette intégration vise à créer des emplois plus sûrs en déchargeant les tâches physiquement exigeantes aux machines.