Nous suivre Industrie Techno

abonné

[Cahier Technique] Apprendre aux robots à faire face à l'imprévu

La rédaction
Soyez le premier à réagir

Soyez le premier à réagir

[Cahier Technique] Apprendre aux robots à faire face à l'imprévu

Désormais polyvalents et flexibles, les robots doivent s’adapter à des conditions de travail de plus en plus complexes. L’apprentissage automatique et la simulation peuvent répondre à certains enjeux de l’industrie, explique dans ce cahier technique Stéphane Doncieux, professeur d’informatique à Sorbonne Université et directeur adjoint de l’Institut des systèmes intelligents et de robotique (Isir).

Les robots sont de plus en plus polyvalents et pourraient réaliser de nombreuses tâches, y compris dans notre environnement immédiat au contact d’utilisateurs ou de simples passants. C’est possible notamment grâce à de nouveaux actionneurs adaptatifs et moins dangereux, mais cette capacité théorique reste cependant difficile à transformer en applications concrètes. Un des principaux freins est lié à la variabilité des tâches et des environnements auxquels de tels robots seraient confrontés. Plus celle-ci est importante, plus la tâche des concepteurs du robot est délicate, car ils doivent anticiper les situations qui peuvent se produire. Les méthodes récentes d’apprentissage peuvent leur être d’un grand secours en automatisant, au moins partiellement, la création de comportements appropriés.

Faire face à l’imprévu est une des problématiques clés de la robotique. Elle est abordée de différentes façons, par exemple en concevant un système mécanique robuste et redondant, ou en installant un contrôleur capable de suivre une consigne tout en rejetant certaines perturbations extérieures (comme le dérapage d’un robot terrestre ou la rafale de vent que subirait un drone). Dans ces différentes approches, le comportement souhaité du robot est connu.

Dans un environnement non contrôlé, un robot peut être confronté à des situations variées parfois difficiles à anticiper pour ses concepteurs et dans lesquelles le comportement souhaité n’est pas toujours connu. Ainsi, les robots aspirateurs qui sont sur le marché depuis plus de vingt ans continuent à se retrouver parfois dans des situations qu’ils ne peuvent gérer, malgré les améliorations mécaniques apportées au fil des ans. Dans ce cas, l’utilisateur humain doit intervenir. Le problème, c’est qu’un tel robot continuera indéfiniment à se bloquer dans la même situation, forçant l’utilisateur à s’adapter. Les avancées récentes en apprentissage automatique (machine learning) peuvent rendre le comportement du robot plus adaptatif tout en facilitant la tâche des concepteurs de robots.

1. Les limites de l’apprentissage supervisé

L’apprentissage automatique est un domaine très vaste qui recouvre de nombreuses méthodes. Il consiste à modifier automatiquement le comportement d’un programme à partir d’informations extérieures et du comportement passé de ce programme, autrement dit de la façon dont il a réagi. Il existe plusieurs types d’apprentissage. Le plus utilisé actuellement est l’apprentissage supervisé (fig. 1). Dans ce paradigme, on indique au programme comment il doit se comporter en lui présentant de nombreux exemples de données d’entrée et des sorties associées.

Dans le cas de la reconnaissance d’image, par exemple, on fournit de nombreuses images au système en lui indiquant dans un premier temps l’objet qui est représenté. Des étiquettes – comme « chat », « bateau », « montagne »… – sont manuellement associées aux images. Cette phase modifie peu à peu le programme pour qu’il trouve la ou les étiquettes associées. C’est ce que fait l’apprentissage profond (deep learning) avec des réseaux de neurones artificiels. Ces réseaux sont eux-mêmes des programmes, dotés d’un grand nombre de petites unités de calcul élémentaire connectées entre elles.

Fig. 1. Un humain fournit au programme un jeu de données préalablement étiquetées. Le programme s’entraîne à reconnaître une information (images, sons…) et doit générer la bonne étiquette. Si elle est fausse, c’est-à-dire différente de la base de données fournie par le superviseur, le programme se corrige automatiquement jusqu’à donner la bonne réponse.

L’apprentissage supervisé apporte donc des modifications aux paramètres de ce réseau de neurones en prenant en compte ses erreurs pour qu’il ne les reproduise plus à l’avenir. Tout l’intérêt de cette méthode est que, si le réseau est entraîné avec suffisamment de données, il donnera également une réponse correcte pour des entrées similaires. C’est cette méthode qui est utilisée par les Gafa et qui explique pourquoi les données sont si importantes pour ces entreprises.

Ce type d’apprentissage ne s’applique pas bien à la robotique car un robot est un système bouclé : ses perceptions déterminent ses actions, qui elles-mêmes détermineront ses perceptions futures. Le moindre écart de comportement sera donc amplifié et risque de placer le robot dans un contexte trop différent de ce qui est présent dans sa base d’exemples. Cette méthode impliquerait de créer une base d’exemples colossale, ce qui est en général hors de portée, d’autant plus qu’il faut indiquer précisément ce que le robot devrait faire dans chaque cas.

2. Alléger les données

Une autre méthode permet de s’affranchir de cette contrainte liée aux données : l’apprentissage par renforcement. Il consiste à chercher le comportement permettant de maximiser une récompense. Le comportement est déterminé par une fonction appelée une politique, qui associe à un état donné l’action à réaliser pour maximiser la récompense sur un certain horizon temporel. Dans ce contexte, l’état du système est l’information nécessaire pour que celui-ci puisse décider.

L’apprentissage par renforcement vise donc à construire cette politique pour un système donné. Pour cela, il explore les différentes possibilités et exploite cette expérience pour découvrir, reproduire et améliorer les comportements maximisant la récompense. C’est une forme d’apprentissage par essai-erreur : on essaie d’appliquer une certaine action depuis un état donné, on observe le résultat obtenu et on en déduit si c’était une bonne idée d’agir ainsi dans ce contexte. Ce besoin d’explorer différencie ces méthodes d’apprentissage des méthodes de planification qui supposent de connaître les conséquences d’une action sans avoir besoin de la tester. Il est donc au cœur de l’apprentissage par renforcement.

Il existe plusieurs familles d’algorithmes d’apprentissage par renforcement (fig. 2), qui se distinguent par la façon dont est gérée la politique et par la façon d’exploiter l’expérience acquise. On peut tout d’abord chercher à associer une valeur à un état ou à un couple état-action. Cette valeur est représentative de la récompense que l’on peut espérer en passant par là. Une politique peut alors se construire aisément en choisissant, pour un état donné, l’action qui mènera à la plus grande valeur. Attribuer la bonne valeur à un état ou à un couple état-action revient donc à estimer sa contribution à la récompense que l’on peut espérer. C’est un problème d’attribution de crédit (credit assignment). Prenons un exemple où un robot doit naviguer dans un labyrinthe pour trouver la sortie (position dans laquelle il obtiendra la récompense), alors les positions précédentes peuvent se voir attribuer une valeur un peu inférieure, celles d’avant une valeur encore un peu inférieure… Si la valeur a bien été propagée parmi toutes les possibilités, lorsque le robot arrive à une intersection, il sait quelle direction adopter : celle qui est associée à la valeur la plus importante car c’est elle qui mènera le plus directement à la sortie.

Fig. 2. L’apprentissage par renforcement consiste à tester un grand nombre de possibilités et de les évaluer en fonction d’une récompense à obtenir. Celle-ci est d’autant plus grande que l’action se rapproche de l’objectif fixé. C’est l’apprentissage le plus adapté pour la robotique.

Une deuxième famille d’algorithmes ne cherche pas à apprendre des fonctions de valeur et des modèles de transition déterminant dans quel état une action va mener. Ces approches consistent à représenter la politique comme une fonction paramétrée de l’état. L’action est alors directement calculée à partir de l’état courant du robot. Le choix de la fonction utilisée pour représenter la politique est très important puisqu’il va définir ce que le robot sera capable de faire. Différentes fonctions sont utilisées selon les applications et peuvent être organisées[…]

Pour lire la totalité de cet article, ABONNEZ-VOUS

Déjà abonné ?

Mot de passe perdu

Pas encore abonné ?

vous lisez un article d'Industries & Technologies N°1045

Découvrir les articles de ce numéro Consultez les archives 2021 d'Industries & Technologies

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies

Nous vous recommandons

« Les systèmes de vision intelligents sont devenus indissociables de la robotique industrielle », pointe Hervé Henry, PDG de Siléane

« Les systèmes de vision intelligents sont devenus indissociables de la robotique industrielle », pointe Hervé Henry, PDG de Siléane

La société Siléane, intégrateur de solution robotique, a annoncé début octobre avoir pris une participation[…]

12/10/2021 | Robots
Cybersécurité industrielle : la convergence IT-OT s’impose

Dossiers

Cybersécurité industrielle : la convergence IT-OT s’impose

Sony industrialise le capteur de vision événementielle de la start-up Prophesee

Sony industrialise le capteur de vision événementielle de la start-up Prophesee

« La filière Solutions Industrie du Futur ne pourra se développer qu’à partir des besoins des industriels », clame Olivier Dario, délégué général du SYMOP

« La filière Solutions Industrie du Futur ne pourra se développer qu’à partir des besoins des industriels », clame Olivier Dario, délégué général du SYMOP

Plus d'articles