Nous suivre Industrie Techno

Intelligence artificielle : comment un logiciel de Google a détrôné un champion du jeu de Go

Intelligence artificielle : comment un logiciel de Google a détrôné un champion du jeu de Go

La prouesse, réalisée en toute discrétion en octobre dernier à Londres, fait la une de la revue Nature ce jeudi 28 janvier.

© DR

Le jeu de Go est considéré comme l’un des jeux de stratégie les plus complexes du monde. Grâce à une combinaison de réseaux de neurones associée à un algorithme plus classique, un logiciel de Google DeepMind est parvenu à battre le champion européen de la discipline. Une avancée historique pour le domaine de l’intelligence artificielle.

Un coup de maître. C’est ce que vient de réaliser la firme de Mountain View en matière d’intelligence artificielle.  Les chercheurs de DeepMind, start-up britannique rachetée 400 millions de dollars par Google il y a deux ans, ont mis au point un logiciel baptisé AlphaGo. Celui-ci est  récemment parvenu à battre un expert du jeu de Go. Cette prouesse fait, ce jeudi 28 janvier, la une de la prestigieuse revue scientifique Nature.

Inventé en Chine il y a plus de 2500 ans, ce jeu oppose deux adversaires qui placent à tour de rôle des pierres noires et blanches sur les points d’intersection d’un plateau quadrillé, appelé Goban. L’objectif est de prendre le contrôle du plateau de jeu en y développant des territoires, tout en protégeant ses propres pions. Son originalité (et son succès) repose sur le contraste frappant qui oppose la simplicité des règles et sa profondeur stratégique.

Des algorithmes inspirés du fonctionnement de notre cerveau

En effet, le jeu de Go était le seul jeu de stratégie où les experts humains résistaient encore la machine. La situation s’est inversée en octobre dernier à Londres, lorsque le programme informatique AlphaGo de Google est parvenu à mettre à mal Fan Hui, le champion européen de la discipline, en enregistrant cinq victoires à zéro.

Le logiciel a été développé grâce à des algorithmes de Deep learning (apprentissage profond). Ces algorithmes constituent une technique particulière du Machine Learning (apprentissage automatique). Ils cherchent à reproduire le fonctionnement du cerveau humain et s’appuient aujourd’hui sur plusieurs couches de neurones artificiels, ou unités de calcul, organisées de façon hiérarchique.. Le système s’améliore avec le temps. Le réseau de neurones peut, en effet, être entraîné en « ingurgitant » une multitude d’exemples et ensuite être ajusté. Cet ajustement consiste à moduler la force des interconnexions entre les neurones artificiels. Cette technique est à l'origine de progès significatifs dans la reconnaissance vocale et le traitement des images.

Deux réseaux de neurones combinés à l’algorithme MCTS

Dans les détails, le logiciel AlphaGo s’est appuyé sur deux réseaux de Deep Learning : le premier réseau a appris à prédire le prochain mouvement et le second a appris à prédire le résultat de différentes tactiques. Les deux réseaux ont été combinés à un autre algorithme plus classique baptisé MCTS (pour Monte Carlo Tee System), souvent employé dans les jeux.

Dans un post de blog, les chercheurs de Google expliquent avoir entraîné le réseau de neurones en lui faisant apprendre plus de 30 millions de mouvements réalisés par des joueurs professionnels. Mais le logiciel ne s’est pas contenté d’imiter les stratégies des joueurs humains, il a également  appris à découvrir, de lui-même, de nouvelles stratégies. Pour cela, il a disputé des milliers de parties entres ses réseaux de neurones. Le logiciel s’est ainsi amélioré au fur et à mesure en adoptant une approche essai-erreur. Une méthode connue sous le nom de Reinforcement Learning (apprentissage par renforcement).

La prouesse a tout de suite été saluée par Yann Lecun, directeur du laboratoire d’intelligence artificielle de Facebook (FAIR). « Félicitations à nos amis de Deepmind pour leur excellent résultat sur Go » a-t-il publié sur son profil Facebook, sans oublier de mentionner les travaux similaires que mènent ses équipes en la matière : « Comme je l’ai mentionné dans un post récent, Yuandong Tian au laboratoire FAIR a aussi réalisé de rapides progrès avec Go. Les deux logiciels AlphaGo de Deepmind et DarkForest de Yuandong utilisent une combinaison de réseaux de convolution et l'aglorithme MCTS. La principale différence entre eux, c'est qu'AlphaBot utilise l'apprentissage par renforcement, ce qui lui permet d'apprendre en jouant de nombreux jeux contre lui-même.»

Prochain challenge pour l'équipe de Google DeepMind ? Affronter Lee Sedol, l’un des meilleurs joueurs du monde au jeu de Go, lors d’un tournoi qui se déroulera à Séoul au mois de mars prochain. 

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies

Nous vous recommandons

Sensibilité record pour la pesée de molécules avec de la lumière

Sensibilité record pour la pesée de molécules avec de la lumière

Une balance optique développée par des chercheurs de l’Institut Charles Delaunay est capable de détecter des[…]

16/05/2019 | Optique
La deeptech vient en force à VivaTech

La deeptech vient en force à VivaTech

Des pixels un million de fois plus petits que ceux des smartphones

Des pixels un million de fois plus petits que ceux des smartphones

Le département de l'Energie américain mise sur les supraconducteurs pour des éoliennes sans terres rares

Le département de l'Energie américain mise sur les supraconducteurs pour des éoliennes sans terres rares

Plus d'articles