La SNCF mise sur le big data pour anticiper les pannes de ses nouvelles rames connectées

| | | | | | |

Par publié le à 17h04

La SNCF mise sur le big data pour anticiper les pannes de ses nouvelles rames connectées

Chaque rame est équipée de 7 à 8 ordinateurs à bord et émet 70 000 données par mois.

A l’occasion du salon Big data, la SNCF a présenté son programme de maintenance prédictive du matériel roulant. Pour optimiser le système, les équipes dédiées cherchent à aller au-delà de la simple prédiction.

Anticiper les pannes 30 minutes à l’avance sur les 180 nouvelles rames connectées du réseau Transilien construites par Bombardier. C’est le premier objectif que s’est fixé la SNCF dans le cadre d’un programme de maintenance prédictive, mené en collaboration avec le cabinet de conseil en data sciences Quantmetry. Le projet a été présenté à l’occasion du salon Big data, qui s’est tenu le 7 et 8 mars au Palais des congrès à Paris. « L’idée est de pouvoir sortir d’exploitation une rame en temps utile » précise à l’audience Philippe de Laharpe, chef de projet télédiagnostic à la SNCF.

Pour parvenir à cet objectif, l’équipe pluridisciplinaire s’est attelée à développer un modèle prédictif alimenté par une batterie de données variées. « Il a fallu croiser différentes données. Chaque rame est équipée de 7 à 8 ordinateurs à bord et émet 70 000 données par mois. Mais il y a aussi les données des comptes-rendus de maintenance ou encore les données de météo qui sont déjà présentes dans les systèmes d’information de la SNCF », détaille Héloïse Nonne, data scientist chez Quantmetry. L’un des principaux challenges a donc été de remettre en adéquation les données car elles n’avaient pas toutes le même niveau de granularité.

« Pour vraiment améliorer le système, une bonne prédiction ne suffit pas »

Ensuite, les données sont stockées de manière distribuée sur Hadoop, une technologie big data qui permet notamment de répartir la charge de calcul sur plusieurs serveurs, et sont traitées grâce à la technologie Spark. Côté algorithmes, le choix s’est porté sur une technique d’apprentissage automatique : « les forêts aléatoires ». « Ce sont des arbres de décision. Ce n’est pas la technologie la plus performante, mais c’est celle qui s’est révélée la plus efficace dans le temps qui nous était imparti », précise la data scientist. Les équipes creusent en parallèle d’autres pistes. Les réseaux de neurones ont été étudiés mais « ce sont des modèles où il y a énormément de paramètres et extrêmement délicats à ajuster », explique la spécialiste.

Les équipes ont, par ailleurs, adopté une approche pragmatique pour ne pas être confrontées aux problématiques de la boîte noire, qui ne permet pas de surveiller le système dans le temps pour détecter une dérive, ni d’obtenir des preuves tangibles sur la prédiction d’une panne. « Pour  fiabiliser le matériel nous devons aller au-delà des prédictions, car nous avons besoin d’explications pour déduire des règles métier et les traduire en actions précises. Pour vraiment améliorer le système, une bonne prédiction ne suffit pas. Il faut pouvoir ensuite l’intégrer dans un système de management de la maintenance en fonction des installations et des moyens humains disponibles», argue Philippe de Laharpe. Après une première preuve de concept concluante les équipes s’apprêtent à entrer en phase pilote. Celle-ci va se traduire par plusieurs mois d’observation pour s’assurer que le modèle est pertinent en conditions réelles et convaincre les équipes terrain de sa valeur ajoutée.

Partagez l’info :

Envoyer à un ami
Abonnez-vous et accédez à l’intégralité de la veille technologique

Commentaires

Réagissez à cet article

* Informations obligatoires

erreur

erreur

erreur

Veille technologique

pour les professionnels de l’industrie
S’abonner

S’inscrire à l’hebdo de la techno :

Rechercher sur Industrie & Technologies