Nous suivre Industrie Techno

Comment fonctionne PapAI, la nouvelle plate-forme d’IA de la start-up française Datategy, en 5 étapes clés

Comment fonctionne PapAI, la nouvelle plate-forme d’IA de la start-up française Datategy, en 5 étapes clés

© Datategy

La start-up française Datategy a annoncé, fin septembre, le lancement de PapAI, une toute nouvelle plate-forme de gestion des données sur laquelle les industriels peuvent déployer des modèles de prédiction. Mehdi Chouiten, son PDG, détaille son fonctionnement pour Industrie & Technologies.

Annoncée fin septembre, la plate-forme PapAI de Datategy est un ensemble logiciel développé depuis le mois de mars. Elle est constituée de plusieurs briques qui permettent, à partir d’un besoin spécifique, de constituer des modèles de prédiction à base d’apprentissage automatique (machine learning) alimentés par les données du client, sans que celui-ci n’ait besoin de programmer les algorithmes lui-même. PapAI peut être hébergée sur des solutions cloud professionnelles comme celles fournies par OVH ou Orange Business Services (OBS), mais « la plupart de nos clients hébergent notre plate-forme sur leurs propres serveurs », indique Mehdi Chouiten, co-fondateur et PDG de Datategy.

Vendue sous licence annuelle, PapAI est adapté à divers cas d’usage : dans les transports et la logistique, d’abord, secteurs d’activité originels de la start-up (prévision de la demande, optimisation des livraisons…) mais aussi les télécoms (optimisation de l'équilibrage du réseau, maintenance prédictive…), la santé (optimisation de la gestion hospitalière, traitement et croisement de données et d'essais cliniques…), la banque et l’assurance (attrition de clientèle, gestion du risque…) ou encore le commerce (affiner la connaissance marché pour anticiper la tendance, augmenter les recommandations ciblées…). Son utilisation se décline en cinq étapes : l’intégration des données, leur harmonisation, leur analyse, le déploiement d’un modèle de prédiction et, enfin, la visualisation et la mise à jour des résultats de ce modèle en fonction de chaque nouveau besoin du client.

1. Se connecter à différentes sources de données

« PapAI permet aux clients de récupérer différentes sources de données, des fichiers textes, Excel ou CSV aux bases de données entières en passant par des interfaces de programmation (API), qui peuvent être codées dans tous les langages (Python, NoSQL…) », commence Mehdi Chouiten.

Ces données sont intégrées dans la plate-forme soit par les data scientists du client, soit « par nos équipes s’il n’a pas la possibilité de le faire ». Une fois intégrées, « celui-ci n’a plus à se soucier de leur format initial, insiste le PDG. Elles apparaissent de la même manière ». Le client détermine ensuite une fréquence de rafraîchissement.

2. Détecter les anomalies

La plate-forme est équipée d’outils pour comprendre la sémantique des données entrées : « Sur une colonne de chiffres, PapAI détecte s’ils correspondent à des codes postaux, des montants financiers, des coordonnées GPS ou à tout autre chose », illustre Mehdi Chouiten.

La solution de Datategy est ensuite capable d’harmoniser ces données – « si j’ai des dates au format américain et d’autres au format européen, par exemple » - puis de détecter les anomalies, c’est-à-dire d’identifier une information qui n’a pas de sens par rapport au reste des données et à la sémantique déterminée, « afin d’y apporter une correction ou bien de les retirer du jeu de données pour ne pas perturber le modèle à venir ».

3. Analyser les corrélations entre les données

Une fois les données harmonisées, le client peut utiliser PapAI pour les analyser, soit détecter des corrélations entre elles et ne retenir que ce dont le modèle de prédiction aura besoin par la suite. « Par exemple, si je veux prédire le nombre de places de stationnement qui seront occupées dans telle rue, je pourrais inclure dans mon modèle des données météo, la présence d’un centre commercial ou d’une université la tenue d’un événement sportif ou d’un concert à proximité », note le PDG de Datategy.

Cette faculté demande des jeux de données énormes et est permise grâce au moteur Spark, une infrastructure logicielle (framework) open source de calcul distribué. « Chaque traitement intermédiaire, lorsque l'on exclut une partie du jeu de données, par exemple, génère aussi des données. Grâce à Spark et aux librairies de parallélisation de traitements qu’est capable de supporter PapAI, ces traitements se font de manière beaucoup plus rapide que chez nos concurrents, comme la française Dataiku, qui s’appuie plutôt sur Java, ou la californienne C3.ai », estime Mehdi Chouiten.

4. Déployer des modèles de prédiction

On arrive alors au cœur de la solution PapAI : créer un modèle de prédiction. « La plate-forme offre un certain nombre d'outils qui permettent de prototyper des modèles de prédiction sans avoir à coder l'algorithme de machine learning soi-même, détaille Mehdi Chouiten. Le client choisit ce qu'il veut faire parmi des suggestions : de la régression, de la classification, du clustering... La plate-forme propose une des familles d'algorithmes (arbres de décisions, réseaux de neurones...) et il peut créer un nouveau modèle et évaluer sa performance, en quelques minutes seulement, grâce à des mécanismes de validation croisée qui livrent au client un ensemble de mesures (pourcentage de précision, score…). »

Tous les algorithmes de prédiction et d’optimisation disponibles en open source sont proposés sur PapAI. « Pour le reste, on permet à nos clients de créer leur propre script, en programmant en Python ou en R directement dans la plate-forme », ajoute-t-il.

5. Visualiser les résultats

PapAI offre la possibilité au client de réinterroger le modèle comme bon lui semble. « Pour un modèle de prédiction de risques financiers, si j’ai un nouveau client qui vient me demander un crédit, le but est que le modèle puisse me donner une note entre 0 et 100, par exemple, sur la capacité de financement de ce client », décline le PDG.

A ce jour, Datategy compte cinq clients utilisant la première version de PapAI : la SNCF, un consortium constitué de la métropole de Dijon et de plusieurs industriels (Suez, Bouygues…), Divia, l’opérateur de transport de la ville de Dijon, les aéroports de Dubaï et un tribunal de commerce. Une deuxième version devrait voir le jour au début de l’année 2021. « Nous devrions aussi lancer une version simplifiée de la plate-forme, à utiliser de manière gratuite pendant un certain temps, pour les étudiants, notamment », annonce Mehdi Chouiten.

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies

Nous vous recommandons

Qualcomm accélère dans son programme de réalité virtuelle et augmentée à destination de l’industrie

Qualcomm accélère dans son programme de réalité virtuelle et augmentée à destination de l’industrie

Le fabricant américain de puces a annoncé, en plein 5G Summit, qu’il doublait le nombre de partenaires au sein de son XR[…]

Total dévoile ses recherches dans l'utilisation du calcul quantique lors du Quantum Computing in Paris-Saclay

Total dévoile ses recherches dans l'utilisation du calcul quantique lors du Quantum Computing in Paris-Saclay

Wallix renforce sa présence en région et s’attaque à la cybersécurité industrielle et à l'IoT

Wallix renforce sa présence en région et s’attaque à la cybersécurité industrielle et à l'IoT

« A La Défense, le Campus cyber accueillera 60 sociétés dès septembre 2021 », annonce Michel Van Den Berghe

« A La Défense, le Campus cyber accueillera 60 sociétés dès septembre 2021 », annonce Michel Van Den Berghe

Plus d'articles