Nous suivre Industrie Techno

Les coulisses technos de l’affaire "Panama papers"

Juliette Raynal
Les coulisses technos de l’affaire

© Capture d'écran site ICIJ

Système de reconnaissance textuelle, base de données de graphes, forum crypté... Pour faciliter l’exploration et le décryptage des 2,6 téraoctets de données issues de l'affaire "Panama papers", le Consortium international des journalistes d'investigation (ICIJ) a mis à la disposition des médias partenaires une palette d'outils. Revue. 

« La technologie a rendu possible l’exploration de cette masse immense de données », racontent dans un article Maxime Vaudano et Jérémie Baruch, respectivement journaliste et data journaliste au Monde.fr, en faisant référence au 11,4 millions de fichiers auxquels le quotidien français et 108 autres médias internationaux ont eu accès dans le cadre de l’affaire d’évasion fiscale "Panama papers".

Ces documents, issus du cabinet panaméen Mossack Fonseca, représentent 2,6 téraoctets de données, soit la plus grosse fuite journalistique depuis le début de l’ère informatique. A titre de comparaison, l’affaire "Swiss Leaks", elle, n’avait représenté "que" 3,3 Go de données. Pour faciliter l’exploration et le décryptage de ces informations, le Consortium international des journalistes d’investigation (ICIJ) a mis à la disposition des journalistes une palette d’outils. Le travail s’est alors effectué en trois grandes étapes.

Un système de reconnaissance textuelle

« D’abord tous les fichiers de type PDF, Tiff  ou Jpeg ont été OCRisés », explique dans son jargon Jérémie Baruch, contacté par Industrie & Technologies. Concrètement, cela veut dire qu’un logiciel de reconnaissance optique de caractère (OCR) a été utilisé afin de rendre textuels des documents qui ne l’étaient pas. Cela permet alors de récupérer, stocker et traiter des informations qui se trouvent dans une image. Par exemple, on peut inclure dans la base de données, un nom et une date de naissance qui figurent sur la photocopie d’un passeport. « Ces données deviennent alors cherchables », précise Jérémie Baruch. Les journalistes avaient d’ailleurs à leur disposition un moteur de recherche mis au point par l’ICIJ dans le cadre de précédentes affaires et qui a été amélioré par petites itérations selon les besoins formulés par les journalistes. « Au départ, les recherches ne pouvaient être effectuées que mot par mot. Il a ensuite été possible d’effectuer des recherches de manière simultanée à partir d’une liste complète de plusieurs personnes », détaille Jérémie Baruch. Ainsi, au lieu d’entrer les 900 noms des parlementaires français un par un, les journalistes ont pu lancer une requête directement à partir d’une liste préalablement établie.

Une base de données de graphes et sa plate-forme de visualisation

Les journalistes ont également pu travailler en s’appuyant sur Neo4j, une technologie de base de données de graphes, couplée à la plate-forme de visualisation Linkurious. Dans un communiqué de presse, la société éditrice explique « qu’au lieu d'utiliser des "tables" comme le font les bases de données relationnelles, les bases de données comme Neo4j s'appuient sur la théorie des graphes et fonctionnent avec des structures spéciales comprenant des nœuds, des relations et des propriétés permettant de définir, d'identifier et de stocker les données ».

« Linkurious nous a permis de faire nos recherches plus intuitivement, témoigne le journaliste du Monde.fr. Par exemple, si vous double-cliquiez sur le nom d’une société, il était possible d’accéder à d’autres données comme le nom des actionnaires, le cabinet d’avocats à l’origine de la société. Et lorsque vous recliquiez sur le cabinet d’avocats, cela renvoyait vers une autre liste d’entreprises ». L’outil a donc permis d’établir des connexions qui n’étaient pas évidentes et de faire avancer les recherches.

Un forum crypté

Enfin, les journalistes des différents médias pouvaient communiquer sur un forum où tous les échanges étaient chiffrés pour assurer la sécurité et la confidentialité de cette collaboration. « Le forum nous a permis de comparer les recherches entre les différents médias partenaires. Par exemple, en enquêtant sur une personne, je suis tombé sur les noms d’autres personnes qui n’avaient pas d’intérêt pour moi, mais qui pouvaient intéresser mes collègues portugais », raconte Jérémie Baruch.

Les équipes du Monde.fr ont par ailleurs développé leur propre outil pour surmonter un problème spécifique. « Tous les e-mails étaient disponibles en .MSG qui est un format natif de Windows, or nous travaillons sur Mac », explique Jérémie Baruch. Après avoir testé des logiciels peu performants, les équipes ont donc développé leurs propres scripts en Bash pour pouvoir ouvrir tous les courriers électroniques dans Thunderbird, un client mail disponible sur Mac

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies

Nous vous recommandons

Ce robot performe dans le jeu d’adresse Jenga

Ce robot performe dans le jeu d’adresse Jenga

Equipé d’une caméra et de capteurs de force, le nouveau robot du MIT apprend rapidement la meilleure façon[…]

Avec Pando, l'Isae-Supaero muscle sa puissance de calcul

Avec Pando, l'Isae-Supaero muscle sa puissance de calcul

Fake news : ces technologies qui les traquent

Fake news : ces technologies qui les traquent

Cybersécurité, laboratoire de robotique, éolienne… les meilleures innovations de la semaine

Cybersécurité, laboratoire de robotique, éolienne… les meilleures innovations de la semaine

Plus d'articles