Nous suivre Industrie Techno

Le gigantesque défi de la bio-informatique (avril 2002)

Les promesses de la biologie moléculaire - de la thérapie génique aux nouveaux médicaments - ne pourront se réaliser sans l'aide massive de l'informatique. La biologie relance le marché des machines parallèles et dope le logiciel sci

Sciences de la vie. Informatique. Chacun voit midi à sa porte. Dans les deux cas, il fait plein soleil. Les uns s'éclairent des promesses des biotechnologies et de la pharmacogénétique. Elles se traduiront à terme par de formidables chiffres d'affaires pour l'industrie. Les autres voient briller un fabuleux marché, celui de la bio-informatique.

Des ordinateurs, des logiciels et des réseaux. Un marché, comme l'informatique n'en avait vu depuis longtemps : 38 milliards de dollars en 2006 promet IDC ! Les deux s'entendent comme larrons en foire : sans informatique, les sciences de la vie ne peuvent plus rien.

Tout a commencé avec le décryptage du génome humain, soit la traduction de l'ADN dans le langage des fameuses bases nucléotidiques A, G, C, T. Cette "dictée" n'a pris que dix années grâce notamment aux fantastiques moyens de calcul de l'américain Celera. Pour le grand public, ce fut un prodige. Pour les scientifiques, quasiment un non événement ! Car, à ce stade, on n'a fait que traduire de la matière en information.

Tout commence maintenant. À la bio- informatique de traiter cette information. Le calcul n'est qu'un outil. Il est indispensable. Et il y a du pain sur planche. On attend de l'ordinateur qu'il reconstitue de longues séquences du génome à partir de courts éléments. Il doit permettre de comparer ces séquences à d'autres stockées dans d'immenses et multiples bases de données et leur attribuer une fonction biologique. Il devra trouver des similarités entre séquences à travers tout le spectre des espèces vivantes, en déduire les gènes associés, établir des liens entre des gènes déficients et la surabondance de telle protéine dans tel organe.

Un océan de données. Tenez vous bien, ce n'est pas fini. On attend aussi de l'ordinateur qu'il prédise la structure spatiale et la fonction d'une protéine, puis l'interaction chimique entre cette protéine et d'autres molécules. Qu'il compare automatiquement plusieurs structures 3D et explique pourquoi telle protéine est plus efficace que telle autre. Qu'enfin, il détermine quasiment à coup sûr les cibles de futurs médicaments. Le défi est vraiment gigantesque.

L'ordinateur ne le fera pas tout seul. C'est là qu'entre en scène un personnage clé pour l'avenir : le bio-informaticien. Qui est-il ? Jean-Michel Claverie (CNRS) explique : " Le bio-informaticien n'est pas le simple croisement d'un biologiste et d'un informaticien. Pas plus qu'un neurochirurgien n'est celui d'un psychiatre et d'un anatomiste. " Aujourd'hui, le profil type du bio-informaticien est celui d'un biologiste Bac + 5, complétant sa formation par un diplôme en informatique. Mais cela évolue à grande vitesse (voir encadré).

Au coeur des défis lancés au couple ordinateur-bio-informaticien, la génomique fonctionnelle. Le but de la génomique consiste à trouver les corrélations entre certains gènes et certaines maladies. La tâche n'en est qu'à ses débuts. Pour autant, l'on est déjà entré dans l'ère de la post-génomique - ou génomique fonctionnelle - qui elle, s'attache à prédire la fonction des gènes à partir de leur séquence.

 Portant sur de formidables masses de données, ces algorithmes sujets à d'extraordinaires explosions combinatoires sont d'une complexité extrême. Les réponses apportées tiennent donc des stratégies de recherche raffinées - un peu comme aux échecs, l'exploration systématique est irréalisable - et aussi à une course sans précédent à la puissance de calcul. Il y a une alternative : limiter au départ la complexité, pour jouer la rapidité de traitement.

C'est la stratégie de Gene-IT, avec son dernier-né, le logiciel BioFacet. Il ne descend pas en dessous de 80 % de similarité, mais effectue aujourd'hui en trois jours une recherche qui prenait deux mois.

Autre volet important, l'étude systématique des interactions protéines-protéines : la protéomique fonctionnelle. La bio-informatique intervient à ce stade pour dénicher les interactions les plus pertinentes et conduire à des médicaments candidats. Cela a fait, par exemple, l'objet d'un codéveloppement entre l'Institut Pasteur et le français Hybrigenics (technologie PIM).

 Modélisation prédictive

Une des bases de données d'Hybrigenics (PimRider HIV) décrit ces interactions protéines-protéines intervenant entre le virus HIV et les lymphocytes humains. Le but étant de bloquer une des étapes de réplication du virus. Dans cet exemple précis (132 interactions protéines-protéines), la plateforme de bio-informatique d'Hybrigenics est intervenue pour compiler des résultats disponibles dans les grands laboratoires internationaux.

Autre exemple, l'accord liant IBM à la société biopharmaceutique française Synt : em, spécialiste des maladies du système nerveux central. Ici, IBM fournit essentiellement de la puissance de calcul (IBMxSeries, 76 processeurs, 76 GFlops) accélérant d'un facteur 15 le logiciel de criblage de Synt : em. Ce dernier applique une modélisation prédictive pour déterminer les meilleures molécules aptes à traverser les membranes du cerveau, et atteindre leur site d'action.

Ce n'est pas l'aspect le plus "noble" de la bio-informatique, mais une grande partie des besoins relève de ce travail de compilation, par scrutation des informations nouvelles irriguant les quelque deux cents grandes bases de données mondiales (Medline, GenBank, OMIM, Swissprot,...). Et à défaut d'être noble, la tâche est coûteuse : IDC prévoit que le seul volet stockage de données dans les "Bio-IT" pourrait peser 11,8 milliards de dollars en 2006, en faisant le poste le plus important en matière de dépenses en bio-informatique.

Autre tâche herculéenne dévolue à la bio-informatique : rendre prédictive des connaissances qui, en biologie moléculaire, relèvent plus généralement de la méthode empirique essais-erreurs. Il s'agit de prévoir au vu de sa seule formule comment une protéine va se déplier dans l'espace, et donc interagir avec une autre protéine. Là encore, la bio-informatique s'appuie sur de formidables bases de connaissances, à partir de protéines dont la structure 3D est déjà connue. Ainsi, la "protein database domo" décrit quelque cent mille protéines.

Face à ses défis, l'ordinateur peine. Suivant à la lettre la loi de Moore, la puissance de calcul des puces double tous les dix-huit mois. Las ! Les biotechs exigeraient le même saut tous les neuf mois ! Quant aux bases de données, elles voient leur volume doubler tous les ans, voire tous les six mois.

On assiste donc à une formidable course à la puissance pour combler un fossé qui ne fait que s'élargir. Ce n'est donc pas un hasard si on assiste au retour en force des superordinateurs massivement parallèles - l'analyse de très longues séquences d'ADN se parallélise fort heureusement à merveille. On les avait cru supplantés par les réseaux de PC. On en a besoin plus que jamais. Pour exemple, Blue Gene d'IBM équivaut à un million de PC !

Quasiment tous les grands constructeurs sont sur les rangs : IBM, Sun, Compaq, HP, Silicon Graphics. Leurs efforts portent sur trois fronts : la puissance brute de calcul, le pouvoir de stockage et la rapidité de transfert des données. Leader de la bio-informatique, Compaq a hérité, de Digital Equipment, tout à la fois sa technologie de processeurs Alpha et des rapports étroits avec la recherche. La plus puissante machine installée de Compaq compte pas moins de six cents de ces processeurs, procurant une puissance proche du téraFlops (mille milliards d'opérations par seconde). Voilà pour le hardware. Pour étoffer sa panoplie logicielle la stratégie de Compaq consiste à financer (un budget de 100 millions de dollars) des start-up de bio-informaticiens.

La fusion probable avec HP - autre marque fétiche des chercheurs - ne devrait pas freiner cette stratégie de conquête du marché des biotechs. Marché qui pèse dès aujourd'hui 30 % de son activité scientifique.

 IBM n'est pas le moins actif. Il a créé en 2000 une entité Life Sciences, dédiée aux biotechs. Et développe sa machine Blue Gene qui travaillera mille fois plus vite que celle de Compaq !... soit un petaFlops : 1015 opérations à la seconde (voir encadré). Pour la petite histoire, c'est la technologie de DeepBlue (la machine qui a battu Gary Kasparov aux échecs) qui trouve son aboutissement dans Blue Gene. Mais IBM prétend aussi développer ses propres bases de données. Témoin l'annonce en juin dernier de Bind, conjointement avec MDS Proteomics, offrant l'accès à la plus vaste base mondiale de données d'interactions biomoléculaires en réseau.

L'ADN vu comme un langage

Il est vrai qu'IBM estime le marché de la bio-informatique à 9 milliards de dollars en 2003. Chiffre corroboré (10 milliards de dollars en 2005) par Ernst & Young. Ce regain de "l'informatique lourde", s'accompagne d'un retour au temps des pionniers du logiciel scientifique. Car la plupart des programmes sont ici des travaux d'universitaires - Linux régnant en maître. Une aubaine pour les laboratoires d'informatique comme l'Inria à qui l'on doit l'essaimage de Gene-IT.

À l'Inria, justement, pas moins de trois équipes développent des algorithmes d'analyse de séquences. L'une met en oeuvre l'algorithmique combinatoire pour repérer les répétitions de séquences. Une autre utilise son savoir-faire en linguistique pour repérer les signatures communes à des familles de protéines - l'ADN peut être vu comme un langage, avec sa syntaxe, ses articulations grammaticales, etc. Une autre prône une approche purement statistique du génome et fait ensuite appel aux biologistes pour donner un sens aux coïncidences...

Certaines sociétés de la bio-informatique redoutent toutefois de se voir confiner dans une niche. Ainsi, l'israélien Compugen a résolument pris le virage de la pharmacogénomique, c'est-à-dire le dévelopement de médicaments adaptés au profil génétique des malades . Il a décroché des accords de codéveloppement avec quelques big pharmas, parmi les Glaxo, Merck, Warner-Lambert et autres géants mondiaux de l'industrie pharmaceutique.

Ce changement de cap n'est pas isolé. Témoin, l'alliance entre le leader allemand de la bio-informatique Lion Bioscience et Bayer. Henk Heus, un des décideurs de Gene-It pondère toutefois : " Il y a aura certainement moins de sociétés dans des activités purement informatiques, comme l'échange entre bases de données. Mais pas dans la reconnaissance de séquences, qui est en constante évolution. " Le propos de Salomon Langer est lapidaire, mais révèle une réalité : les véritables enjeux économiques se trouvent chez les "pharmaciens".

Un nouveau médicament suppose un investissement de l'ordre de 750 millions de dollars sur quinze ans, dont 70 % consacrés aux essais de milliers de molécules. Épauler le cycle synthèse-essai par la simulation numérique, c'est ramener le nombre d'essais à quelques centaines. Tournez, tournez, ordinateurs ! Le jackpot n'est qu'à quelques petaflops d'ici.
THIERRY MAHÉ ET MICHEL LE TOULLEC

LES EXIGENCES DE LA BIOLOGIE...
Le séquençage du génome humain

30 à 50 000 gènes, soit plus de 3 milliards de bases (A, G, C, T)
L'étude de l'expression des gènes
Un gène dirige la synthèse d'une à dix protéines, mais certains codent pour plusieurs centaines de variantes d'une protéine
L'étude des variations génétiques
0,1 % du génome est variable. Ce qui représente plusieurs millions de polymorphismes
L'analyse et la prévision de la structure 3D des protéines
Les protéines sont des chaînes de 50 à plus de 10 000 acides aminés. Le corps humain comporte environ 1 million de protéines distinctes
L'étude des interactions entre protéines dans une cellule
Plusieurs milliers, voire dizaines de milliers, de protéines par cellule


...OBLIGENT L'INFORMATIQUE À L'EXPLOIT
Le stockage des informations

Le stockage des données issues du décryptage du génome humain pèse 3 téraoctets (3 000 milliards d'octets), l'équivalent de 3 000 CD-Rom
Les grandes banques de données (plus de 200 dans le monde) doublent leur volume tous les six mois
La puissance de calcul
La recherche de séquences dans l'ADN exige des puissances de calcul proches du téraflops (mille milliards opérations par seconde)
Le calcul des structures spatiales des protéines requiert une machine avoisinant le petaflops (1015 opérations par seconde)
Les capacités de calcul d'un puce doublent tous les dix-huit mois. La bio-informatique exige ce doublement tous les neuf mois
Des logiciels spécifiques
Les algorithmes nécessaires sont au carrefour de plusieurs disciplines : reconnaissance de forme, statistique, linguistique...

JEAN-JACQUES CODANI PDG DE GENE-IT
" DISCERNER, COMPARER, EXPLIQUER "
" Un appel d'air frais ! " Jean-Jacques Codani, fondateur de la start-up Gene-It, essaimée de l'Inria, se réjouit ainsi de l'effervescence qui anime l'informatique de recherche, face aux défis de la biologie moléculaire. Car, en France comme aux États-Unis, la bio-informatique, plus qu'une brochette de start-up sur-capitalisées, " est un fantastique chantier universitaire qui, dans mon domaine, celui de la reconnaissance de séquences, est en pleine évolution.
Le problème fait appel à des techniques très différentes selon que l'on compare des gènes semblables entre l'homme et la levure - tout juste une similitude - ou que l'on "mappe" de petites séquences sur une partie du génome - quasi-identité. "
Jean-Jacques Codani entrevoit un recentrage de la bio-informatique sur des objectifs plus réalistes, en retour au rêve de la protéomique in silico - simulation complète sur ordinateur. " On commence à avoir une bonne idée du nombre et de la caractérisation des gènes humains. Mais on ignore pratiquement tout des séquences répétées, des séquences de régulation, etc. "
L'impact de la bio-informatique sur l'industrie pharmaceutique ? " On est toujours très loin du prédictif ! Mais on va vers une approche plus systématique, qui permettra selon les cas de gagner du temps, ou bien d'élargir le spectre d'action au génome entier. "
La bio-informatique pourrait-elle se projeter sur de nouveaux domaines d'application ? " Oui. Je pense à celui de l'exploration de vastes bases textuelles, de façon plus sophistiquée qu'avec de simples mots-clés. "

INFORMATICIEN OU BIOLOGISTE D'ABORD ?
On imagine mal un horloger-charcutier ou un soudeur-coiffeur. Pourtant, le bio-informaticien allie, lui, deux compétences tout aussi incompatibles a priori : la biologie et l'informatique. Un profil atypique qui nécessite deux cursus bien distincts.
" Les toutes premières formations à la bio-informatique sont apparues il y a deux ans, explique Catherine Dubois, professeur à l'Institut d'informatique d'entreprise (IIE) à Évry. " Il s'agissait de cursus d'informatique (DESS ou DEA) à destination de biologistes Bac + 4 ou 5. Mais si ces biologistes (souvent appelés bio-analystes) sont capables d'utiliser les outils informatiques existants, ils n'ont pas forcément vocation à développer de nouveaux systèmes.
Depuis la rentrée de septembre 2001, la tendance inverse a émergé avec la création de formations de biologie pour informaticiens au cursus solide. " Capables de dialoguer avec les biologistes et de comprendre leur problématique, ils sont les mieux placés pour concevoir de nouveaux outils, reprend Catherine Dubois, responsable du mastère spécialisé en bio-informatique à l'IIE. Montée en partenariat avec l'université, la génopole d'Évry, l'INT, le Cnam et plusieurs entreprises, cette formation en un an s'adresse aux informaticiens de niveau bac + 5. "
Un DESS ressources génomiques et traitements informatiques a par ailleurs été créé à l'université Henri-Poincaré de Nancy. Reste que ces formations n'attirent pas encore les foules : la première promotion du mastère de l'IIE compte seulement... sept étudiants. Ce constat peut s'expliquer par la nouveauté de ces cursus, mais aussi par la pénurie actuelle d'informaticiens et par le manque de visibilité de carrière que leur offrent les biotechnologies.
(Voir la liste des principales formations en bio-informatique sur le site http://www.impg.prd.fr).

UN MILLION DE MILLIARDS D'OPÉRATIONS PAR SECONDE !
L'ordinateur Blue Gene/L d'IBM verra le jour en 2004. Le défi de Big Blue est de concevoir en cinq ans un supercalculateur quinze fois plus rapide (et accessoirement quinze fois moins énergivore) que le plus performant de ses modèles, l'Asci White, sorti en 2000.
De fait, le superordinateur vise à effacer la barre des 200 téraflops, dernier jalon avant l'ère imminente du petaflop : un million de milliards d'opérations à la seconde ! Ce sera au Blue Gene/C de sauter ce pas, un an et demi plus tard.
Blue Gene attaque frontalement le problème le plus fondamental de la bio-informatique : modéliser et prévoir comment les centaines d'atomes d'une protéine vont dicter
la forme de cette structure dans l'espace. Et par conséquent étudier au plan prédictif - et non plus heuristique - l'interaction entre deux de ces molécules géantes.
Si son nom de code évoque sa vocation en protéomique, le projet s'inscrit cependant dans un cadre plus large. Le superordinateur servira tout autant la simulation d'armes nucléaires (Blue Gene est conçu avec l'Agence nationale de sécurité nucléaire) qu'à la prédiction du vieillissement des matériaux ou la météorologie.

19,4 millions d'euros
C'est la somme que la Commission européenne a décidé d'injecter, le 16 mai 2001, dans un programme de recherche mené par l'Institut européen de bio-informatique (EBI), membre du Laboratoire européen de biologie moléculaire (EMBL). L'objectif de ce programme de trois ans est de développer une "nouvelle génération d'outils bio-informatiques". L'initiative est bienvenue. Mais la somme apparaît bien modique. À titre de comparaison, les instituts américains de la santé (NIH) ont dépensé à eux seuls 300 millions d'euros rien qu'en 2000 pour soutenir des projets bio-informatiques...

PRATIQUE
Livre "Introduction à la bio-informatique", par Cynthia Gibas et Per Jambeck. Le premier ouvrage en français. Une somme passionnante.
Sites Brillant panorama d'une science toute jeune. Le rapport de Frank Serusclat au Sénat : "Génomique et informatique". www.senat.fr/rap/o99-020/o99-020_mono.html

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies

Nous vous recommandons

Dossier composites : comment ils vont surpasser les métaux

Dossiers

Dossier composites : comment ils vont surpasser les métaux

Les composites ne cessent d'innover pour rester compétitifs face aux autres matériaux. L'innovation porte sur les matériaux eux-mêmes, mais aussi sur[…]

Les colloques à venir - Au 12 juin 2009

Agenda

Les colloques à venir - Au 12 juin 2009

Les Nanotechnologies, vous connaissez ?

Les Nanotechnologies, vous connaissez ?

IT 911 mai 2009

IT 911 mai 2009

  • Nous suivre