Nous suivre Industrie Techno

PEUT-ON ENCORE CONCURRENCER GOOGLE?

Thierry Mahé

Sujets relatifs :

,
Les moteurs sont le sésame de l'information... et une fantastique machine à lever des revenus publicitaires. Plusieurs voies dessinent l'évolution de la recherche en ligne.

Dans les moteurs de recherche, il y a Google... et les autres : Yahoo !, MSN (Microsoft) et un français qui monte, Exalead. À noter que la Chine bouscule cet équilibre avec Baidu, le moteur local qui rafle plus de la moitié des requêtes. Google est loin devant, avec le plus gros parc de machines serveurs au monde, une longueur d'avance colossale en matière de pages indexées. Mais cela ne freine pas l'apparition (souvent éphémère) d'une pléiade de petits moteurs, souvent porteurs d'une démarche originale ou répondant à un besoin mal couvert par les généralistes. Car la technologie des moteurs recèle encore une immense marge de progrès : en termes de données encore inexploitées, de pertinence et de complétude des réponses, de géolocalisation, de nouveaux supports de consultation, de compréhension sémantique, d'exploitation des informations non textuelles... Surtout s'affirme le phénomène dit "Web social" qui va offrir à des outsiders une place au soleil. Google est pour autant en embuscade derrière toutes les innovations.

1. La face cachée du Net

En dépit de la fantastique puissance informatique déployée, moins de 50 % des pages seraient à ce jour indexées, donc accessibles à l'internaute. D'autres sources évoquent un rapport de 1 à 500 entre l'information accessible et celle demeurant cachée ! Il y a bien sûr les données internes aux entreprises, laboratoires... protégées par mot de passe. François Bourdoncle, PDG-fondateur d'Exalead, explique : « Le Net est techniquement infini puisque beaucoup de pages sont générées dynamiquement et n'offrent pas deux fois le même contenu. » Ce sont d'ailleurs, pour une bonne part, les champs de saisie qui bloquent les moteurs dans l'exploration des sites : on ne peut "aspirer" le site d'une compagnie aérienne, faute d'entrer toutes les destinations. Certains programmes commencent à lever, en partie, ce verrou. Ainsi le Deep Query Manager de BrightPlanet. Ce métamoteur interroge non seulement les moteurs, mais aussi les bases de données, donnant ainsi accès au Web profond.

Les techniques du "Web Public" gagnent activement le système d'information des entreprises. Au point que la frontière entre les deux mondes devient diffuse. Les moteurs sont en effet devenus spécialistes du traitement de ces données hybrides, partiellement structurées, très volumineuses et réparties. Exalead a capturé la moitié du marché français de ce Web B to B, aux côtés de leaders comme le norvégien Fast Search ou le britannique Autonomy. La mise en place de moteurs internes à une entreprise suppose des développements spécifiques, à l'aide de briques technologiques. Ainsi Exalead intègre à façon les composants sémantiques multilingues de Lingway afin de coller aux particularités métier du client. Les acteurs du Web B to B réalisent des progressions de chiffre d'affaires dépassant les 70 % annuels...

2. La pub locale... diffusée planétairement

Lorsque Google a lancé les prototypes de Google Earth et Google Maps, l'intention était sans mystère... Depuis le 13 septembre 2007, Google Maps est sorti de sa période bêta et entre de plain-pied dans le monde Google adWords-Google AdSense, la plus avide machine publicitaire jamais inventée. Les plans et les informations topographiques qu'ils contiennent sont indexés au même titre que les documents de la Toile... Le bienveillant ogre californien vous prendra par la main jusqu'au Sacré-Coeur. Il vous situera surtout, à la saisie du mot "lunettes", tous les magasins d'optique de Paris... Liste bien sûr agrémentée de liens sponsorisés : une publicité locale, mondialement diffusée.

La géolocalisation des données est une tendance de fond. Des moteurs spécialisés comme "118 218" croisent intelligemment des bases de données thématiques avec les coordonnées téléphoniques et les informations liées à un lieu. Les requêtes s'effectuent en langage naturel.

Tendance qui va de pair avec l'essor des nouveaux supports médias mobiles, autolocalisés grâce au GPS.

3. Faire face à l'explosion du Web 2.0

Le Web 2.0 met les moteurs face à de nombreux défis. Naguère, le Net reproduisait le mécanisme des médias traditionnels. Une « source autorisée » produisait de l'information au bénéfice de consommateurs. Certes les groupes de discussion existent depuis le tout début. Mais les moteurs les traitaient à part.

La déferlante des blogs depuis 2004-2005 brouille les cartes. Ces collections de billets courts, au fil de l'eau, classés du plus récent au plus ancien, font de tout un chacun un fournisseur d'informations. Avec l'explosion exponentielle que cela suppose... et également une grande acuité exigée quant à la pertinence des résultats. Or, le journal intime d'un collégien se présente au même format qu'analyses et propositions d'universitaires, penseurs, experts de tout poil... dont la teneur est souvent d'une richesse et d'une liberté sans égales.

Nozha Boujemaa, coordinatrice du programme européen Chorus à l'Inria, suggère : « Les moteurs devront faire la part du bruit. Ils mettront sans doute en avant des mécanismes de recommandation, d'estimation de confiance, peut-être de vote... » C'est déjà presque le cas puisque Google, dans sa version américaine, affiche en fin de page un champ « Dissatisfied ? Help us improve » (Insatisfait ? Aidez-nous à nous améliorer), afin de récriminer contre des résultats jugés peu probants.

Car même ce dernier semble en perdre quelque peu son latin. À « Sony », pas de mystère, Google (pages françaises) renvoie vers Sony France, l'honneur est sauf. À « politique », surprise ! Ce ne sont pas Le Monde ou Le Figaro qui sortent en tête mais... « blogsearch.google.fr », avec ce commentaire : « Nouveau ! Testez le moteur de recherche de blogs de Google ». Le leader a pris la dimension du Net social et communautaire.

Le problème de la crédibilité des résultats devient criant. Une récente enquête Ifop prouve que 45 % des utilisateurs s'arrêtent à la première page de résultats. Devant une insatisfaction croissante, les moteurs vont devoir « prouver » que non seulement les résultats affichés sont pertinents, mais qu'ils tendent à la représentativité...

Aujourd'hui, ces résultats sont établis et classés sur des stratégies statistiques, qui croisent la distribution des mots sur la page et le « poids » de cette page. Cette technique commence à s'enrichir de raffinements qui tiennent à une analyse sémantique des textes par les robots d'indexation, ou encore à une implication plus forte de l'internaute. L'un des concepts clés est celui de sérendipité, mis en avant, entre autres, par Exalead : on part d'un questionnement à l'aveuglette, pour ensuite affiner sa demande au vu des réponses. Une démarche à rapprocher de la recherche par retour de pertinence, l'un des thèmes du programme IMedia de l'Inria (spécialisé dans la recherche d'images), où la justesse s'améliore en partenariat actif avec l'utilisateur. Idem avec "Google Suggest" (dans la partie Labs du site). Ce dernier vous accompagne de façon interactive au fur et à mesure que vous saisissez votre requête. En fait, on peut rendre le Net intelligent, sans aucune intelligence artificielle. Sur "Google Labs", saisissez « mars vénus terre »... Et la machine complète par « saturne mercure neptune »... L'algorithme ne "sait" ce qu'est une planète. Mais il est capable de "bâtir" le concept, par simple rapprochement, via des millions de pages.

Enfin, un moteur comme Chacha.com promeut une approche plus radicale : celle de recourir aux conseils en ligne d'un expert humain !

Le site Baagz, tout juste lancé par Exalead, fournit une réponse originale à l'attente des communautés. Ce dernier croise la fonction d'un moteur avec l'apport des réseaux sociaux, dans un esprit proche du peer-to-peer. L'internaute voit constamment s'enrichir son espace de travail de pages et de liens intéressants, captés par d'autres internautes partageant ses centres d'intérêt. Les résultats sont plus pertinents, puisqu'étayés par une expertise commune. Baagz tire aussi parti du standard RSS, ou abonnement à des flux : consultation rapide des dernières mises à jour d'un site, sans avoir à le visiter. Un format volontiers exploité par les blogs professionnels pour diffusion d'alertes. On retrouve la même philosophie avec les "Smart Folders" - dossiers dynamiques - popularisés par le système d'exploitation Tiger d'Apple : une recherche perpétuelle alimente automatiquement des répertoires. Même idée avec del.icio.us (Yahoo !) qui, lui aussi, offre le partage dynamique de liens.

4. Un avenir certain pour les moteurs spécialisés

Parallèlement au Web social, on voit l'essor de moteurs verticaux. On citera GameSkoot dédié aux jeux vidéo, Seeqpod aux fichiers MP3, etc. Ou, dans un autre ordre d'idée, le moteur Tayait, totalement ciblé sur le monde et la langue arabes (bâti sur Exalead). Ilse est l'équivalent pour la langue flamande. Ces moteurs verticaux se justifient en marge des colosses. Car l'informa-tion mondiale vue comme un « Grand Tout » est encore un mythe. François Bourdoncle estime que « Yahoo ! et Google n'indexent pas plus de 20 % de pages communes ». Et si l'on croise les grands moteurs, on atteint un taux de recoupement d'au plus quelques pour-cent. Autre intérêt de ces moteurs, ils délivrent l'information en moins de clicks, et ils se prêtent à la conceptualisation : dans un domaine limité, les termes sont moins ambigus, se raccordent plus facilement à des synonymes, des mots génériques, etc.

5. Explorer l'information multimédia

Des moteurs comme ditto.com, ditto.com, ou picsearch.com, dédiés à la recherche d'images, sont apparus tôt dans l'histoire du Net, rapidement rejoints par les moteurs généralistes. La recherche d'images est essentiellement basée sur le nom du fichier et le contexte textuel. D'autres critères de tri apparaissent comme la taille de l'image, son format, sa nature (fixe-animée), sa composition (noir et blanc, niveau de gris, couleurs). Google, Visoo ou Exalead vont aujourd'hui plus loin puisqu'ils savent, avec un taux de confiance satisfaisant, déterminer s'il s'agit d'un visage : on cherche le portrait de Karl Lagarfeld, pas sa dernière collection. C'est un pas décisif vers l'extraction automatique de contenu. À cette fin, Exalead a licencié la technologie de LTU Technologies, une start-up issue du MIT Media Lab, de l'Université d'Oxford et de l'Inria, et que vient de racheter le japonais Jastec Co. Ces technologies deviennent suffisamment matures pour coloniser les moteurs de recherche grand public. Google travaille évidemment sur des thèmes semblables. Il a, par exemple, acquis la technologie de Neven Vision.

L'indexation systématique des contenus audiovisuels va évidemment de pair avec l'arrivée de nouveaux standards. Ainsi, contrairement aux précédentes versions de MPeg, simples formats de codage vidéo, MPeg-7 est la norme émergeante pour faciliter l'indexation et la recherche de documents multimédias. MPeg-7 (qui a pour concurrent JPSearch) contient un niveau proprement sémantique, décrivant les relations entre éléments graphiques et sonores. Le standard TV-anytime, qui répertorie des contenus télévisuels, s'inscrit autour de MPeg-7.

L'acquisition de métaconnaissances sur des contenus multimédias a son pendant : l'essor de nouvelles interfaces de recherche, soit par description textuelle, soit par saisie d'un croquis. Sur ce point, on citera les travaux du Princeton Shape Retrieval and Analysis Group (États-Unis), pour saisir un graphique grossier, lequel sera rapproché de toutes les images de la base.

Idem en matière de recherche musicale. Certains sites expérimentaux proposent de taper quelques notes sur un piano virtuel. Une approche que privilégie aussi le projet anglais Omras (Online Music Recognition and Searching). Sandra Uitdenbogerd, de la RMIT University (Australie), suggère plutôt de chantonner un passage de votre air préféré.

+ 30 %

C'est le taux de progression de la publicité sur le Net en 2007. La part du média Internet passera, avant 2009, de 6,1 % à 9,5 % du marché publicitaire global. (Source : Zenith-Optimedia)

UNE ÉCRASANTE DOMINATION

- Le leader des robots de recherche rafle un tiers de la manne publicitaire en ligne mondiale. - Les différents sites Google indexent au moins 25 milliards de pages, et diffusent 27 % du total des vidéos vues.

EXALEAD LE FRANÇAIS DE L'ÉTAPE

François Bourdoncle, X-Mines, fonde Exalead, le moteur de recherche français, en 2000. Il indexe 8 milliards de pages, reçoit 1 million de visiteurs unique par mois, et offre des fonctionnalités inédites comme la recherche de vidéos, la possibilité d'affiner la recherche avec des critères de localité, d'identifier une image comme un portrait... Exalead vient de lancer Baagz, un moteur "social" permettant aux internautes de se partager des dossiers. Pour autant la société réalise 95 % de son chiffre d'affaires dans le B to B : moteurs de recherche internes à une entreprise, brassant des données hybrides.

"IL FAUT QU'ON SE METTE D'ACCORD : NOUS N'ALLONS PAS FAIRE LE GOOGLE EUROPÉEN ! "

« Le programme Chorus est une action de coordination européenne lancée en mars 2007 pour deux ans et demi, et rassemblant différentes initiatives pour les nouvelles générations de moteurs de recherche multimédias. » « L'extraction automatique des contenus audiovisuels, en vue d'annotation et de qualification, est l'un des grands défis des moteurs de recherche. Cela va de la simple caractérisation d'une image (un visage, un paysage...), à une analyse poussée de sa composition. Il faudra être capable de transcrire le contenu d'une voix, de croiser et d'associer le contenu informationnel des éléments multimédias d'un document, d'établir des synonymies visuelles au même titre que sur des mots. À l'Inria, nous travaillons sur les données de l'Agence France Presse dans le cadre du projet Vitalas. »

vous lisez un article d'Industries & Technologies N°0894

Découvrir les articles de ce numéro Consultez les archives 2007 d'Industries & Technologies

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies