Nous suivre Industrie Techno

Reconnaissance de la parole : ça repart !

Ridha Loukil
Après un grand flop, ce mode d'interface, revigoré par les progrès de la technologie, rebondit dans les applications télécoms.

Si vous appelez TLM Com, à Noisy-le-Grand, en région parisienne, vous tombez sur une opératrice virtuelle qui vous parle par synthèse vocale. Mais elle ne fait pas que parler. Elle "comprend" ce que vous dites. Il vous suffit de prononcer le nom de la personne que vous cherchez à joindre pour qu'elle vous mette en relation. Si elle ne comprend pas du premier coup votre demande, comme c'est le cas dans 20 % des appels, elle vous prie de répéter le nom du correspondant. Si elle ne comprend toujours pas, ce qui n'arrive que dans 4 % des cas, elle bascule l'appel sur une véritable opératrice.

Cette utilisation de standard automatique n'a rien de surprenant chez TLM Com. La jeune société ne fait que s'appliquer à elle-même ce qu'elle propose à ses clients. Basée sur le moteur de reconnaissance vocale de Nuance, sa solution de standard automatique séduit des administrations, des hôpitaux et même des PME.

L'exemple de TLM Com, qui revendique aujourd'hui plus de 70 références, n'est pas un cas isolé. D'autres éditeurs et intégrateurs comme IBM, Microsoft, Genesys ou Prosodie, enregistrent le même regain d'intérêt envers la reconnaissance vocale. Le succès rencontré par Vocal Expo, le premier salon sur le sujet, organisé en juin dernier à Paris, en témoigne.

Les défauts de jeunesse sont corrigés

Les entreprises et le grand public semblent réconciliés avec cette technologie aux promesses énormes mais qui a connu un grand flop. Après cinq ans de léthargie et de déception, le marché prend un nouveau départ. Non pas dans des applications embarquées comme le jouet, le PC, le téléphone portable ou l'automobile, objets de paris fous dans les années 1990. Mais dans des applications de réseaux, plus faciles à maîtriser et plus porteuses de valeur ajoutée.

Depuis les renseignements au standard téléphonique, en passant par la vente à distance, la réservation de billets d'avion, l'assistance technique en ligne ou les services après-vente, l'opératrice virtuelle tend à remplacer l'être humain. À la clé, une réduction des coûts grâce à l'automatisation des opérations à faible valeur ajoutée et/ou une amélioration de la qualité de service grâce notamment à une disponibilité permanente, 24 heures sur 24 et 7 jours sur 7.

Objet de recherche depuis plus de trente ans, la reconnaissance vocale a toujours fait rêver les ingénieurs. L'objectif ultime est de remplacer clavier, boutons et écrans tactiles par l'interface la plus naturelle qui soit : la voix. Cette effervescence a atteint son âge d'or dans les années 1990 avec la commercialisation de systèmes de dictée vocale et l'intégration de la numérotation vocale dans des téléphones mobiles. Une expérience précipitée qui s'est terminée par une grande déception.

« Les solutions fonctionnaient bien dans un contexte restreint, mais pas dans l'environnement normal d'utilisation, soumis à des perturbations comme le bruit. Un claquement de porte ou un éternuement suffisait à les rendre inopérables », explique François Cure-Durif, cofondateur et directeur technique de TLM Com. Les éditeurs de moteurs de reconnaissance vocale, comme l'américain Nuance, le français Telisma ou l'italien Loquendo, assurent tous avoir corrigé ces défauts de jeunesse. « Amélioration des bases de données phonétiques, intégration des différences d'accent et d'intonation, prise en compte du bruitage... nous avons fait beaucoup d'effort de mise en oeuvre pour prendre en compte les conditions réelles d'utilisation. Nous avons aussi parfait nos connaissances des langues et de la syntaxe », témoigne Jean-Jacques Devaux, directeur marketing de Telisma.

Les solutions proposées aujourd'hui semblent plus robustes et plus tolérantes. Chez TLM Com, on avance un taux de réussite de 80 % au premier coup et de 96 % en deux coups. Des performances confirmées par 60 Millions de Consommateurs pour le 118 710, le service de renseignement téléphonique automatisé de France Télécom.

Dans cette progression, les éditeurs ont été servis par un fabuleux accroissement des capacités de calcul des processeurs. « La reconnaissance vocale s'appuie toujours sur le même principe : une modélisation statistique par modèles cachés de Markov permettant d'associer des éléments vocaux à des éléments lexicaux. Les performances des applications dépendent donc étroitement des capacités de traitement utilisées », explique François Cure-Durif. Or ces capacités ont décuplé ces cinq dernières années.

Autre évolution favorable, le passage de solutions propriétaires à des plates-formes ouvertes s'appuyant sur les standards VXML (Voice XML) et MRCP (Media Ressource Control Protocol). VXML s'impose comme le langage de description d'applications vocales, à l'image du HTML pour les pages Web. La version 2.0 a été publiée en octobre 2001 par le W3C, le consortium de définition des technologies Web.

Demain un dialogue en langage naturel

Le protocole MRCP assure, quant à lui, le dialogue entre les différentes briques de la plate-forme vocale. Il joue un rôle similaire au protocole HTTP de communication entre clients et serveurs sur Internet. Développé à l'origine par Cisco, Nuance et Speechworks, il a été adopté en août 2005 par l'IETF, l'instance de définition des normes pour l'Internet. « L'adoption de ces standards fait entrer les technologies vocales dans l'âge de la maturité. Elle favorise le développement d'applicatifs (diagnostic, surveillance...), créant ainsi un écosystème vertueux sur le modèle des systèmes de base de données après leur passage au standard SQL », affirme Olivier Carrot, directeur général de Teleperformance Interactive, opérateur d'une plate-forme automatisée d'interaction clients.

Enfin, la perception des utilisateurs s'inverse. « Aujourd'hui, dans l'esprit des gens, la reconnaissance vocale, ça fonctionne. », estime François Cure-Durif. À l'origine de ce changement : la banalisation des serveurs vocaux de messagerie par les opérateurs de téléphonie mobile. Habitué à utiliser ces services au quotidien, le grand public accepte plus facilement les nouvelles applications.

La plupart des plates-formes vocales déployées aujourd'hui reposent sur un dialogue forcé où l'utilisateur répond à des questions par des mots : nom du correspondant, ville de résidence, destination, etc. Mais déjà, la prochaine étape apparaît avec un dialogue en langage naturel où l'utilisateur exprime sa requête par une phrase. Une évolution ambitieuse, qui constitue, sur le plan technologique, un grand défi pour les éditeurs.

LE MARCHÉ REMONTE LA PENTE

25 à 30 % par an - c'est, selon Telisma, la croissance du marché des technologies vocales, après une stagnation entre 2000 et 2004. Pour cette année, il est évalué entre 1,5 et 2 milliards de dollars au niveau mondial.

LES QUATRE CHAMPS D'APPLICATIONS PRIVILÉGIÉS

1. Les standards téléphoniques automatiques Pour automatiser la mise en relation téléphonique dans les PME, les administrations, les services publics ou les établissements dont l'annuaire est volatil. 2. Les services de renseignement téléphonique Pour fournir à moindre coût des informations sur l'annuaire téléphonique et des services de mise en relation automatique. 3. Les services d'assistance technique en ligne Pour désengorger le système en traitant de façon automatique, pendant le temps d'attente, les opérations à faible valeur ajoutée (identification de l'appelant, qualification du problème et aiguillage vers le bon conseiller). 4. Les centres d'interaction avec les clients Pour améliorer l'efficacité et la qualité du service rendu aux clients en automatisant certaines opérations (consultation de compte, commande, paiement...)

LES QUATRE RAISONS DU DÉCOLLAGE

1. Progression de la technologie avec, notamment, l'enrichissement des bases de données phonétiques et la prise en compte du bruitage. 2. Augmentation des capacités de calcul des serveurs chargés du traitement et de la reconnaissance de la parole. 3. Adoption de standards ouverts garantissant la pérennité des investissements et favorisant le développement d'applicatifs sur le marché. 4. Changement de perception par le grand public grâce à la banalisation de cette technologie dans la messagerie des services de téléphonie mobile.

UN TRAITEMENT AUTOMATISÉ DES APPELS

- Le groupe SR.Teleperformance, prestataire de services de centres d'appels pour le compte de grandes entreprises dont Noos, Neuf Cegetel et Peugeot, mise sur la reconnaissance vocale pour à la fois réduire les coûts et améliorer la qualité. Sa filiale, Teleperformance Interactive, spécialement créée à cet effet, vient d'ouvrir à Paris une plate-forme de traitement automatisé des appels. Fournie par l'intégrateur Genesys, cette solution s'appuie sur le moteur de reconnaissance vocale de Nuance. L'objectif d'Olivier Carrot, son directeur général, est de traiter 5 à 10 % des 100 millions de contacts reçus par mois. Cette plate-forme complète les centres d'appels traditionnels du groupe (4 000 agents). Elle vise à réduire le coût de traitement de l'appel par un facteur trois à quatre.

vous lisez un article d'Industries & Technologies N°0881

Découvrir les articles de ce numéro Consultez les archives 2006 d'Industries & Technologies

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies