Nous suivre Industrie Techno

Shazam amélioré, générateur de réalité augmentée, big data : trois technos de labos présentées aux PME

Shazam amélioré, générateur de réalité augmentée, big data : trois technos de labos présentées aux PME

La technologie de reconnaissance d’images, développée par les chercheurs de Télécom SudParis, a également été utilisée pour l’application Goot, afin de recommander, à partir d’une photo d’étiquette de vin, un vin similaire.

© Capture d'écran

Le numérique a bouleversé la production et l’édition de tous les types de contenus. Les enjeux aujourd’hui consistent à améliorer l’expérience utilisateur, établir des standards, ou encore mieux exploiter et sécuriser les données. La Bourse aux technologies « Publishing et Multimédia » de l’Institut Mines-Télécom, qui aura lieu le 17 septembre 2015 à Télécom ParisTech, présente des technologies issues des labos répondant à ces nouveaux défis. En voici trois, pour illustrer trois types de contenus : audio, vidéo, et texte.

Un "Shazam" pour les morceaux en live

Plusieurs applications, comme Shazam sur les smartphones, permettent de retrouver automatiquement les métadonnées d’un morceau (titre, auteur, album, etc.) à partir d’une capture audio. A chaque morceau correspond une signature (ou empreinte) qui permet de l’identifier dans une base de données musicale. Cependant, cette technique présente une importante limitation : il faut que le morceau soit tel quel dans la base de données. Impossible donc de reconnaître un morceau enregistré en live ou réinterprété.

 

Les chercheurs de Télécom ParisTech ont donc conçu et breveté une signature qui repose sur des concepts de rythme et d’harmonie, et non plus simplement sur la fréquence du signal. « La manière que nous avons de condenser l’information est inspirée de la musique : on va chercher le tempo et les couleurs musicales (les chromas), caractéristiques du morceau, » explique Yves Grenier, chercheur spécialisé en traitement du signal audio. Parce que le sens musical est exprimé, cette signature permet d’identifier automatiquement deux morceaux similaires, même si l’un d’eux est réinterprété.

Un prototype d’application est en cours de développement. L’enjeu est d’utiliser une signature suffisamment compacte, pour travailler à l’échelle de très grosses bases de données : « Il faut trouver des méthodes capables de fonctionner avec des millions de morceaux, mais aussi d’utilisateurs », précise le chercheur.

Un générateur de réalité augmentée

Avec leurs capteurs, les téléphones portables sont devenus de puissantes plateformes de réalité augmentée. Pour permettre à tous de produire et transmettre des contenus, Marius Preda et son équipe de chercheurs de Télécom SudParis ont développé des technologies standardisées : le navigateur web ARAF et son langage formel, équivalent du html mais pour la réalité augmentée ; et une plateforme cloud de reconnaissance d’images. L’idée est de faire le pont entre monde numérique et monde physique, en permettant d’identifier dans le réel des éléments qui permettent de déclencher une action numérique sur un smartphone ou une tablette, ou d’offrir une vue combinée via leur écran.

 

 

A partir de là, les chercheurs ont créé un outil auteur qui permet à un créateur de contenu d’enrichir des vidéos automatiquement, grâce à un système de recherche visuelle : « A partir d’une très grande base de données avec des images indexées et annotées, pour chaque trame de la vidéo, on essaie de voir si le contenu est similaire à celui de la base de données », explique Marius Preda. Par exemple, si la Tour Eiffel est reconnue sur la vidéo, l’outil proposera des informations sur ce monument indexées dans la base ou extraites du web. Ces travaux s'inscrivent directement dans le cadre du projet européen Bridget

La technologie de reconnaissance d’images a également été utilisée pour l’application Goot, afin de recommander, à partir d’une photo d’étiquette de vin, un vin similaire. Les cas d’usages sont nombreux et beaucoup restent à imaginer, c’est pourquoi les entreprises sont invitées à expérimenter la technologie et à contribuer à la base de données sur la plateforme cloud, via des API.

Donner du sens au big data

Comment faire sens de la masse de données qui circule sur le web ? Le projet Smilk (Social Media Intelligence and Linked Knowledge), porté par l'équipe Wimmics de l’Inria et la division Recherche & Innovation du groupe Viseo analyse des données web pour obtenir puis enrichir de l’information non redondante et pertinente, au service des entreprises. « A partir de toutes les informations disponibles sur le web - citation dans des articles de presse, commentaires sur les réseaux sociaux et les blogs, etc. – on tire un graphe de connaissances que l’entreprise pourra explorer, et qui donne une vision globale d’un produit ou d’une marque, » résume Domoina Rabarijaona, responsable Transfert et Valorisation chez Viseo R&I.

Le projet fusionne le web sémantique - la nouvelle norme définie par le W3C, permettant qu’une page web comprise par un être humain le soit aussi par une machine grâce à des liens entre les concepts – et le traitement automatique de la langue, et transforme un texte écrit en langage naturel en graphe de connaissances. Aujourd'hui, le prototype est un plugin qui se greffe à un navigateur web pour offrir une navigation augmentée, en permettant à l'utilisateur de visualiser directement les entités qui l'intéresse et en lui apportant des informations complémentaires, extraites d'autres sources, pour chaque entité.

Le défi réside dans la désambiguïsation de l’information. Comment différencier ces deux phrases : « Total est leader de son secteur » et « Le total des gains est de 3000 euros » ? « Pour que l’outil puisse différencier le mot ou l’expression courante et la marque ou le produit, on se sert au maximum du contexte et de la base de connaissances construite au fur et à mesure », détaille Domoina Rabarijaona. L’analyse grammaticale et sémantique (les mots-clés comme leader ou gains) permet à l’outil de comprendre la phrase et d’en extraire des informations. De même, cette analyse va permettre d’évaluer précisément les sentiments et les opinions exprimés sur les réseaux sociaux. Enfin, les informations recueillies sont mises en réseau et visualisées sous forme de graphe ou de tableau.

 

Les labos parlent aux PME

Les Bourses aux technologies de l’Institut Mines-Télécom sont des journées de rencontres et d’échanges entre chercheurs et PME. L’objectif du dispositif est de permettre aux PME d’accéder plus facilement aux résultats de la recherche académique et de développer ainsi les innovations de demain. Son originalité est d’apporter les technologies issues de toutes les écoles de l’Institut et de ses partenaires, dans une région donnée et sur un domaine.

Ces rendez-vous s’inscrivent dans le cadre du programme de promotion de l’offre des technologies des organismes publics de la recherche mis en œuvre par le Consortium de Valorisation Thématique CVSTENE (Investissements d’Avenir) dédié aux sciences et technologies du numérique.

 

Bienvenue !

Vous êtes désormais inscrits. Vous recevrez prochainement notre newsletter hebdomadaire Industrie & Technologies

Nous vous recommandons

[Avis d’expert] Infiltration des centrales énergétiques : autopsie d’une cyberguerre furtive

Avis d'expert

[Avis d’expert] Infiltration des centrales énergétiques : autopsie d’une cyberguerre furtive

Comment des hackers parviennent-ils à s’infiltrer dans les systèmes d’opération des centrales[…]

Transformateur pour smart grids, reconnaissance gestuelle, polymère de résistance au feu... les innovations qui (re)donnent le sourire

Transformateur pour smart grids, reconnaissance gestuelle, polymère de résistance au feu... les innovations qui (re)donnent le sourire

La commande gestuelle s’intègre dans les technologies de réalité virtuelle et augmentée Qualcomm

La commande gestuelle s’intègre dans les technologies de réalité virtuelle et augmentée Qualcomm

 Un transformateur plus compact pour les smart grids

 Un transformateur plus compact pour les smart grids

Plus d'articles