Google développe une IA capable de reconnaître et isoler une voix dans une foule

Une aptitude réservée auparavant aux humains

Pour les humains, il est tout à fait facile de concentrer leur attention sur la voix d’une personne même dans un environnement bruyant, tout en restant attentif aux autres signaux sonores. En psychoacoustique, on appelle ça l’effet cocktail party, une capacité remarquable qui est naturelle aux humains, mais qui constitue un défi pour les ordinateurs.

Mais grâce au progrès rapide de l’intelligence artificielle, les machines auront peut-être la même capacité, c’est ce qu’a illustré Google en développant une nouvelle IA capable de reconnaître et isoler des voix dans une foule.

Dans un document publié par le géant de la recherche, il présente un modèle d’apprentissage approfondi audiovisuel pour isoler un seul signal vocal d’une combinaison de sons comme d’autres voix et le bruit de fond.

« Dans ce travail, nous sommes en mesure de produire de façon computationnelle des vidéos dans lesquelles le discours de personnes spécifiques est rehaussé alors que tous les autres sons sont supprimés, » explique Google. « Notre méthode fonctionne sur des vidéos ordinaires avec une seule piste audio, et tout ce que l’utilisateur doit faire est de sélectionner le visage d’une personne dans la vidéo qu’il veut entendre, ou mettre en sorte que la personne soit sélectionnée algorithmiquement selon le contexte. »

Mais comment Google a-t-il réussi cette prouesse technique ? En fait, c’est en grande partie grâce au deep learning. Les ingénieurs de Google ont rassemblé une large collection de 100 000 vidéos de haute qualité issues de YouTube.

En utilisant ces données, les ingénieurs ont pu entraîner l’IA à analyser une écoute et la diviser en autant de pistes audio que nécessaire. La particularité de ce système est qu’il analyse aussi l’image. Il s’appuie sur le mouvement du visage des gens lorsqu’ils parlent pour distinguer des voix spécifiques. Le signal visuel améliore non seulement la qualité de la séparation audio, mais permet aussi d’associer les pistes audio avec le locuteur visible dans la vidéo. Au final, des segments propres de discours ont été extraits, pas moins de 2000 heures de vidéo ont été nettoyées, chacune avec une seule personne visible à la caméra et en train de parler sans interférence en arrière-plan.

Google a publié quatre vidéos illustrant comment fonctionne cette IA et les résultats sont plutôt bons, voire bluffants quand il s’agit d’un débat entre deux personnes. Grâce à cet outil, il est tout à fait possible de sélectionner une seule personne dans une vidéo et isoler parfaitement sa voix pour n’écouter que celle-ci, même si le bruit de fond est important.

Google explique que cette technologie va améliorer les sous-titres automatiques des vidéos, notamment sur YouTube. Cette IA pourrait aussi servir aux services de chat vidéo comme Hangouts ou Duo pour améliorer la qualité des appels vidéo. Elle pourrait aussi améliorer considérablement l’accessibilité. Pour le moment, Google explore toujours les applications potentielles de cette technologie.

Dans la même rubrique

| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 34 |

Actu en image