Comment fonctionnent les applications d’identification musicale comme Shazam?



Les outils de reconnaissance musicale paraissent presque magiques au premier abord. Cependant, leur fonctionnement repose sur un algorithme sophistiqué capable d’identifier des morceaux musicaux en un clin d’œil. Voici un aperçu de leur mécanique interne.

Le Prodige de la Reconnaissance Musicale

Cela nous est probablement tous arrivé. Lors d’un dîner dans un restaurant agréable, pendant une pause dans un café, ou en flânant dans un magasin, une mélodie captivante émane des enceintes. Il peut s’agir d’un morceau familier ou d’une découverte totale. Instinctivement, vous sortez votre téléphone, lancez une application comme Shazam, et le pointez vers la source sonore. En quelques secondes, l’application révèle le titre du morceau, le nom de l’artiste, et vous propose des plateformes pour l’écouter.

Ces applications se distinguent par leur rapidité, leur précision remarquable, et leur capacité à identifier même les titres les plus obscurs. Leur principe de base consiste à extraire l’empreinte sonore unique d’un enregistrement et à la confronter à une vaste base de données musicale. La technologie qui sous-tend ce processus est en réalité assez complexe et impressionnante.

Il est peut-être surprenant d’apprendre que l’application Shazam, telle que nous la connaissons aujourd’hui, a vu le jour en 2002. Le système était déjà à l’époque aussi précis et rapide qu’aujourd’hui. Cette performance est le fruit d’un algorithme unique qui a révolutionné l’univers de la musique.

Au-delà des Paroles

Au premier abord, les applications de reconnaissance musicale comme Shazam peuvent sembler simples. On pourrait imaginer qu’elles se contentent d’analyser les paroles, à l’instar d’un assistant vocal, et de les rechercher dans une base de données de chansons.

Cependant, la plupart de ces applications sont capables d’identifier aussi bien des morceaux instrumentaux que des interprétations de reprises. En effet, au lieu d’analyser les paroles, elles recherchent des « empreintes digitales » sonores uniques à chaque morceau dans leurs immenses bases de données.

La Technologie de l’Empreinte Digitale Sonore

Vous utilisez probablement des dispositifs qui se déverrouillent grâce à votre empreinte digitale, c’est-à-dire la disposition des lignes minuscules et uniques qui caractérisent chacun de vos doigts. De manière analogue, lorsque vous approchez votre microphone pour enregistrer un bref extrait musical, ce fragment est converti en motifs de données que Shazam ou une autre application peut comparer à sa base de données.

Cette méthode peut sembler initialement vulnérable à plusieurs perturbations. La plupart du temps, l’écoute de musique en public s’accompagne de bruits ambiants et de distorsions sonores liées aux haut-parleurs, ce qui pourrait rendre les chansons méconnaissables ou générer des identifications erronées. De plus, une quantité considérable de données est contenue dans un court extrait audio, ce qui pourrait potentiellement ralentir la recherche de ces motifs dans une base de données de millions de titres.

Dans une interview accordée au magazine Scientific American en 2003, Avery Li-Chun Wang, responsable scientifique des données et cofondateur de Shazam, explique comment leur algorithme résout ces problèmes. Les informations d’un extrait audio peuvent être visualisées à l’aide d’un graphique 3D, appelé spectrogramme, qui illustre les variations de fréquences au fil du temps. Il tient également compte de l’amplitude, c’est-à-dire la puissance d’un son. Celle-ci est représentée sur le spectrogramme par l’intensité des couleurs.

De la même manière que l’oreille humaine ne perçoit les sons qu’à partir d’une fréquence donnée, Shazam, au lieu de prendre en considération l’ensemble d’une chanson lors d’une recherche, ne se concentre que sur les « pics », c’est-à-dire les points d’énergie maximale d’un extrait audio. Les empreintes digitales extraites ne retiennent que les points de fréquence les plus élevés dans un laps de temps donné, puis les points d’amplitude de pointe au sein de ces fréquences.

Dans un document de recherche publié par l’Université Columbia, Wang révèle que cette méthode leur permet de supprimer la plupart des éléments inutiles d’un extrait audio, tels que le bruit de fond, ainsi que d’éliminer la distorsion. Elle permet également de réduire la taille des empreintes, ce qui rend l’identification d’un morceau parmi l’immense base de données possible en quelques millisecondes seulement.

L’Impact de Shazam

En plus d’être très pratiques pour les mélomanes qui entendent une chanson qu’ils apprécient, les applications de reconnaissance musicale contribuent également à façonner l’industrie musicale.

Les stations de radio et les services de streaming utilisent souvent les données sur les titres les plus « Shazamés » afin d’évaluer la popularité des morceaux auprès du public. Ces informations permettent d’identifier le potentiel d’un titre, indépendamment de l’artiste. Lorsque vous identifiez une chanson à l’aide de l’application, vous pouvez immédiatement voir combien de personnes ont également tenté de l’identifier.

Suite à l’ascension de Shazam, plusieurs concurrents ont également émergé. Soundhound prétend pouvoir identifier un titre simplement en le chantant ou en le fredonnant, avec des résultats variables. Il existe également un système de reconnaissance musicale intégré à des applications vocales telles que Google Assistant, qui fonctionne selon un principe très similaire à celui de Shazam.