Musique

Comment Shazam nomme une chanson sans jamais l'écouter

18 juin 2026 6 min de lecture

Illustration générée avec Google Flow (Nano Banana Pro).

Vous êtes dans un bar. La musique est forte, les gens crient par-dessus, les verres s'entrechoquent, et une chanson que vous reconnaissez à moitié se fraie un chemin à travers tout ce vacarme. Vous levez votre téléphone, vous attendez cinq secondes, et l'écran vous annonce tranquillement le titre, l'artiste et l'album. On dirait que le téléphone a écouté la mélodie — qu'il l'a fredonnée intérieurement, qu'il a reconnu l'air. Il n'en est rien. Shazam n'entend pas la musique, pas au sens où un humain l'entend. Il se moque de la mélodie, de la tonalité, du rythme. Ce qu'il fait à la place est l'un des tours les plus élégants de l'informatique moderne : il transforme le son en une carte d'étoiles clairsemée et part chercher cette constellation précise dans une botte de foin de plusieurs millions.

Une foule serrée brandissant des téléphones lors d'un concert — l'environnement bruyant et chaotique pour lequel Shazam a été conçu — Crédit : Aleksandr Popov / Unsplash

Du son à une image du son

La première chose que fait Shazam, c'est d'arrêter de voir l'audio comme une onde et de commencer à le voir comme une image. Il découpe l'extrait en minuscules tranches de temps qui se chevauchent et passe chacune dans une transformée de Fourier — la machine mathématique qui prend une vibration confuse de pression sonore et vous dit de quelles fréquences pures elle est faite, et avec quelle intensité chacune sonne.

Empilez toutes ces tranches côte à côte et vous obtenez un spectrogramme : le temps qui défile de gauche à droite, la fréquence de bas en haut, et la luminosité qui indique combien d'énergie se loge à chaque hauteur, à chaque instant. Un coup de grosse caisse illumine le bas ; un charleston scintille tout en haut. C'est le son rendu visible — le genre d'image qu'un ingénieur du son ou un linguiste reconnaîtrait au premier coup d'œil.

Un vrai spectrogramme : le temps en horizontal, la fréquence en vertical, la luminosité montrant l'énergie — les traînées claires sont les pics forts que Shazam conserve — Crédit : Aquegg / Wikimedia Commons (domaine public)

Ne garder que les étoiles les plus brillantes

Voici le coup de génie, celui qui fait que tout fonctionne dans un bar bondé. Un spectrogramme complet, c'est beaucoup trop de données, et la majeure partie n'est que de la bouillie — l'étalement des conversations de fond, le grondement de la climatisation, le souffle de la foule. Alors Shazam jette presque tout. Il ne garde que les pics : les points plus forts que tout ce qui les entoure, les fréquences qui ont percé proprement à travers le tintamarre.

Ce qu'il reste est un semis de points que le créateur de Shazam, Avery Wang, a appelé une carte de constellation — et le nom est parfait. Comme de vraies constellations, ces points sont rares, distinctifs, et survivent obstinément aux mauvaises conditions. Un pic fort dans l'enregistrement original a tendance à rester un pic fort même après avoir été écrasé par le haut-parleur d'un téléphone, noyé dans le brouhaha et compressé par un micro bon marché. Le bruit de fond est puissant, mais il est diffus ; il bat rarement les pics musicaux nets à leur propre jeu. En ne gardant que ces pics, Shazam supprime discrètement l'essentiel du bruit avant même de tenter la moindre comparaison.

Des paires d'étoiles deviennent une empreinte

Un point isolé n'est pas unique — bien des chansons ont une note forte à 440 Hz. Alors Shazam ne stocke pas des points ; il stocke des relations. Il prend un pic « ancre » et l'apparie avec plusieurs pics voisins situés juste devant lui dans le temps. Chaque paire devient un minuscule hash : la fréquence du premier point, celle du second, et l'écart de temps entre eux, le tout condensé en un seul nombre compact.

Ce triplet est merveilleusement distinctif. La probabilité qu'une autre chanson possède les mêmes deux fréquences séparées par le même infime intervalle de temps, encore et encore et dans le même ordre, est infinitésimale. Et comme un hash est bâti sur des relations entre pics — et non sur une intensité absolue — il survit aux changements de volume, à la compression et à pas mal de crasse. Shazam pré-calcule ces hashs pour chaque morceau qu'il connaît et les entasse dans une base de données géante, chacun étiqueté avec la chanson dont il provient et à quel moment de celle-ci il apparaît.

Retrouver la chanson sans jamais l'entendre

Et maintenant, la magie. Votre extrait de cinq secondes subit le même traitement — spectrogramme, pics, paires, hashs — et Shazam recherche chaque hash dans son index. Vous obtenez des correspondances éparses : ce hash colle à cette chanson, celui-là à trois autres. Les coïncidences sont partout. Alors comment distinguer une vraie correspondance du pur hasard ?

Grâce à une idée d'une beauté toute simple, fondée sur le temps. Si votre extrait vient réellement d'une chanson, alors chaque hash correspondant doit s'aligner sur un décalage constant. Disons que vous avez enregistré à la 47ᵉ seconde du morceau : alors le hash A correspond à 47 s, le hash B à 47,3 s, le hash C à 48 s — chacun se trouvant exactement votre-temps-d'enregistrement plus tard que là où il vit dans l'original. Shazam trace toutes les correspondances et cherche cette diagonale révélatrice : une bande épaisse de points qui partagent tous le même écart de temps. Une mauvaise chanson produit une pluie aléatoire de points, sans ligne. La bonne chanson produit une traînée sans équivoque. Trouvez la diagonale, et vous avez trouvé votre morceau — pas de reconnaissance de mélodie, pas d'IA qui écoute, juste de la géométrie.

Un micro vintage qui luit dans la lumière d'un bar — le genre de salle où une constellation clairsemée de pics perce encore le bruit — Crédit : Israel Palacio / Unsplash

La chute

Le plan de tout cela a été publié ouvertement par Avery Wang dès 2003, dans un article de quelques pages à peine — des années avant l'existence de l'iPhone, à l'époque où « Shazam » voulait dire appeler un numéro — le 2580 —, tendre son téléphone vers la musique pendant une trentaine de secondes, et attendre qu'un SMS vous révèle la chanson. L'algorithme de base n'a presque pas changé depuis, parce qu'il n'en avait pas besoin. Pendant que le reste du monde court après des réseaux de neurones toujours plus gros pour comprendre la musique, la chose dans votre poche qui nomme une chanson à travers un mur de bruit fait quelque chose d'obstinément démodé : elle n'écoute pas du tout. Elle se contente de faire correspondre des étoiles.

Un projet du même genre ?

Je conçois et déploie des produits comme celui-ci. Parlons-en.

Discutons