Comment Alexa écoute les mots de réveil



L’assistant vocal Alexa est en mode d’écoute constant, mais il ne procède pas à un enregistrement continu. La transmission vers les serveurs cloud ne se déclenche qu’à la suite de la détection du mot d’activation (tel que « Alexa », « Echo » ou « Ordinateur »). Cependant, la reconnaissance de ces mots d’activation s’avère plus complexe qu’il n’y paraît de prime abord.

Les appareils Echo, en eux-mêmes, ne sont pas dotés d’une intelligence propre. En l’absence de connexion internet, toute requête ou question posée reste sans réponse. Vos commandes sont en fait envoyées vers le cloud afin d’être interprétées et traitées. Amazon a mis en place un système de détection par mot d’activation afin d’éviter l’enregistrement de toutes les conversations, se concentrant uniquement sur les instructions adressées à l’appareil. Pour ce faire, l’entreprise combine plusieurs éléments, notamment des microphones de haute précision, une mémoire tampon à court terme, et un apprentissage via réseau neuronal.

Microphones haute précision : Identification vocale

La diode bleue indique toujours la provenance de votre voix.

Les enceintes intelligentes comme Echo et Echo Dot intègrent généralement plusieurs microphones. L’Echo Dot, par exemple, en possède sept. Cette configuration offre à ces dispositifs diverses capacités, comme la réception de commandes vocales à distance et la distinction entre la voix et les bruits ambiants.

Cette dernière fonction est particulièrement utile pour la détection des mots d’activation. En utilisant ses multiples microphones, l’Echo peut localiser votre position par rapport à son emplacement et se focaliser sur votre voix tout en ignorant les autres sons de la pièce.

Vous pouvez observer ce mécanisme en action lors de l’utilisation du mot d’activation. Placez-vous à côté d’un Echo ou d’un Echo Dot et prononcez le mot d’activation. Vous verrez l’anneau lumineux devenir bleu foncé, puis bleu clair en pivotant et en se « pointant » vers vous. Déplacez-vous ensuite de quelques pas sur le côté et répétez le mot d’activation. Vous constaterez que les lumières bleues vous suivent.

Cette capacité à déterminer votre position permet à l’appareil de mieux se concentrer sur votre voix et de filtrer les bruits environnants.

Mémoire tampon limitée : un traitement efficace

Les appareils Echo disposent d’une capacité de stockage considérable, mais celle-ci est peu sollicitée pour l’enregistrement audio. Selon Rohit Prasad, vice-président et scientifique en chef d’Alexa Intelligence Artificielle chez Amazon, un Echo ne peut stocker physiquement que quelques secondes de flux audio.

En limitant cette capacité, Amazon renforce la protection de votre vie privée (moins d’endroits où votre voix est stockée) et restreint également le rôle d’Echo à la détection du mot d’activation, en évitant l’enregistrement de conversations entières.

Imaginez un magnétophone équipé d’une bande de trois secondes. Une fois la fin de la bande atteinte, elle revient constamment au début. Si vous enregistrez une conversation, tout ce qui a été dit quatre secondes auparavant sera effacé et immédiatement remplacé par les nouvelles données. C’est le fonctionnement d’un Amazon Echo.

L’appareil enregistre en continu, mais efface simultanément ce qu’il vient d’enregistrer. Cette courte durée d’attention permet de se concentrer sur le mot « Alexa » et peu de temps au-delà. Trois secondes suffisent toutefois pour que ce mot soit enregistré, examiné et pris en compte de manière adéquate.

Apprentissage par réseau neuronal : reconnaissance des schémas

Représentation des différentes couches utilisées par les algorithmes d’Amazon.

Enfin, Amazon utilise un système d’apprentissage par réseau neuronal pour enseigner à l’Echo la reconnaissance des schémas vocaux. Tout comme d’autres formes d’apprentissage automatique, Amazon nourrit ses algorithmes en leur présentant un grand nombre d’exemples du mot « Alexa » (ou « Ordinateur » ou « Echo », selon le mot d’activation utilisé).

L’objectif est de couvrir toutes les intonations, accents et contextes possibles. Amazon souhaite que votre Echo soit capable de faire la distinction entre le moment où vous vous adressez à lui, celui où vous parlez de lui, ou même lorsque vous discutez avec une personne prénommée Alexa. Les microphones directionnels contribuent également à cette précision.

Chaque mot entendu par l’Echo est analysé par plusieurs couches d’algorithmes. Chaque couche a pour objectif d’éliminer les faux positifs en recherchant des similitudes sonores ou des indices contextuels. Si une couche valide le mot, il passe à la suivante. Finalement, lorsque l’appareil considère qu’il a détecté le mot d’activation, il commence l’enregistrement et la transmission de l’audio vers les serveurs cloud d’Amazon. Amazon utilise quatre algorithmes distincts : un pour chaque mot d’activation (« Alexa », « Ordinateur », « Echo »), et un pour Alexa Guard, qui traite certains sons spécifiques, tels que le bris de verre, comme mots d’activation.

Néanmoins, même en cas de correspondance, Amazon effectue des vérifications plus poussées. Avez-vous remarqué que, généralement, lorsque le mot « Alexa » est prononcé dans une émission télévisée ou une publicité, votre Echo ne réagit pas ? C’est parce qu’Amazon procède également à une vérification dans le cloud.

Vérifications Cloud : limitation des faux positifs

Cette publicité humoristique d’Alexa ne réveillera pas votre Echo.

Lorsque les entreprises créent des publicités incluant le mot « Alexa », elles peuvent soumettre l’audio à Amazon. L’entreprise analyse ces extraits audio via des algorithmes similaires à ceux utilisés pour la détection des mots d’activation. Une fois que cet enregistrement est entièrement répertorié, il est ajouté à une base de données.

Dans le cadre du processus de connexion au cloud, votre Echo inclut des informations sur le mot d’activation détecté et effectue une comparaison avec cette base de données. Si une correspondance est trouvée, Amazon demande à votre Echo d’ignorer ce mot d’activation, d’interrompre et de supprimer toutes les données audio enregistrées.

Par ailleurs, Amazon effectue une vérification pour les mots d’activation prononcés simultanément. Toutes les entreprises ne soumettent pas systématiquement leurs extraits audio à Amazon, ce qui a conduit l’entreprise à mettre au point une solution complémentaire. Après la vérification avec la base de données, l’empreinte du mot d’activation est comparée avec toutes les autres occurrences détectées au même moment. Il est peu probable que deux personnes prononçant « Alexa » simultanément aient la même sonorité. Donc, s’il existe une correspondance, Amazon en déduit qu’il s’agit probablement d’une publicité ou d’une émission télévisée et ignore la commande.

Malgré tous ces contrôles, il arrive encore de constater des faux positifs. Vous pouvez écouter les enregistrements effectués par votre Echo dans le Centre de confidentialité d’Amazon, où vous trouverez probablement au moins un faux positif. La technologie étant en constante amélioration, Amazon ambitionne de parvenir à un fonctionnement sans mot d’activation à l’avenir.