Alexa, Siri et Google ne comprennent pas un mot que vous dites



Les outils d’assistance vocale, tels qu’Alexa, Google Assistant et Siri, ont connu une évolution significative ces dernières années. Cependant, malgré leurs améliorations, un obstacle majeur persiste : leur capacité limitée à interpréter nos demandes. Ils dépendent excessivement de formulations vocales précises.

L’illusion de la reconnaissance vocale

Ces assistants ne comprennent pas réellement le sens de nos propos. Lorsqu’une requête est adressée à un Google Home ou un Amazon Echo, l’appareil convertit les paroles en une séquence textuelle et la compare à une liste de commandes prédéfinies. S’il identifie une correspondance exacte, il exécute une série d’instructions. Dans le cas contraire, il recherche une alternative en se basant sur les informations disponibles, et si aucune solution n’est trouvée, il renvoie un message d’erreur du type « Je suis désolé, je ne sais pas répondre à cela. ». Il s’agit plutôt d’une forme d’imitation qui donne l’impression d’une compréhension véritable.

Ces assistants sont incapables d’utiliser des indices contextuels pour deviner au mieux nos intentions ou d’appliquer des connaissances connexes pour éclairer leurs décisions. Il est facile de les prendre au dépourvu. Par exemple, si on demande à Alexa « Travaillez-vous pour la NSA? », elle répondra. Mais si on lui demande « Faites-vous secrètement partie de la NSA? », la réponse sera « Je ne sais pas celle-là » (du moins, au moment de la rédaction de cet article).

La compréhension du langage par les humains fonctionne différemment. Si vous demandez à une personne : « Qu’est-ce que ce klarvain dans le ciel ? Celui qui est en forme d’arc et rempli de couleurs rayées comme le rouge, l’orange, le jaune et le bleu. », même si le mot « klarvain » est inventé, elle comprendra probablement que vous faites référence à un arc-en-ciel grâce au contexte.

Contrairement à une machine qui transforme les mots en données, un être humain convertit les mots en idées, puis utilise ses connaissances et sa compréhension pour formuler une réponse. Si vous demandez à une personne si elle travaille secrètement pour la NSA, elle répondra par oui ou par non, même si la réponse n’est pas véridique. Elle ne répondrait pas « Je ne connais pas celui-là » à une telle question. La capacité de mentir est une preuve de compréhension véritable.

Des limites intrinsèques à la programmation

Les assistants vocaux sont limités par leur programmation initiale et toute divergence de ces paramètres peut entraver leur fonctionnement. Cela est particulièrement visible avec les dispositifs tiers. Les commandes d’interaction avec ces appareils sont souvent complexes, de la forme « demander au fabricant de l’appareil de réaliser telle action avec tel argument optionnel ». Un exemple concret : « Demande à Whirlpool de mettre le sèche-linge en pause ». Un autre exemple encore plus difficile à retenir : la fonction Alexa de Genève pour certains fours GE. L’utilisateur doit se souvenir de dire « Demande à Genève » et non « Demande à GE », puis le reste de la commande. Bien qu’il soit possible de demander de préchauffer le four à 175 degrés Celsius, il est impossible de demander une augmentation de température de 30 degrés supplémentaires. Un humain serait capable de comprendre et de suivre ces requêtes.

Amazon et Google ont consenti des efforts importants pour résoudre ces problèmes, et cela se remarque. Là où il fallait auparavant suivre une syntaxe précise pour verrouiller une serrure connectée, il suffit maintenant de dire « Verrouiller la porte d’entrée ». Alexa était initialement déroutée par l’expression « Raconte-moi une blague de chien », mais aujourd’hui, cette demande fonctionne sans problème. Des variantes de commandes ont été introduites, mais en fin de compte, il est toujours nécessaire de connaître la bonne formule et la syntaxe appropriée.

Si cela vous rappelle une ligne de commande, ce n’est pas une coïncidence.

Ligne de commande vocale perfectionnée

Une ligne de commande est conçue pour accomplir des tâches spécifiques, mais uniquement si l’utilisateur connaît la syntaxe exacte. Toute erreur de frappe, comme « dyr » au lieu de « dir », entraînera un message d’erreur. Bien que l’on puisse utiliser des alias pour simplifier les commandes, il est nécessaire de comprendre la fonction de base de ces commandes et leur fonctionnement. Sans cet apprentissage, l’utilisation de la ligne de commande reste limitée.

Les assistants vocaux sont similaires. Il est impératif de connaître la bonne façon d’énoncer une commande ou de poser une question. Il faut également savoir comment configurer les groupes pour Google et Alexa, comprendre l’importance du regroupement des appareils et savoir nommer correctement les appareils connectés. L’omission de ces étapes peut entraîner des frustrations, par exemple, en demandant à l’assistant vocal d’éteindre « le bureau » et qu’il vous demande « quel bureau » il doit éteindre.

Même en utilisant une syntaxe correcte et la bonne formulation, le processus peut échouer, soit par une mauvaise réponse, soit par un résultat imprévu. Deux Google Homes situés dans la même maison peuvent donner des informations météorologiques pour des lieux légèrement différents, même s’ils ont accès aux mêmes données de compte utilisateur et à la même connexion Internet.

Dans l’exemple ci-dessus, l’utilisateur demande « Régler une minuterie pour une demi-heure ». L’appareil Google Home a créé un minuteur nommé « Heure » et a demandé quelle devait être la durée de cette minuterie. Pourtant, la même requête répétée trois fois a ensuite fonctionné correctement, créant une minuterie de 30 minutes. La formulation « Régler une minuterie sur 30 minutes » s’avère être plus fiable.

Bien que l’interaction avec un Google Home ou un Echo puisse sembler plus naturelle, les assistants vocaux, comme les lignes de commande, fonctionnent selon le même principe. Il n’est pas nécessaire d’apprendre une nouvelle langue, mais plutôt un nouveau dialecte.

Une compréhension limitée, un frein à la croissance

Ces limitations n’empêchent pas les assistants vocaux tels que Google Assistant et Alexa de fonctionner de manière satisfaisante (bien que Cortana soit un cas à part). Google Assistant et Alexa sont capables de réaliser des recherches en ligne de manière correcte. Sans surprise, Google excelle dans la recherche et peut répondre à des questions basiques telles que les conversions d’unités et les calculs simples. Avec une configuration appropriée de la maison connectée et un utilisateur bien informé, la majorité des commandes domotiques fonctionnent correctement. Ce résultat est le fruit d’un travail et d’efforts, et non d’une compréhension intellectuelle.

Les minuteries et alarmes étaient autrefois rudimentaires. Avec le temps, la possibilité de leur donner un nom, puis d’ajouter du temps à une minuterie a été ajoutée. Ces outils sont passés d’une conception simpliste à une complexité accrue. Les assistants vocaux peuvent répondre à de plus en plus de questions, et de nouvelles fonctionnalités et compétences sont introduites chaque jour. Cependant, cela n’est pas dû à une croissance personnelle acquise par l’apprentissage et la compréhension.

Par ailleurs, ces outils ne possèdent pas la capacité inhérente d’utiliser leurs connaissances pour appréhender l’inconnu. Pour chaque commande qui fonctionne, il y en aura toujours trois qui échoueront. Sans une avancée significative dans le domaine de l’IA capable de doter les machines d’une compréhension comparable à celle de l’homme, les assistants vocaux restent limités. Ils sont davantage des lignes de commande vocales : utiles dans des cas bien définis, mais restreintes aux scénarios pour lesquels elles ont été programmées.

En d’autres termes : les machines peuvent apprendre, mais elles ne peuvent pas comprendre.