Qu’est-ce que le traitement du langage naturel et comment fonctionne-t-il?

Le traitement du langage naturel permet aux ordinateurs de traiter ce que nous disons en commandes qu’ils peuvent exécuter. Découvrez comment cela fonctionne et comment il est utilisé pour améliorer nos vies.

Qu’est-ce que le traitement du langage naturel?

Qu’il s’agisse d’Alexa, Siri, Google Assistant, Bixby ou Cortana, tout le monde avec un smartphone ou un haut-parleur intelligent dispose d’un assistant à commande vocale de nos jours. Chaque année, ces assistants vocaux semblent mieux reconnaître et exécuter les choses que nous leur demandons de faire. Mais vous êtes-vous déjà demandé comment ces assistants traitent les choses que nous disons? Ils parviennent à le faire grâce au traitement du langage naturel, ou PNL.

Historiquement, la plupart des logiciels n’ont pu répondre qu’à un ensemble fixe de commandes spécifiques. Un fichier s’ouvrira parce que vous avez cliqué sur Ouvrir, ou une feuille de calcul calculera une formule basée sur certains symboles et noms de formule. Un programme communique en utilisant le langage de programmation dans lequel il a été codé, et produira donc une sortie lorsqu’il reçoit une entrée qu’il reconnaît. Dans ce contexte, les mots sont comme un ensemble de différents leviers mécaniques qui fournissent toujours la sortie souhaitée.

Cela contraste avec les langues humaines, qui sont complexes, non structurées et ont une multitude de significations basées sur la structure des phrases, le ton, l’accent, le timing, la ponctuation et le contexte. Le traitement du langage naturel est une branche de l’intelligence artificielle qui tente de combler ce fossé entre ce qu’une machine reconnaît comme entrée et le langage humain. C’est ainsi que lorsque nous parlons ou tapons naturellement, la machine produit une sortie conforme à ce que nous avons dit.

  Comment trouver la version de votre BIOS et la mettre à jour sous Windows 10

Ceci est fait en prenant de grandes quantités de points de données pour dériver le sens des divers éléments du langage humain, en plus de la signification des mots réels. Ce processus est étroitement lié au concept connu sous le nom d’apprentissage automatique, qui permet aux ordinateurs d’en apprendre davantage à mesure qu’ils obtiennent plus de points de données. C’est la raison pour laquelle la plupart des machines de traitement du langage naturel avec lesquelles nous interagissons semblent souvent s’améliorer avec le temps.

Pour mieux éclairer le concept, examinons deux des techniques les plus avancées utilisées en PNL pour traiter le langage et les informations.

Tokenisation

tokenisation traitement du langage naturel

Tokenisation signifie diviser le discours en mots ou en phrases. Chaque morceau de texte est un jeton, et ces jetons sont ce qui apparaît lorsque votre discours est traité. Cela semble simple, mais en pratique, c’est un processus délicat.

Disons que vous utilisez un logiciel de synthèse vocale, tel que le clavier Google, pour envoyer un message à un ami. Vous voulez envoyer un message: «Rendez-vous au parc». Lorsque votre téléphone prend cet enregistrement et le traite via l’algorithme de synthèse vocale de Google, Google doit alors diviser ce que vous venez de dire en jetons. Ces jetons seraient «rencontrer», «moi», «à», «le» et «parc».

  Comment découvrir de la nouvelle musique sur Spotify

Les gens ont des longueurs différentes de pauses entre les mots, et d’autres langues peuvent ne pas avoir très peu de pause audible entre les mots. Le processus de tokenisation varie considérablement entre les langues et les dialectes.

Racine et lemmatisation

La tige et la lemmatisation impliquent toutes deux le processus de suppression d’ajouts ou de variantes à un mot racine que la machine peut reconnaître. Ceci est fait pour rendre l’interprétation de la parole cohérente à travers différents mots qui signifient tous essentiellement la même chose, ce qui rend le traitement PNL plus rapide.

traitement du langage naturel

La racine est un processus rapide et brut qui consiste à supprimer les affixes d’un mot racine, qui sont des ajouts à un mot attaché avant ou après la racine. Cela transforme le mot en la forme de base la plus simple en supprimant simplement des lettres. Par exemple:

«Marcher» devient «marcher»
«Plus rapide» devient «rapide»
«Gravité» devient «sévère»

Comme vous pouvez le voir, la radicalisation peut avoir l’effet néfaste de changer complètement le sens d’un mot. «Gravité» et «sévérité» ne signifient pas la même chose, mais le suffixe «ity» a été supprimé au cours du processus d’élimination.

D’autre part, la lemmatisation est un processus plus sophistiqué qui consiste à réduire un mot à sa base, connue sous le nom de lemme. Cela prend en considération le contexte du mot et la façon dont il est utilisé dans une phrase. Il s’agit également de rechercher un terme dans une base de données de mots et leur lemme respectif. Par exemple:

  Comment suivre votre vol avec un bot Facebook Messenger

«Are» devient «be»
«Fonctionnement» devient «Fonctionnement»
«Gravité» devient «sévère»

Dans cet exemple, la lemmatisation a réussi à transformer le terme «gravité» en «sévère», qui est sa forme de lemme et son mot racine.

Cas d’utilisation de la PNL et avenir

Les exemples précédents ne font qu’effleurer la surface de ce qu’est le traitement du langage naturel. Il englobe un large éventail de pratiques et de scénarios d’utilisation, dont beaucoup nous utilisons dans notre vie quotidienne. Voici quelques exemples où la PNL est actuellement utilisée:

Texte prédictif: lorsque vous tapez un message sur votre smartphone, il vous suggère automatiquement des mots qui correspondent à la phrase ou que vous avez déjà utilisés.
Traduction automatique: des services de traduction grand public largement utilisés, tels que Google Translate, pour incorporer une forme de PNL de haut niveau pour traiter le langage et le traduire.
Chatbots: la PNL est la base des chatbots intelligents, en particulier dans le service client, où ils peuvent aider les clients et traiter leurs demandes avant qu’ils ne soient confrontés à une personne réelle.

Il y a plus à venir. Les utilisations de la PNL sont actuellement développées et déployées dans des domaines tels que les médias d’information, la technologie médicale, la gestion des lieux de travail et la finance. Il est possible que nous puissions avoir une conversation sophistiquée à part entière avec un robot à l’avenir.

Si vous souhaitez en savoir plus sur la PNL, il existe de nombreuses ressources fantastiques sur le Blog Vers la science des données ou la Groupe de traitement de Standford National Langauge que vous pouvez vérifier.