Le test de Turing est-il obsolète ? 5 alternatives aux tests de Turing

Photo of author

By pierre



Il y a plus de sept décennies, lors de la conceptualisation de l’intelligence artificielle, Alan Turing a publié un document décrivant une méthode pour la reconnaître. Cette méthode, connue ultérieurement sous le nom de test de Turing, a servi pendant de nombreuses années à distinguer les humains des IA.

Cependant, avec l’arrivée de chatbots d’IA sophistiqués tels que ChatGPT et Google Bard, il est de plus en plus difficile de savoir si l’on communique avec une IA. Cela soulève une question cruciale : le test de Turing est-il devenu obsolète ? Et si tel est le cas, quelles alternatives existent ?

Le test de Turing est-il dépassé ?

Pour évaluer la pertinence actuelle du test de Turing, il est essentiel de comprendre son fonctionnement. Pour qu’une IA réussisse le test, elle doit persuader un examinateur humain qu’elle est elle-même humaine. Le protocole est le suivant : l’IA est évaluée en parallèle avec un humain, et les échanges se déroulent par écrit.

Imaginons que vous soyez l’examinateur. Vous posez des questions à deux participants en ligne par texte, et l’un d’eux est un modèle d’IA. Seriez-vous capable de les distinguer après cinq minutes ? Il est important de se rappeler que l’objectif du test de Turing n’est pas de repérer l’IA en fonction de la justesse des réponses, mais de déterminer si l’IA peut raisonner ou se comporter comme un humain.

L’approche du test de Turing, qui se concentre uniquement sur l’identification de réponses de type humain, présente un inconvénient majeur : elle ne tient pas compte d’autres éléments. Par exemple, l’intelligence du modèle d’IA ou les connaissances de l’examinateur ne sont pas prises en considération. De plus, le test de Turing se limite au texte, ce qui rend de plus en plus difficile l’identification d’une IA capable de générer une voix humaine ou des vidéos truquées imitant le comportement humain.

Néanmoins, les modèles d’IA contemporains tels que ChatGPT-4 et Google Bard n’ont pas encore atteint un niveau leur permettant de réussir régulièrement le test de Turing. En effet, une personne familière avec l’IA peut facilement identifier du texte généré par une IA.

Les 5 meilleures alternatives au test de Turing

Il est envisageable que les futurs modèles d’IA, comme ChatGPT-5, réussissent le test de Turing. Dans ce cas, des tests alternatifs, associés au test de Turing, seraient nécessaires pour déterminer si nous communiquons avec une IA ou un humain. Voici les meilleures options au test de Turing :

1. Le test de Marcus

Gary Marcus, un scientifique cognitiviste et chercheur en IA de renom, a proposé une alternative au test de Turing. Cette proposition, publiée dans le New Yorker, vise à évaluer la capacité cognitive d’une IA. Le principe est simple : l’évaluation d’un modèle d’IA se fait en fonction de son aptitude à regarder et à comprendre des vidéos ou des émissions YouTube sans sous-titres ni texte. Pour réussir le test de Marcus, l’IA doit comprendre le sarcasme, l’humour, l’ironie et le déroulement des scènes, et expliquer le tout comme un humain le ferait.

Bien que GPT-4 puisse décrire des images, aucun modèle d’IA n’est actuellement capable de comprendre des vidéos comme un humain. Les véhicules autonomes sont en progression, mais ne sont pas totalement indépendants et nécessitent des capteurs, car ils ne peuvent pas tout interpréter dans leur environnement.

2. Le test visuel de Turing

Un article de recherche publié dans PNAS suggère que le test visuel de Turing permet de déterminer si l’on communique avec un humain ou une IA par le biais de questionnaires basés sur des images. Le déroulement est similaire au test de Turing, mais au lieu de répondre à des questions par écrit, les participants examinent des images et doivent répondre à des questions simples en adoptant un raisonnement humain. À la différence des CAPTCHA, toutes les réponses sont acceptables, mais pour réussir le test, l’IA doit traiter les images de la même manière qu’un humain.

En outre, si une IA et un humain sont confrontés à plusieurs images côte à côte et doivent identifier les images réalistes, l’humain, grâce à ses capacités cognitives, réussira le test. Les modèles d’IA ont des difficultés à distinguer les images qui ne semblent pas avoir été prises dans le monde réel. C’est pourquoi l’on peut repérer les images générées par une IA en observant des anomalies qui n’ont pas de sens.

3. Le test Lovelace 2.0

L’idée selon laquelle un ordinateur ne peut pas créer d’idées originales qui dépassent sa programmation a été formulée pour la première fois par Ada Lovelace, antérieurement au test de Turing. Alan Turing s’est cependant opposé à cette théorie, en affirmant que l’IA peut surprendre les humains. C’est en 2001 que les directives du test de Lovelace ont été établies afin de distinguer une IA d’un humain, puis, selon la bibliothèque Kurzweill, les règles ont été révisées en 2014.

Pour réussir le test de Lovelace, une IA doit prouver sa capacité à générer des idées originales qui surpassent sa formation initiale. Les modèles d’IA actuels, tels que GPT-4, n’ont pas la faculté de concevoir de nouvelles inventions au-delà de nos connaissances existantes. Cependant, une intelligence artificielle générale pourrait atteindre ce niveau et réussir le test de Lovelace.

4. Le test de Turing inversé

Qu’en est-il du test de Turing, mais inversé ? Au lieu de déterminer si vous vous adressez à un humain, le but du test de Turing inversé est de tromper l’IA en lui faisant croire que vous êtes vous-même une IA. De plus, un autre modèle d’IA est requis pour répondre aux mêmes questions par écrit.

Par exemple, si ChatGPT-4 est l’examinateur, vous pouvez inscrire Google Bard et un humain en tant que participants. Si le modèle d’IA identifie correctement le participant humain à partir de ses réponses, il a réussi le test.

Le test de Turing inversé présente un inconvénient : son manque de fiabilité, étant donné que l’IA a parfois des difficultés à distinguer les contenus générés par elle-même de ceux rédigés par un humain.

5. Cadre de classification de l’IA

Selon le cadre de classification de l’IA élaboré par Chris Saad, le test de Turing n’est qu’une méthode d’évaluation parmi d’autres pour savoir si l’on communique avec une IA. Plus précisément, le cadre de classification de l’IA repose sur la théorie des intelligences multiples, qui stipule que l’intelligence humaine doit répondre à au moins huit critères différents : le rythme musical, l’intelligence logico-mathématique, l’identification visuelle, l’intelligence émotionnelle, l’intelligence auto-réflexive, la capacité de pensée existentielle et les mouvements corporels.

Étant donné que l’IA est évaluée sur huit paramètres distincts, il est peu probable qu’elle passe pour un humain, même si elle affiche des résultats supérieurs à la moyenne dans certains domaines. Par exemple, ChatGPT peut résoudre des problèmes mathématiques, décrire des images et tenir une conversation en langage naturel comme un humain, mais échouerait dans d’autres catégories définies par le cadre de classification de l’IA.

Le test de Turing n’est pas décisif

Le test de Turing a été conçu davantage comme une expérience de réflexion plutôt que comme un test décisif permettant de distinguer les humains des IA. À ses débuts, il représentait la norme pour évaluer l’intelligence des machines.

Cependant, avec les récents progrès des modèles d’IA dotés de capacités interactives vocales, visuelles et auditives, le test de Turing s’avère insuffisant, car il se limite à la conversation textuelle. La solution la plus pertinente serait d’introduire des alternatives au test de Turing qui permettent de différencier plus efficacement les modèles d’IA des humains.