Guide complet pour détecter le plagiat AI Chatbot

Photo of author

By pierre



Les assistants conversationnels basés sur l’intelligence artificielle, tels que ChatGPT, ne se contentent plus de répondre à de simples questions. Ils sont désormais capables de rédiger des courriels, des lettres de motivation, des dissertations, de la poésie, des articles de blog, et bien d’autres types de textes.

La rédaction par IA est un véritable caméléon : elle s’adapte si bien à n’importe quel style d’écriture qu’il est devenu difficile, voire impossible, de la distinguer d’un texte rédigé par un humain.

Malheureusement, cette capacité à imiter rend extrêmement complexe la détection de contenus générés par une IA. Bien sûr, nous pourrions tous essayer d’appliquer la méthode de Sherlock Holmes, qui consiste à « éliminer l’impossible », mais qui a réellement le temps de le faire ?

Imaginez que je vous révèle que le paragraphe précédent a été écrit par une intelligence artificielle. En effet, j’ai demandé à YouWrite de rédiger une introduction rapide pour cet article, et c’est le résultat qu’il m’a fourni. Plutôt convaincant, n’est-ce pas ? C’est précisément là que réside le problème : la qualité de ces textes est telle que n’importe qui pourrait s’en approprier le contenu pour en tirer profit.

Les IA ne se contentent pas de reformuler un texte existant. Elles sont capables d’apprendre le sujet abordé et de le présenter dans un langage naturel grâce à la technique du RLHF (Reinforcement Learning from Human Feedback). Cela signifie que le contenu généré ne sera pas perçu comme robotique et ne correspondra pas à des données déjà disponibles en ligne, ce qui rend la détection du plagiat plus ardue.

Il est difficile de repérer les contenus générés par l’IA, et il serait irréaliste de vous faire croire que vous y parviendrez avec une précision de 100 %. Cependant, en combinant un travail de détective minutieux et l’utilisation d’outils spécialisés, vous pouvez identifier la plupart des textes écrits par une IA.

Je vais vous présenter ci-dessous des méthodes manuelles de détection du plagiat par IA, ainsi que des outils automatiques qui peuvent vous aider dans cette tâche.

Comment repérer manuellement le plagiat par IA 🕵️

ChatGPT n’est pas le seul problème en matière de plagiat par IA. Il existe de nombreux outils alternatifs, basés sur la même technologie GPT-3, qui sont spécifiquement conçus pour la rédaction de textes. Ces outils sont très sophistiqués et produisent un contenu qui ressemble à s’y méprendre à celui d’un humain, ce qui complique considérablement leur identification.

Les outils de détection automatique donnent des résultats aléatoires selon la nature du contenu, sa longueur et sa complexité. Ainsi, pour le moment, il est préférable de faire appel à votre propre esprit d’analyse pour déterminer si un texte a été généré par une IA.

Voici quelques indices qui peuvent vous aider à détecter les contenus écrits par l’IA :

#1. Informations datées

ChatGPT, ainsi que d’autres IA basées sur GPT-3, ont une base de connaissances limitée à la fin de l’année 2021. Même si certains robots IA intègrent un moteur de recherche pour actualiser leurs informations, ils continuent de s’appuyer sur d’anciennes données pour rédiger des contenus longs tels que des essais ou des articles de blog.

Si vous constatez que le texte fait constamment référence à des données obsolètes, notamment antérieures à 2021, cela peut être un signe qu’il a été généré par une IA.

Dans la capture d’écran ci-dessous, j’ai demandé à YouWrite de me parler de la récente Coupe du Monde de la FIFA. Voici sa réponse :

Il parle de la Coupe du monde de 2018 au lieu de celle de 2022. Même si l’outil est actualisé pour évoquer des événements récents tels que la Coupe du monde de 2022, il se base encore sur les données anciennes sur lesquelles il a été conçu pour rédiger des textes plus longs.

#2. Structures de phrases répétitives pour les descriptions

Lors de la rédaction de descriptions de produits ou d’applications, l’IA utilise souvent la même structure de phrase, qu’elle modifie légèrement en fonction de chaque description. Les descriptions commencent généralement par le même mot, tel que « Le », « Il », « Un » ou le nom du produit. De plus, les descriptions mettent l’accent sur le même aspect.

Par exemple, j’ai demandé à ChatGPT de me parler de « sites web d’offres d’emploi de saisie de données ». Vous pouvez constater que toutes les descriptions commencent par « Un » et insistent sur le même objectif.

J’ai posé la même question à YouChat, et il a réagi de la même manière, en répétant le nom de chaque site web au début, et les descriptions sont des versions légèrement reformulées les unes des autres.

Si le texte que vous analysez contient une description d’éléments similaires, c’est un excellent moyen de repérer l’écriture d’une IA.

#3. Phrases courtes

La plupart du temps, l’IA utilise des phrases courtes, d’une seule ligne, avec une virgule au maximum. Peut-être cherche-t-elle à minimiser les risques d’erreurs, mais elle évite généralement les phrases longues qui nécessiteraient l’utilisation de deux-points, de points-virgules ou de tirets cadratins.

Je suis conscient que ce n’est pas le meilleur indice pour repérer un texte rédigé par une IA, mais il est tout de même utile de le prendre en considération pour étayer vos soupçons.

#4. Informations erronées

Pour les questions complexes qui impliquent généralement une instruction, l’IA peut ne pas comprendre l’intention et fournir des informations incorrectes. Il ne s’agit pas ici d’informations obsolètes, mais de données erronées fournies avec assurance par l’IA lorsqu’elle ne saisit pas le sujet.

Par exemple, j’ai demandé à YouWrite de me dire « comment rooter un téléphone Android sans PC ». Il m’a quand même proposé des méthodes qui impliquent l’utilisation d’un PC à un moment donné.

#5. Absence d’opinion personnelle

Lorsqu’elle aborde un sujet, l’IA ne mentionne que des faits avérés. Contrairement à un être humain, elle n’évoquera pas sa propre expérience. Bien que les IA soient capables de rédiger des textes pratiques, elles ont tendance à éviter de le faire par défaut.

Si vous constatez qu’un article se contente de faits connus, il est probable qu’il ait été écrit par une IA. Par exemple, lors de la description d’une application, l’IA mettra en avant ses fonctionnalités, sans évoquer la fluidité de la navigation ou la manière dont l’application est réellement utilisée.

#6. Explications succinctes

Les connaissances des IA étant limitées, elles ont tendance à rédiger des explications et des descriptions succinctes. D’après mon expérience, lorsqu’elles traitent d’un sujet particulier, par exemple le root d’Android, elles se contentent généralement d’une explication de 2 ou 3 paragraphes au maximum. Quant aux descriptions d’applications ou de produits, elles ne dépassent généralement pas un paragraphe.

Un être humain est capable d’approfondir un sujet, en évoquant les fonctionnalités, les limitations, son expérience personnelle, les prix, etc. En revanche, l’IA se concentre généralement sur les points essentiels, ce qui donne des textes plus courts. Si l’utilisateur demande davantage de détails, le risque d’informations incorrectes augmente considérablement.

#7. Analyse de l’historique de l’auteur

En tant qu’enseignant ou webmaster, si vous avez accès aux travaux antérieurs de l’auteur, vous pouvez les comparer au texte suspect. Il est peu probable que le style d’écriture de l’auteur soit similaire à celui d’une IA. Bien que l’IA puisse modifier le ton de l’écriture, les styles qu’elle choisit sont assez génériques et ne peuvent imiter votre propre style.

Prenons l’exemple du paragraphe généré par une IA au début de cet article. Quiconque a lu mes articles précédents peut facilement constater que mon style d’écriture est complètement différent.

Il suffit de lire 2 ou 3 anciens textes de l’auteur pour voir si son style d’écriture correspond à celui du texte que vous soupçonnez d’être généré par une IA.

Outils pour détecter le plagiat par IA

De nombreux outils sont disponibles pour identifier les contenus écrits par une IA. Cependant, leur précision varie d’un outil à l’autre et peut être affectée par le type de contenu et sa longueur.

J’ai testé ces outils en utilisant différents types de contenus générés par ChatGPT, GPT-3 Playground, WriteSonic, Rytr et YouWrite. Ils ont tous réussi à identifier les contenus générés par ChatGPT et GPT-3 Playground.

Les résultats obtenus pour les outils de rédaction dédiés étaient plus mitigés. Il est intéressant de noter qu’aucun outil n’a réussi à détecter les textes de YouWrite, ce qui laisse supposer que cet outil commet des erreurs « humaines » volontairement pour éviter d’être repéré.

Je vous recommande d’utiliser ces outils en complément d’une analyse manuelle du contenu. Commencez par analyser le texte avec l’un de ces outils, puis recherchez manuellement les indices qui pourraient confirmer vos soupçons.

Voici une liste des outils qui ont donné les meilleurs résultats et qui sont les plus faciles à utiliser :

Remarque : Pour les exemples, je vais utiliser un texte généré par WriteSonic sur les « Bienfaits de la mangue ».

#1. Contenu à grande échelle (Content at Scale)

J’ai constaté que le détecteur de contenu IA de Content At Scale était le plus précis lors de la plupart de mes tests. Il permet d’analyser jusqu’à 2500 caractères par scan et affiche un résultat en pourcentage indiquant la probabilité que le contenu soit réel ou faux.

On peut raisonnablement supposer que tout texte considéré comme faux à plus de 60 % est un texte généré par une IA, du moins en grande partie. Dans la capture d’écran ci-dessous, vous pouvez voir que 96 % du contenu est considéré comme faux, alors que je l’ai entièrement généré avec une IA.

#2. GPTZero

Si vous souhaitez identifier précisément les passages du texte qui ont été générés par une IA, GPTZero est un excellent outil. GPTZero n’attribue pas de note au texte. Il met en évidence les parties du texte qui sont susceptibles d’avoir été générées par une IA.

Bien que l’outil affiche des scores de perplexité et de rafale pour donner une indication sur le caractère aléatoire du texte, il prend surtout en charge 5 000 caractères par analyse et permet de télécharger des fichiers. L’analyse de contenus plus longs permet d’améliorer la précision du résultat.

#3. Détecteur de sortie GPT-2

Les créateurs de ChatGPT proposent également un outil pour détecter leur propre travail. Étant donné que GPT-2 et GPT-3 ne diffèrent que par la quantité de données utilisées pour leur entraînement, ce détecteur GPT-2 fonctionne également très bien pour les IA basées sur GPT-3.

Il n’y a pas de limite à la quantité de contenu qu’il peut analyser, ce qui le rend parfait pour détecter un long texte généré par une IA. J’ai également constaté que sa précision était correcte, en particulier pour les contenus générés par ChatGPT. Cependant, ses résultats sont parfois peu fiables, il est donc conseillé de ne les prendre en compte que lorsque l’outil indique que plus de 50 % du contenu est faux.

#4. Détecteur de contenu Writer AI

Les résultats du détecteur de contenu Writer AI sont parfois discutables lorsqu’il s’agit de détecter du contenu provenant d’outils de rédaction IA, mais il fonctionne très bien pour les textes générés par ChatGPT. Vous pouvez analyser 1500 caractères par scan et même ajouter l’URL du contenu s’il est déjà publié.

Dans mon texte de test généré par l’IA, l’outil indiquait que 94 % du contenu avait été généré par un être humain, ce qui est assez éloigné des résultats obtenus avec d’autres outils. Néanmoins, il est toujours utile de l’utiliser pour détecter les contenus ChatGPT, notamment s’ils sont déjà publiés.

#5. Brouillon et objectif (Draft & Goal)

Un outil de détection d’écriture IA simple mais efficace. D’après mon expérience, Draft & Goal a donné des résultats similaires à Content At Scale, mais il n’impose pas de limite de nombre de mots, ce qui vous permet d’analyser des textes plus longs. Cependant, son temps d’analyse augmente en fonction de la quantité de contenu que vous analysez.

Pour mon exemple de texte, il est indiqué que 94 % du texte a été généré par une IA.

Mes réflexions 💭

Personnellement, je pense que l’IA peut être un excellent moyen de surmonter le syndrome de la page blanche, de rassembler des informations et de trouver l’inspiration. Cependant, elle ne doit jamais remplacer la rédaction humaine, car les connaissances d’une IA sont limitées.

N’hésitez pas à vous renseigner sur les meilleurs outils de vérification de plagiat pour éviter toute reproduction non autorisée.