Guide complet pour détecter le plagiat AI Chatbot

Les chatbots IA comme ChatGPT ne se limitent pas à répondre à vos questions. Ils peuvent écrire des e-mails, des lettres de motivation, des essais, de la poésie, des articles de blog et bien plus encore.

L’écriture par IA est comme un caméléon – elle peut si bien se fondre avec n’importe quel autre type d’écriture que vous auriez du mal à faire la différence.

Malheureusement, cela rend incroyablement difficile pour nous, les humains, de détecter quand une IA a écrit quelque chose au lieu d’une personne. Bien sûr, nous pourrions tous suivre les conseils de Sherlock Holmes et « éliminer l’impossible », mais qui a le temps pour cela ?

Et si je vous disais que le paragraphe ci-dessus est écrit par une IA ? Oui, j’ai demandé à YouWrite d’écrire une introduction rapide pour ce post, c’est ce qu’il a proposé. Assez convaincant non ? C’est là le problème, c’est trop convaincant que n’importe qui puisse le présenter comme son propre travail pour en tirer profit.

Les IA ne se contentent pas de reformuler le contenu ; ils apprennent le sujet et le présentent dans un langage naturel en utilisant RLHF. Cela signifie que le contenu généré ne sera ni robotique à lire ni comparable aux données disponibles en ligne pour attraper le plagiat.

Attraper du contenu généré par l’IA n’est pas facile, et je ne vais pas vous donner le faux espoir que vous pourrez l’attraper avec une précision de 100 %. Cependant, avec un peu de travail de détective et l’aide d’outils de détection d’écriture d’IA, vous pouvez attraper la plupart des travaux d’IA.

Vous trouverez ci-dessous des moyens manuels de détecter le plagiat de l’IA ainsi que des outils automatiques.

Détecter manuellement le plagiat de l’IA 🕵️

ChatGPT n’est même pas un gros problème en matière de plagiat de l’IA. Il existe de nombreux outils alternatifs basés sur la même technologie GPT-3 et conçus pour l’écriture. Ceux-ci sont très avancés et spécialement conçus pour créer un contenu de type humain difficile à attraper.

Les outils de détection automatique sont un peu aléatoires selon le type de contenu, sa longueur et sa complexité. Donc, au moins actuellement, relier manuellement les points pour déterminer si la rédaction est générée par l’IA ou non est le meilleur moyen.

Ci-dessous, j’ai répertorié quelques indices courants que vous pourriez rechercher pour capturer le contenu généré par l’IA.

#1. Informations obsolètes

ChatGPT et d’autres IA basées sur GPT-3 ont vu leurs connaissances réduites à la fin de 2021. Même si certains robots IA ont un moteur de recherche intégré pour rechercher les dernières informations, ils s’appuient toujours sur d’anciennes données pour écrire du contenu long comme des essais ou des articles de blog.

Si vous remarquez que la rédaction parle constamment de données obsolètes, en particulier avant 2021, cela pourrait être généré par l’IA.

Dans la capture d’écran ci-dessous, j’ai demandé à YouWrite de me parler de la récente Coupe du Monde de la FIFA, et voici ce qu’elle a proposé.

Il parle de la Coupe du monde 2018 au lieu de la récente 2022. Même si l’outil est mis à jour pour parler d’événements récents comme la Coupe du monde 2022, pour écrire de longs messages, il utilise toujours les données obsolètes sur lesquelles il est construit.

#2. Utilise la même structure de phrase pour les descriptions

Lors de la rédaction de descriptions de plusieurs produits/applications, l’IA utilise généralement la même structure de phrase qu’elle modifie en fonction de la description d’un produit. Les descriptions commencent généralement par le même mot, comme The, It, A ou le nom du produit. Les descriptions ont également un focus dédié qu’il répète.

Par exemple, ci-dessous, j’ai demandé à ChatGPT de me parler de « sites Web d’emplois de saisie de données ». Vous pouvez voir que toutes les descriptions commencent par « A » et ont un objectif strict.

J’ai également posé la même question à YouChat, et il a fait la même chose et a répété le nom de chaque site Web au début, et les descriptions elles-mêmes ressemblent à une version reformulée de chacun.

Si la rédaction que vous analysez contient une description de quelque chose de similaire, c’est un excellent moyen d’attraper l’écriture de l’IA.

#3. Utilise des phrases courtes

Pour la plupart des articles, l’IA utilisera des phrases d’une seule ligne avec une seule virgule au maximum. Peut-être essaient-ils de minimiser les risques d’erreur, mais ils évitent d’écrire de longues phrases qui pourraient nécessiter l’utilisation de deux-points, de points-virgules ou de lignes horizontales épaisses.

Je sais que ce n’est pas le meilleur indice pour attraper l’écriture de l’IA, mais cela vaut la peine d’être considéré pour prouver davantage vos soupçons.

#4. Peut fournir des informations incorrectes

Pour les questions complexes qui impliquent généralement une sorte d’instruction, l’IA peut ne pas comprendre l’intention et fournir des informations incorrectes. Je ne parle pas d’informations obsolètes ici, ils vous disent simplement en toute confiance les mauvaises informations lorsqu’ils ne saisissent pas le sujet.

Par exemple, j’ai demandé à YouWrite de me dire « comment rooter un téléphone Android sans PC ». Il m’a quand même montré des méthodes qui impliquent l’utilisation d’un PC à un moment donné de l’instruction.

#5. N’ajoute pas d’opinion personnelle

Lorsqu’elle parle de quelque chose, l’IA ne parle que de faits connus. Contrairement aux humains, il ne parlera pas de son expérience personnelle avec lui. Bien que les IA puissent être chargées de créer une rédaction pratique, elles ont tendance à éviter de le faire par défaut.

Si vous remarquez que l’article ne parle que de faits bien connus, il y a de fortes chances qu’il soit écrit par une IA. Par exemple, tout en parlant d’une application, il parlera de ses fonctionnalités au lieu de la fluidité de la navigation ou de la manière d’utiliser réellement l’application.

#6. Brèves explications

Comme les IA sont limitées par les connaissances actuellement disponibles, elles ont tendance à écrire de brèves explications et descriptions. D’après mon expérience, s’ils parlent d’un sujet particulier – comme l’enracinement Android – ils conservent l’explication dans 2-3 paragraphes maximum. Et pour des choses comme des applications ou des produits, la description ne dépasse généralement pas 1 paragraphe.

Les humains peuvent écrire en profondeur sur quelque chose, y compris les fonctionnalités, les limitations, l’expérience personnelle, les prix, etc. D’un autre côté, l’IA se concentre généralement sur les principales fonctionnalités ou points forts, de sorte que la rédaction est également courte. Si l’instructeur demande plus de détails, le risque d’informations incorrectes augmente considérablement.

#7. Vérifier l’historique de l’écrivain

En tant qu’enseignant ou webmaster, si vous avez accès au travail ou aux devoirs antérieurs de l’auteur, il peut être judicieux de le comparer avec la rédaction dont vous vous méfiez. Il est très peu probable que l’écrivain ait un style d’écriture similaire à celui d’une IA. Même si l’IA peut changer les tons d’écriture, les styles qu’elle choisit sont plutôt génériques et ne peuvent pas copier votre ton.

Prenons l’exemple du paragraphe généré par l’IA dans l’intro de cet article. Quiconque a lu mes articles précédents peut facilement voir que mon style d’écriture est complètement différent de celui-ci.

Vous pouvez simplement lire 2 ou 3 œuvres précédentes de l’écrivain et voir si cela correspond au style d’écriture de la rédaction suspecte.

Outils pour détecter le plagiat de l’IA

Il existe un tas d’outils disponibles qui peuvent détecter le contenu écrit par l’IA. Cependant, leur précision est différente les unes des autres et peut échouer en fonction du type de contenu et de sa longueur.

J’ai testé ces outils en utilisant différents types de contenus générés par ChatGPT, GPT-3 Playground, WriteSonic, Rytr et YouWrite. Ils ont réussi à détecter tous les types de contenus générés par ChatGPT et GPT-3 Playground.

Bien qu’ils aient eu des résultats mitigés pour les outils d’écriture dédiés, il est intéressant de noter qu’ils n’ont tous pas réussi à détecter YouWrite, je suppose que c’est parce que YouWrite fait des erreurs humaines dans le but d’éviter la détection.

Je vous recommanderai d’utiliser ces outils parallèlement à la vérification manuelle du contenu. Tout d’abord, analysez le contenu avec l’un de ces outils, puis recherchez manuellement tout indice pour confirmer davantage la suspicion.

Ci-dessous, je liste ceux qui ont offert les meilleurs résultats et qui sont les plus faciles à utiliser :

Remarque : Pour la démonstration, je vais utiliser le texte généré par WriteSonic sur « Benefits of Mangoes ».

#1. Contenu à grande échelle

J’ai trouvé que le détecteur de contenu AI de Content At Scale était le plus précis pour la plupart des tests que j’ai effectués. Il vous permet de numériser jusqu’à 2500 caractères par numérisation et fait une prédiction en pourcentage montrant la densité de contenu réelle ou fausse.

Il est sûr de supposer que le contenu qui est à plus de 60% faux est écrit par du contenu IA, du moins la majeure partie. Dans la capture d’écran ci-dessous, vous pouvez voir que 96 % du contenu est faux, ce que j’ai entièrement généré avec l’IA.

#2. GPTZéro

Si vous voulez voir exactement quel contenu est généré par l’IA, alors GPTZero est une bonne option. GPTZero ne note pas le contenu. Au lieu de cela, il met en évidence le contenu exact qui est probablement généré par l’IA.

Bien qu’il affiche des scores de perplexité et de rafale pour avoir une idée du caractère aléatoire du texte, plus important encore, il prend en charge 5 000 caractères par numérisation et peut également télécharger des fichiers. La numérisation de contenu volumineux contribue grandement à améliorer la précision.

#3. Détecteur de sortie GPT-2

Les créateurs de ChatGPT proposent également un bot pour détecter leur propre travail. Comme GPT-2 et GPT-3 ne sont différents que dans les données totales utilisées pour la formation, ce détecteur GPT-2 fonctionne également très bien pour les IA basées sur GPT-3.

Il n’y a pas de limite sur la quantité de contenu qu’il peut analyser, il est donc parfait pour détecter un très long contenu généré par l’IA. J’ai également trouvé sa précision correcte, en particulier pour le contenu généré par ChatGPT. Cependant, c’est un peu perdant dans les prédictions, alors ne considérez ses résultats que lorsqu’il montre plus de 50% du contenu comme faux.

#4. Détecteur de contenu Writer AI

Les résultats du détecteur de contenu Writer AI sont discutables lors de la détection de contenu à partir d’outils d’écriture AI, mais cela fonctionne très bien pour le contenu généré par ChatGPT. Vous pouvez scanner 1500 caractères par scan et même ajouter l’URL du contenu s’il est déjà publié.

Pour mon texte de test généré par l’IA, il a été indiqué que 94% du contenu est généré par l’homme, ce qui est assez en retrait par rapport à d’autres outils. Néanmoins, il vaut toujours la peine de l’utiliser pour détecter le contenu ChatGPT, surtout s’il est déjà publié.

#5. Brouillon et objectif

Un outil de détection d’écriture AI simple mais puissant. D’après mon expérience, Draft & Goal a offert des résultats similaires à Content At Scale, mais il n’a pas de limite de nombre de mots afin que vous puissiez analyser de longues rédactions. Cependant, son temps d’analyse augmente en fonction de la quantité de contenu que vous analysez.

Pour mon exemple de texte, il est indiqué que 94 % du texte est généré par l’IA.

Mes pensées 💭

Personnellement, je pense que l’aide de l’IA est en fait un excellent moyen de supprimer le blocage de l’écrivain, d’obtenir toutes les informations au même endroit et de trouver l’inspiration. Cependant, elle ne doit jamais remplacer l’écriture humaine car l’IA est limitée aux connaissances déjà connues.

Vous pouvez également explorer certains des meilleurs outils de vérification du plagiat pour empêcher la copie.