Pourquoi n’y a-t-il plus de jailbreaks ChatGPT ? 7 raisons pour lesquelles les jailbreaks ChatGPT ne fonctionnent pas



Dès le lancement de ChatGPT, l’une des premières impulsions des utilisateurs a été de tester ses limites et de chercher à outrepasser ses barrières. Ce phénomène, connu sous le nom de « jailbreak », consistait à amener l’IA à dévier de sa programmation initiale, produisant des résultats à la fois fascinants et parfois totalement imprévisibles.

Depuis lors, OpenAI a renforcé les protections de ChatGPT, rendant ces « jailbreaks » considérablement plus difficiles à réaliser. De plus, l’intérêt pour ces techniques semble avoir diminué, ce qui pousse les utilisateurs de ChatGPT à s’interroger sur leur efficacité actuelle.

Alors, où sont passés tous ces « jailbreaks » de ChatGPT ?

1. L’amélioration globale des compétences en matière d’invites ChatGPT

Avant l’arrivée de ChatGPT, la capacité de dialoguer avec une IA était une compétence spécifique, réservée à ceux qui fréquentaient les laboratoires de recherche. La plupart des premiers utilisateurs manquaient d’expertise dans la formulation d’invites efficaces. Ceci a mené beaucoup de personnes à opter pour le « jailbreak », une manière rapide de faire exécuter au chatbot ce qu’ils souhaitaient, sans avoir à fournir d’efforts considérables en termes de formulation.

Aujourd’hui, la situation a changé. L’art de créer des invites performantes est en train de devenir une compétence courante. Grâce à l’expérience accumulée via une utilisation répétée et à l’accès à des guides sur la création d’invites ChatGPT disponibles gratuitement, les utilisateurs ont perfectionné leur approche. Au lieu de chercher des solutions de contournement, telles que les « jailbreaks », la plupart des utilisateurs de ChatGPT ont appris à utiliser diverses techniques de formulation afin d’atteindre les objectifs qu’ils auraient autrefois visé via ces méthodes alternatives.

2. L’émergence des chatbots non censurés

Alors que les grandes entreprises technologiques renforcent la modération du contenu sur les chatbots IA grand public, à l’instar de ChatGPT, les startups plus petites et orientées vers le profit adoptent des restrictions moins strictes, misant sur une demande pour des chatbots IA sans censure. Avec un peu de recherche, il est aisé de trouver des dizaines de plateformes de chatbots IA proposant des services non censurés, capables de réaliser presque tout ce que l’on souhaite.

Que ce soit pour écrire des romans policiers ou de l’humour noir que ChatGPT refuse de créer, ou encore pour écrire des logiciels malveillants, ces chatbots sans contraintes morales feront ce qu’on leur demande. Dans ce contexte, il devient inutile de consacrer du temps à la création de « jailbreaks » pour ChatGPT. Bien qu’ils ne soient pas nécessairement aussi puissants que ChatGPT, ces alternatives sont parfaitement capables de réaliser une grande variété de tâches. Des plateformes telles que FlowGPT et Unhinged AI en sont des exemples notoires.

3. Le « jailbreak » est devenu plus complexe

Durant les premiers mois de ChatGPT, le « jailbreak » était aussi simple que de copier-coller des invites disponibles en ligne. Il était possible de modifier entièrement la personnalité de ChatGPT avec quelques lignes d’instructions bien choisies. On pouvait, via de simples directives, transformer ChatGPT en un antagoniste malveillant expliquant comment fabriquer des bombes, ou en un chatbot capable d’utiliser tous les types d’expressions grossières sans aucune retenue. C’était une sorte de « far west » qui a donné naissance à des « jailbreaks » célèbres, tels que DAN (Do Anything Now). Ce dernier consistait en une série d’instructions apparemment anodines, qui obligeaient le chatbot à réaliser tout ce qui lui était demandé, sans émettre de refus. Étonnamment, ces astuces rudimentaires fonctionnaient à cette époque.

Cependant, ces débuts chaotiques sont révolus. Ces invites basiques et ces astuces peu coûteuses ne fonctionnent plus avec ChatGPT. Le « jailbreak » requiert désormais des techniques sophistiquées pour espérer contourner les protections robustes mises en place par OpenAI. Cette complexité accrue décourage une grande partie des utilisateurs. Les exploits simples et à grande échelle du début de ChatGPT ont disparu. Aujourd’hui, obtenir un simple mot grossier nécessite des efforts et une expertise qui pourraient ne pas en valoir la peine.

4. La perte de l’effet de nouveauté

L’une des principales raisons pour lesquelles de nombreux utilisateurs se sont lancés dans les tentatives de « jailbreak » de ChatGPT, résidait dans le plaisir et l’excitation que cela procurait au départ. En tant que nouvelle technologie, amener ChatGPT à se comporter de façon non conventionnelle était divertissant, voire une source de fierté. Bien qu’il existe d’innombrables applications pratiques aux « jailbreaks » de ChatGPT, beaucoup les ont entrepris pour le côté spectaculaire, pour pouvoir dire « Regardez ce que j’ai réussi à faire ». Petit à petit, l’enthousiasme suscité par cette nouveauté s’est estompé et, par la même occasion, l’intérêt des utilisateurs pour les « jailbreaks ».

5. La correction rapide des « jailbreaks »

Une pratique courante au sein de la communauté des « jailbreaks » de ChatGPT consiste à partager chaque exploit réussi dès sa découverte. Le problème est que lorsque ces exploits sont largement diffusés, OpenAI en prend généralement conscience et corrige les vulnérabilités. Cela signifie que les « jailbreaks » cessent de fonctionner avant même que les personnes intéressées ne puissent les essayer.

Ainsi, chaque fois qu’un utilisateur de ChatGPT met au point un nouveau « jailbreak », son partage avec la communauté accélère sa disparition via l’application de correctifs. Cela dissuade l’idée de rendre public chaque exploit. Le conflit entre la nécessité de garder les « jailbreaks » actifs mais cachés et leur diffusion publique crée un dilemme pour les concepteurs de « jailbreaks ». De nos jours, le plus souvent, les utilisateurs préfèrent garder leurs « jailbreaks » secrets pour éviter qu’ils ne soient rapidement corrigés.

6. Alternatives locales non censurées

La montée en puissance des grands modèles de langage locaux que l’on peut exécuter sur son ordinateur a également diminué l’intérêt pour les « jailbreaks » de ChatGPT. Bien que ces LLM locaux ne soient pas totalement exempts de censure, ils le sont nettement moins, et peuvent être facilement modifiés selon les souhaits de l’utilisateur. Les choix deviennent alors simples. Soit l’on s’engage dans un jeu sans fin de chat et de souris consistant à trouver une manière de tromper un chatbot pour voir sa méthode rapidement corrigée, soit l’on opte pour un LLM local que l’on peut modifier en permanence pour faire ce que l’on souhaite.

On trouve une liste étonnamment longue de LLM puissants et non censurés, que l’on peut déployer sur son propre ordinateur, avec des restrictions laxistes. Parmi les plus notables, on peut citer Llama 7B (non censuré), Zephyr 7B Alpha, Manticore 13B, Vicuna 13B et GPT-4-X-Alpaca.

7. Les « jailbreakers » professionnels vendent désormais leurs services à profit

Pourquoi consacrer un temps précieux à l’élaboration d’invites de « jailbreak » si cela n’apporte rien ? Certains professionnels vendent désormais des « jailbreaks » dans un but lucratif. Ces créateurs conçoivent des « jailbreaks » qui réalisent des tâches spécifiques et les mettent en vente sur des places de marché rapides comme PromptBase. En fonction de leurs capacités, ces invites peuvent se vendre entre 2 et 15 dollars l’unité. Certains exploits complexes en plusieurs étapes peuvent coûter beaucoup plus cher.

La répression des « jailbreaks » pourrait-elle avoir un effet inverse ?

Les « jailbreaks » n’ont pas complètement disparu de la scène, ils sont simplement passés dans la clandestinité. Avec la monétisation de ChatGPT par OpenAI, l’entreprise a une incitation plus forte à restreindre les utilisations nuisibles, qui pourraient impacter leur modèle commercial. Ce facteur commercial influence probablement leur volonté agressive de réprimer les exploits de « jailbreak ».

Cependant, la censure appliquée par OpenAI à ChatGPT est actuellement de plus en plus critiquée par les utilisateurs. Certains cas d’utilisation légitimes du chatbot IA ne sont plus possibles en raison de cette censure stricte. Bien qu’une sécurité accrue protège contre des utilisations néfastes, des restrictions excessives pourraient à terme pousser une partie de la communauté ChatGPT vers des alternatives moins censurées.