Comment empêcher les robots d'exploration d'OpenAI de gratter votre site Web
Bien que ChatGPT soit très apprécié des utilisateurs pour la richesse de ses informations, les propriétaires de sites web ne partagent pas toujours cet enthousiasme.
ChatGPT, développé par OpenAI, utilise des robots d'exploration pour collecter des données sur le web. Cependant, si vous êtes propriétaire d'un site et que vous souhaitez empêcher le robot d'OpenAI d'accéder à votre contenu, il existe des solutions pour cela.
Comment fonctionne l'exploration de données par OpenAI ?
Un robot d'exploration, aussi appelé "araignée" ou "robot d'indexation", est un programme automatisé qui parcourt internet à la recherche d'informations. Il rassemble ces informations de manière à ce qu'elles soient facilement accessibles pour les moteurs de recherche.
Ces robots indexent chaque page des URL pertinentes, en se concentrant généralement sur les sites web les plus en rapport avec les requêtes de recherche. Imaginons par exemple que vous recherchiez une erreur Windows spécifique sur Google. Le robot explorateur du moteur de recherche analysera alors les URL des sites web qu'il juge les plus fiables sur le sujet des erreurs Windows.
Le robot d'exploration d'OpenAI se nomme GPTBot. Selon la documentation d'OpenAI, autoriser GPTBot à accéder à votre site web peut contribuer à l'amélioration du modèle d'IA, le rendant plus sûr et plus précis. Cela pourrait aussi étendre les capacités de ce modèle.
Comment bloquer l'accès de votre site web au robot d'OpenAI ?
Comme la plupart des robots d'exploration, GPTBot peut être empêché d'accéder à votre site web en modifiant le fichier robots.txt (également appelé protocole d'exclusion des robots). Ce fichier .txt, hébergé sur le serveur du site, permet de gérer le comportement des robots et autres programmes automatisés sur votre site.
Voici un résumé de ce que permet le fichier robots.txt :
- Il peut bloquer complètement l'accès de GPTBot à votre site web.
- Il peut bloquer l'accès de GPTBot à certaines pages spécifiques de votre URL.
- Il peut indiquer à GPTBot les liens qu'il est autorisé ou non à suivre.
Voici comment gérer les actions que GPTBot peut effectuer sur votre site :
Bloquer totalement l'accès à votre site web pour GPTBot
User-agent: GPTBot
Disallow: /
Restreindre l'accès à certaines pages spécifiques pour GPTBot
User-agent: GPTBot
Allow: /repertoire-1/
Disallow: /repertoire-2/
Il est important de noter que les modifications apportées au fichier robots.txt ne sont pas rétroactives. Les informations que GPTBot aurait déjà collectées sur votre site ne pourront pas être récupérées.
OpenAI offre la possibilité aux propriétaires de sites web de se retirer de l'exploration
Depuis que les robots d'exploration sont utilisés pour entraîner les modèles d'IA, les propriétaires de sites web cherchent des moyens de protéger la confidentialité de leurs données.
Certains craignent que les modèles d'IA ne "volent" leur travail et que les visites sur leurs sites web soient en baisse, car les utilisateurs peuvent désormais obtenir des informations sans avoir à consulter les sources originales.
En définitive, si vous souhaitez empêcher les chatbots d'IA d'analyser vos sites, c'est un droit que vous possédez.