Les enjeux de confidentialité des chatbots : Ce que vous devez savoir
L’existence des chatbots ne date pas d’hier, mais l’avènement des grands modèles de langage, comme ChatGPT et Google Bard, a propulsé l’industrie des chatbots à un niveau inédit.
Des millions d’individus à travers le monde font désormais usage de chatbots basés sur l’IA. Cependant, il est crucial de ne pas ignorer certains risques et préoccupations majeurs en matière de confidentialité lorsque l’on envisage d’utiliser ces outils.
1. La collecte de données : un aspect à surveiller
La plupart des utilisateurs ne se contentent pas d’un simple « bonjour » lorsqu’ils interagissent avec un chatbot. Ces systèmes modernes sont conçus pour analyser et répondre à des questions et demandes complexes. Les utilisateurs sont donc amenés à inclure une multitude d’informations dans leurs requêtes. Même une question en apparence anodine peut soulever des préoccupations quant à la confidentialité.
Selon la section d’assistance d’OpenAI, il est possible de supprimer à tout moment les historiques de conversations ChatGPT. Ces journaux sont ensuite supprimés définitivement des systèmes d’OpenAI après un délai de 30 jours. Cependant, l’entreprise peut conserver et examiner certaines conversations si elles ont été signalées comme contenant des éléments nuisibles ou inappropriés.
Claude, un autre chatbot IA de renom, suit également l’historique de vos conversations. Le centre d’assistance d’Anthropic précise que Claude enregistre « vos requêtes et résultats dans le but de vous offrir une expérience produit cohérente au fil du temps, en accord avec vos paramètres ». Bien que vous puissiez supprimer vos conversations avec Claude pour que le chatbot oublie les échanges passés, cela n’implique pas qu’Anthropic supprimera instantanément ces historiques de ses serveurs.
Cette situation soulève naturellement la question : mes informations personnelles sont-elles réellement effacées ? ChatGPT et consorts utilisent-ils mes données?
Et les inquiétudes ne s’arrêtent pas là.
Comment ChatGPT apprend-il ?
Les grands modèles de langage sont entraînés grâce à de gigantesques quantités de données pour pouvoir délivrer des informations pertinentes. D’après Science Focus, ChatGPT-4 a reçu pas moins de 300 milliards de mots d’information lors de son apprentissage. Ces données ne proviennent pas uniquement de quelques encyclopédies. Les créateurs de chatbots puisent dans une masse d’informations issue d’Internet pour former leurs modèles. Cela peut inclure des données provenant de livres, films, articles, pages Wikipédia, articles de blog, commentaires et même des sites d’avis.
Il est important de noter que certaines de ces sources peuvent être exclues de l’entraînement des modèles, en fonction de la politique de confidentialité du développeur du chatbot.
Nombreux sont ceux qui ont critiqué ChatGPT, le considérant comme un cauchemar en matière de confidentialité et remettant en question sa fiabilité. Pourquoi cette défiance?
C’est là que les choses se compliquent un peu. Si vous demandez directement à ChatGPT-3.5 s’il a accès aux avis de produits ou aux commentaires d’articles, la réponse sera catégoriquement négative. Comme le montre la capture d’écran ci-dessous, GPT-3.5 affirme ne pas avoir eu accès aux commentaires des utilisateurs sur des articles ou aux avis de produits lors de sa phase d’apprentissage.
Au lieu de cela, son entraînement s’est basé sur « une variété de textes issus d’Internet, notamment des sites web, des livres, des articles et d’autres documents écrits accessibles au public jusqu’en septembre 2021. »
Mais en est-il de même pour GPT-4 ?
Interrogé, GPT-4 nous a répondu qu’« OpenAI n’a pas utilisé d’avis d’utilisateurs spécifiques, de données personnelles ou de commentaires d’articles » pendant sa période de formation. De plus, GPT-4 précise que ses réponses sont générées à partir de « modèles présents dans les données » sur lesquelles il a été formé, lesquelles proviennent principalement de livres, d’articles et d’autres textes d’Internet.
En poussant plus loin nos investigations, GPT-4 a admis que certains contenus de réseaux sociaux pourraient effectivement faire partie de ses données d’entraînement, mais que les créateurs resteraient anonymes. GPT-4 précise que « Même si le contenu de plateformes comme Reddit a pu être inclus dans les données d’entraînement, [il n’a pas] accès aux commentaires, publications ou à toute donnée spécifique qui pourrait être liée à un utilisateur particulier. »
Un autre élément notable de la réponse de GPT-4 est le suivant : « OpenAI n’a pas explicitement listé toutes les sources de données utilisées. » Bien sûr, il serait ardu pour OpenAI de répertorier 300 milliards de mots de sources, mais cela laisse la porte ouverte à la spéculation.
Dans un article d’Ars Technica, il est avancé que ChatGPT collecte des « informations personnelles obtenues sans consentement ». Le même article soulève également la notion d’intégrité contextuelle, qui se réfère à l’usage d’informations d’une personne uniquement dans le contexte initial dans lequel elles ont été fournies. Si ChatGPT ne respecte pas cette intégrité contextuelle, les données des utilisateurs pourraient être mises en danger.
Un autre point d’inquiétude concerne la conformité d’OpenAI au Règlement général sur la protection des données (RGPD). Ce règlement, appliqué par l’Union européenne, vise à protéger les données des citoyens européens. Plusieurs pays européens, dont l’Italie et la Pologne, ont lancé des enquêtes sur ChatGPT en raison de problèmes concernant son respect du RGPD. ChatGPT a même été interdit en Italie durant une courte période, pour des raisons liées à la protection de la vie privée.
OpenAI a menacé de se retirer de l’UE par le passé, en raison des réglementations envisagées sur l’IA, mais cette menace a depuis été retirée.
ChatGPT est peut-être le chatbot IA le plus en vogue aujourd’hui, mais les problèmes de confidentialité liés aux chatbots ne s’arrêtent pas à ce seul fournisseur. Si vous utilisez un chatbot douteux, doté d’une politique de confidentialité peu claire, vos conversations pourraient être utilisées de manière abusive ou vos informations sensibles pourraient être intégrées aux données d’entraînement du modèle.
2. Le vol de données : une menace réelle
Comme tout outil ou plateforme en ligne, les chatbots sont vulnérables à la cybercriminalité. Même si un chatbot met tout en œuvre pour protéger ses utilisateurs et leurs données, il existe toujours un risque qu’un pirate informatique expérimenté parvienne à infiltrer ses systèmes internes.
Si un service de chatbot stocke vos informations sensibles, telles que vos informations de paiement d’abonnement premium, vos coordonnées, ou d’autres données similaires, ces informations pourraient être dérobées et exploitées lors d’une cyberattaque.
Cela est particulièrement vrai si vous utilisez un chatbot peu sécurisé dont les développeurs n’ont pas investi dans une protection de sécurité adéquate. Non seulement les systèmes internes de l’entreprise peuvent être piratés, mais votre propre compte peut également être compromis si celui-ci ne comporte pas d’alertes de connexion ou une authentification à plusieurs facteurs.
Aujourd’hui que les chatbots IA sont si populaires, les cybercriminels se sont naturellement engouffrés dans cette industrie pour y mener leurs escroqueries. Les faux sites web et plugins ChatGPT sont un problème majeur depuis l’ascension du chatbot d’OpenAI fin 2022. Des individus peu méfiants sont piégés par ces escroqueries et divulguent des informations personnelles, sous couvert de légitimité et de confiance.
En mars 2023, MUO a révélé qu’une fausse extension Chrome ChatGPT volait les identifiants de connexion Facebook. Ce plugin pouvait exploiter une porte dérobée de Facebook pour pirater des comptes à forte visibilité et voler les cookies des utilisateurs. Il ne s’agit là que d’un exemple parmi tant d’autres de faux services ChatGPT conçus pour escroquer des victimes innocentes.
3. L’infection par des logiciels malveillants : un danger potentiel
Si vous utilisez un chatbot douteux sans le savoir, vous pourriez constater que celui-ci vous fournit des liens pointant vers des sites web malveillants. Peut-être le chatbot vous a-t-il fait miroiter un cadeau alléchant ou vous a-t-il fourni la source d’une de ses affirmations. Si les opérateurs du service ont des intentions malhonnêtes, le but même de la plateforme peut être de propager des logiciels malveillants et des escroqueries via des liens compromis.
À l’inverse, des pirates informatiques peuvent compromettre un service de chatbot légitime et l’utiliser pour propager des logiciels malveillants. Si ce chatbot est utilisé par de nombreuses personnes, des milliers, voire des millions d’utilisateurs pourraient être exposés à ces menaces. De fausses applications ChatGPT sont même disponibles sur l’App Store d’Apple. Il est donc préférable d’agir avec prudence.
En règle générale, vous ne devez jamais cliquer sur les liens fournis par un chatbot sans les avoir préalablement vérifiés via un site web de vérification de liens. Cela peut paraître fastidieux, mais il est préférable de s’assurer que le site vers lequel vous êtes redirigé n’a pas de dessein malveillant.
De plus, vous ne devez jamais installer de plugins ou d’extensions de chatbot sans vérifier leur légitimité au préalable. Faites des recherches sur l’application, consultez les avis et renseignez-vous sur le développeur afin de détecter toute anomalie.
Les chatbots ne sont pas à l’abri des problèmes de confidentialité
À l’instar de la plupart des outils en ligne d’aujourd’hui, les chatbots ont été régulièrement critiqués pour leurs possibles failles en matière de sécurité et de confidentialité. Qu’il s’agisse des mesures prises par un fournisseur de chatbot pour la sécurité de ses utilisateurs ou des risques permanents de cyberattaques et d’escroqueries, il est essentiel que vous soyez conscient des informations que votre service de chatbot collecte sur vous et que vous vous assuriez qu’il a pris les mesures de sécurité adéquates.