Que sont les biais algorithmiques et comment les détecter ?

Les préjugés intégrés aux algorithmes peuvent affecter profondément nos existences, allant des suggestions de contenu sur internet jusqu'aux opportunités d'emploi et aux choix financiers cruciaux.

Il est dans la nature humaine de posséder des préjugés. Chaque individu est unique de par son genre, son origine, son parcours éducatif, sa formation, son héritage culturel, ses convictions, ses vécus, etc.

Ces différences se manifestent dans leurs opinions, leurs pensées, leurs affinités, leurs répulsions et leurs préférences. Ils peuvent ainsi développer des inclinations ou des aversions envers certaines catégories de personnes ou d'idées.

Les systèmes informatiques ne sont pas exempts de ce phénomène. Ils peuvent également percevoir les personnes, les objets et les situations différemment, en raison des biais qui ont été introduits dans leurs algorithmes. Ces préjugés peuvent conduire les systèmes d'IA et d'apprentissage automatique à produire des résultats inéquitables, pénalisant des individus de multiples façons.

Cet article a pour objectif de décortiquer la notion de biais algorithmique, d'explorer ses différentes formes et d'examiner les méthodes permettant de les identifier et de les atténuer afin de garantir des résultats plus justes.

Allons-y !

Qu'est-ce qu'un biais algorithmique ?

Un biais algorithmique se manifeste lorsque les algorithmes d'apprentissage automatique et d'intelligence artificielle tendent à reproduire des préjugés humains, aboutissant à des résultats injustes. Ces préjugés peuvent être basés sur le genre, l'âge, l'origine ethnique, la religion, l'ascendance ou le contexte culturel.

Dans le domaine de l'intelligence artificielle et de l'apprentissage automatique, les biais algorithmiques se traduisent par des erreurs systématiques et récurrentes qui s'infiltrent dans un système, conduisant à des conclusions inéquitables.

Les biais algorithmiques peuvent avoir diverses origines, notamment les choix concernant la collecte, la sélection, le codage des données, ou leur utilisation dans l'entraînement de l'algorithme, l'usage prévu de ce dernier, ou encore sa conception même.

Par exemple, un biais algorithmique peut se manifester dans les résultats d'un moteur de recherche, engendrant des atteintes à la vie privée ou des préjugés sociaux.

De nombreux cas de biais algorithmiques ont été observés dans des domaines tels que les scrutins électoraux, la diffusion de messages haineux en ligne, les soins médicaux, la justice pénale, le recrutement et bien d'autres. Ces biais ont pour effet d'exacerber les inégalités existantes basées sur le genre, l'origine ethnique, la situation économique et la position sociale.

Types de biais algorithmiques

#1. Biais de données

Le biais de données survient quand les données utilisées pour entraîner un modèle d'IA ne reflètent pas fidèlement la diversité des situations ou des populations du monde réel, entraînant des ensembles de données déséquilibrés ou biaisés.

Source : TELUS International

Par exemple, un logiciel de reconnaissance faciale entraîné principalement sur des données de personnes à la peau claire pourrait avoir du mal à identifier des personnes à la peau plus foncée, les pénalisant ainsi.

#2. Biais de mesure

Ce type de biais peut découler d'une erreur dans le processus de collecte ou de mesure des données.

Prenons l'exemple d'un algorithme de diagnostic médical qui se base sur des critères tels que le nombre de visites précédentes chez le médecin. Cela pourrait fausser l'évaluation, en négligeant les symptômes réels et en introduisant des biais.

#3. Biais de modèle

Les biais de modèle sont intrinsèques à la conception de l'algorithme ou du modèle d'IA.

Illustrons cela avec un système d'IA dont l'algorithme est optimisé pour maximiser les profits à tout prix. Il pourrait finir par privilégier les gains financiers au détriment de l'éthique commerciale, de la sécurité et de l'équité.

#4. Biais d'évaluation

Le biais d'évaluation apparaît quand les critères ou les facteurs d'évaluation de la performance d'un système d'IA sont eux-mêmes biaisés.

Source : Examen clair

Un système d'évaluation des performances qui utiliserait des tests standardisés favorisant une catégorie spécifique de salariés au sein d'une entreprise pourrait ainsi renforcer les inégalités.

#5. Biais de déclaration

Le biais de déclaration se manifeste quand les données d'apprentissage ne reflètent pas correctement la fréquence réelle des événements.

Un outil de sécurité basé sur l'IA qui présenterait des lacunes dans une catégorie spécifique pourrait, par exemple, signaler l'ensemble de cette catégorie comme suspecte.

Cela signifie que l'ensemble de données sur lequel le système s'est basé a étiqueté tous les incidents passés liés à cette catégorie comme étant non sécurisés, en raison de leur fréquence plus élevée.

#6. Biais de sélection

Le biais de sélection se produit quand les données d'entraînement sont sélectionnées sans aléatoire ou quand elles ne représentent pas correctement la population globale.

Un outil de reconnaissance faciale entraîné sur des données limitées pourrait commencer à manifester une discrimination envers les données qu'il rencontre moins, comme l'identification de femmes de couleur en politique, par rapport aux hommes et aux personnes à la peau plus claire.

#7. Biais implicite

Le biais implicite se manifeste quand l'algorithme d'IA émet des hypothèses basées sur des expériences personnelles, qui ne s'appliquent pas nécessairement à l'ensemble des personnes ou des catégories.

Par exemple, un concepteur d'algorithme d'IA qui estime personnellement que les femmes préfèrent le rose au bleu ou au noir pourrait amener le système à recommander des produits en conséquence, alors que ce n'est pas le cas pour toutes les femmes.

#8. Biais d'attribution de groupe

Ce biais apparaît quand les concepteurs d'algorithmes généralisent à un groupe entier des caractéristiques observées chez certains de ses membres, que ces individus soient représentatifs du groupe ou non. Ce type de biais est fréquent dans les outils de recrutement ou d'admission.

Par exemple, un outil d'admission pourrait favoriser les candidats issus d'une école particulière, au détriment des autres candidats.

#9. Biais historique

L'utilisation de données historiques est essentielle lors de l'entraînement d'un algorithme d'apprentissage automatique, mais les préjugés présents dans ces données historiques peuvent se retrouver dans les algorithmes si on n'y prend garde.

Par exemple, un modèle d'IA entraîné sur des données historiques de recrutement de postes techniques sur 10 ans pourrait favoriser les candidats masculins si les données d'entraînement contiennent plus d'hommes que de femmes.

#dix. Biais d'étiquette

Lors de l'entraînement des algorithmes d'apprentissage automatique, il est souvent nécessaire d'étiqueter un grand volume de données afin de les rendre exploitables. Cependant, ce processus d'étiquetage peut varier, engendrant des incohérences et introduisant des biais dans le système d'IA.

Prenons l'exemple d'un algorithme entraîné à identifier des chats sur des images en les encadrant. Si cette opération n'est pas réalisée avec soin, l'algorithme pourrait avoir des difficultés à identifier un chat si son visage n'est pas visible, mais identifier correctement ceux dont le visage est apparent.

Cela signifie que l'algorithme sera biaisé dans l'identification des images où les chats sont de face. Il pourrait échouer à identifier un chat si l'image est prise sous un angle différent, où le corps est visible mais pas le visage.

#11. Biais d'exclusion

Source : Porte de recherche

Un biais d'exclusion se produit lorsqu'une personne, un groupe de personnes ou une catégorie est intentionnellement ou non exclu(e) lors de la collecte des données, parce qu'elle est considérée comme non pertinente. Ce biais survient surtout pendant la phase de préparation des données, lors du nettoyage et de la préparation à l'utilisation.

Par exemple, un système de prédiction basé sur l'IA doit déterminer la popularité d'un produit durant la saison hivernale en fonction des taux d'achat. Si un scientifique de données supprime des données d'achats enregistrées en octobre, considérant qu'elles sont erronées et se base sur une période standard allant de novembre à janvier. Cependant, il y a des régions où l'hiver s'étend au-delà de ces mois. L'algorithme sera donc biaisé en faveur des régions où l'hiver se déroule de novembre à janvier.

Comment les biais sont-ils introduits dans les algorithmes ?

Données d'entraînement

La principale source de biais algorithmique réside dans les données biaisées utilisées pour entraîner les algorithmes d'IA et d'apprentissage automatique. Si les données d'entraînement elles-mêmes contiennent des inégalités et des préjugés, l'algorithme les intégrera et perpétuera ces biais.

Conception

Lors de la conception de l'algorithme, le développeur peut, consciemment ou non, introduire ses propres pensées ou préférences dans le système d'IA. Ainsi, le système d'IA se montrera biaisé en faveur de certaines catégories.

Prise de décision

Les scientifiques de données et les décideurs prennent souvent des décisions basées sur leurs propres expériences, leur environnement ou leurs croyances. Ces décisions sont alors intégrées aux algorithmes, créant des biais.

Manque de diversité

Un manque de diversité au sein de l'équipe de développement peut conduire à la création d'algorithmes qui ne reflètent pas l'ensemble de la population. Le manque d'expérience et d'exposition à des cultures, des origines ou des méthodes différentes peut engendrer des biais.

Prétraitement des données

La méthode utilisée pour nettoyer et traiter les données peut introduire des biais algorithmiques. Si ces méthodes ne sont pas conçues avec soin pour contrer les biais, cela pourrait devenir un problème majeur pour le modèle d'IA.

Architecture

L'architecture du modèle et le type d'algorithme d'apprentissage automatique utilisé peuvent également introduire des biais. Certains algorithmes sont plus susceptibles de générer des biais que d'autres, en fonction de leur conception.

Sélection de fonctionnalité

Les fonctionnalités choisies pour entraîner un algorithme d'IA sont également une source de biais. Si leur impact sur l'équité n'est pas pris en compte, des biais peuvent survenir et favoriser certaines catégories.

Histoire et culture

Si un algorithme est entraîné avec des données issues de l'histoire ou de cultures spécifiques, il peut hériter des préjugés, des croyances et des normes de ces contextes. Ces préjugés peuvent influencer les résultats de l'IA, même s'ils sont injustes ou non pertinents aujourd'hui.

Dérive des données

Les données utilisées aujourd'hui pour entraîner les algorithmes d'IA peuvent devenir obsolètes ou non pertinentes dans le futur, en raison des évolutions technologiques ou sociétales. Ces ensembles de données peuvent néanmoins introduire des biais et altérer les performances.

Boucles de rétroaction

Certains systèmes d'IA sont capables d'interagir avec les utilisateurs et de s'adapter à leurs comportements. De cette manière, l'algorithme peut renforcer les biais existants. Ainsi, lorsque les préjugés personnels des utilisateurs sont intégrés au système d'IA, une boucle de rétroaction biaisée peut se créer.

Comment détecter les biais algorithmiques ?

Définir ce qui est « juste »

Pour identifier les résultats injustes ou les biais dans les algorithmes, il est primordial de définir ce que signifie "juste" pour le système d'IA. Pour cela, il est important de prendre en compte des facteurs comme le genre, l'âge, l'origine, la sexualité, la région ou la culture.

Définissez des paramètres pour mesurer l'équité, comme l'égalité des chances, la parité prédictive ou les impacts. Une fois que "l'équité" est clairement définie, il devient plus facile de détecter ce qui ne l'est pas et de corriger le tir.

Auditer les données de formation

Analysez en profondeur vos données d'entraînement afin d'identifier les déséquilibres et les incohérences dans la représentation des différentes catégories. Examinez la répartition des caractéristiques et vérifiez si elle correspond à la réalité démographique.

Pour visualiser les données, vous pouvez créer des histogrammes, des cartes thermiques ou des nuages de points qui mettront en évidence les disparités et les schémas qui ne sont pas apparents lors d'une simple analyse statistique.

En plus des audits internes, vous pouvez faire appel à des experts ou des auditeurs externes afin d'évaluer les biais du système.

Mesurer les performances du modèle

Afin de détecter les biais, mesurez la performance de votre modèle d'IA pour différents groupes démographiques et catégories. Il serait utile de segmenter l'entraînement en différents groupes, par exemple en fonction du genre ou de l'origine. Vous pouvez également utiliser des mesures d'équité pour évaluer les différences dans les résultats.

Utiliser des algorithmes appropriés

Choisissez des algorithmes qui favorisent des résultats équitables et qui peuvent corriger les biais pendant l'entraînement du modèle d'IA. Les algorithmes soucieux d'équité visent à éviter les biais tout en garantissant des prédictions égales pour différentes catégories.

Logiciel de détection de biais

Des outils et des bibliothèques spécifiques axés sur l'équité peuvent être utilisés pour détecter les préjugés. Ces outils fournissent des mesures d'équité, des visualisations, des tests statistiques, etc., afin d'identifier les biais. Parmi les plus populaires, on retrouve AI Fairness 360 et IBM Fairness 360.

Rechercher les commentaires des utilisateurs

Recueillez les commentaires des utilisateurs et des clients concernant le système d'IA. Encouragez-les à partager leurs opinions honnêtes s'ils estiment avoir été traités injustement ou avoir subi des préjugés. Ces données vous aideront à identifier des problèmes qui ne seraient pas détectés par les outils automatisés ou d'autres procédures.

Comment atténuer les biais dans les algorithmes

Diversifiez votre entreprise

Favoriser la diversité au sein de votre entreprise et de votre équipe de développement permet une détection et une élimination plus rapide des préjugés. En effet, les biais sont plus facilement repérables par ceux qui les subissent.

Ainsi, diversifiez votre entreprise non seulement en termes démographiques, mais également en termes de compétences et d'expertise. Intégrez des personnes de genres, d'identités, d'origines, de couleurs de peau et de milieux économiques différents, ainsi que des personnes ayant des expériences et des parcours éducatifs différents.

De cette manière, vous pourrez bénéficier d'un large éventail de perspectives, d'expériences, de valeurs culturelles, de goûts et de dégoûts. Cela permettra d'améliorer l'équité de vos algorithmes d'IA, en réduisant les biais.

Promouvoir la transparence

Soyez transparent avec votre équipe concernant l'objectif, les algorithmes, les sources de données et les décisions liées au système d'IA. Cela permettra aux utilisateurs de comprendre comment fonctionne le système et pourquoi il produit certains résultats, et favorisera ainsi la confiance.

Algorithmes soucieux de l'équité

Utilisez des algorithmes soucieux de l'équité lors du développement du modèle, afin de garantir des résultats justes pour toutes les catégories. Cela est particulièrement important si vous créez des systèmes d'IA pour des secteurs hautement réglementés comme la finance ou la santé.

Évaluer les performances du modèle

Testez vos modèles afin d'évaluer leurs performances dans différents groupes et sous-groupes. Cela vous permettra de comprendre les problèmes qui ne seraient pas visibles dans les indicateurs globaux. Vous pouvez également simuler différents scénarios afin de vérifier leur fonctionnement dans des situations complexes.

Suivez les directives éthiques

Établissez des directives éthiques pour le développement de systèmes d'IA, en respectant l'équité, la confidentialité, la sécurité et les droits fondamentaux. Ces directives doivent être appliquées à l'ensemble de l'organisation, afin d'accroître l'équité à l'échelle de l'entreprise et d'en refléter les valeurs dans les résultats du système d'IA.

Définir les contrôles et les responsabilités

Définissez des responsabilités claires pour tous les membres de l'équipe travaillant à la conception, au développement, à la maintenance et au déploiement du système d'IA. Des contrôles appropriés avec des protocoles et des cadres stricts doivent être établis pour répondre aux préjugés, aux erreurs et aux autres problèmes.

En plus des mesures précédemment citées, effectuez des audits réguliers afin de réduire les préjugés et de rechercher des améliorations continues. Restez informé des évolutions récentes en matière de technologies, de démographie et d'autres facteurs.

Exemples concrets de biais algorithmiques

#1. L'algorithme d'Amazon

Amazon est un leader dans le commerce en ligne. Cependant, son outil de recrutement basé sur l'IA, qui devait évaluer les candidats à un emploi en fonction de leurs qualifications, présentait des préjugés sexistes. Le système d'IA avait été entraîné à l'aide des CV d'anciens candidats ayant occupé des postes techniques.

Les données d'entraînement comportaient un plus grand nombre de candidats masculins, ce qui a été appris par l'IA. Par conséquent, il a involontairement favorisé les candidats masculins pour les postes techniques, au détriment des femmes, déjà sous-représentées. Amazon a dû renoncer à cet outil en 2017, malgré ses efforts pour réduire les biais.

#2. Algorithmes de santé racistes aux États-Unis

Un algorithme utilisé par les hôpitaux américains pour prévoir les patients nécessitant des soins supplémentaires était fortement biaisé en faveur des patients blancs. Le système évaluait les besoins médicaux des patients sur la base de leurs antécédents de dépenses de santé, en faisant un lien entre les coûts et les besoins médicaux.

L'algorithme du système ne tenait pas compte des différences de paiement entre les patients blancs et noirs pour leurs soins. Les patients noirs, malgré des problèmes de santé importants, payaient principalement pour les urgences. De ce fait, ils étaient considérés comme étant en meilleure santé et n'étaient pas éligibles pour des soins supplémentaires, contrairement aux patients blancs.

#3. L'algorithme discriminant de Google

Le système de publicité en ligne de Google a été reconnu discriminatoire. Il a été observé que les offres d'emploi bien rémunérées, telles que celles de PDG, étaient nettement plus souvent attribuées aux hommes qu'aux femmes. Bien que les femmes représentent 27 % des PDG américains, leur représentation dans les publicités Google n'était que de 11 %.

L'algorithme a probablement affiché ce résultat en se basant sur le comportement des utilisateurs, comme le fait que ceux qui consultent et cliquent sur des publicités pour des postes bien rémunérés sont majoritairement des hommes. L'algorithme d'IA a donc diffusé ces publicités plus souvent auprès des hommes qu'auprès des femmes.

Conclusion

Les biais algorithmiques dans les systèmes d'apprentissage automatique et d'intelligence artificielle peuvent entraîner des résultats injustes. Ces résultats peuvent avoir un impact sur les individus dans divers domaines, allant de la santé, de la cybersécurité et du commerce électronique aux élections ou à l'emploi. Cela peut conduire à une discrimination basée sur le genre, l'origine ethnique, la démographie, l'orientation sexuelle et bien d'autres facteurs.

Il est donc essentiel de réduire les biais dans les algorithmes d'IA et d'apprentissage automatique afin de promouvoir l'équité des résultats. Les informations présentées ci-dessus vous aideront à détecter les préjugés et à les réduire, afin de créer des systèmes d'IA justes et équitables.

Vous pouvez également vous renseigner sur la gouvernance de l'IA.