Votre compte

Se connecter

Créer un compte

Inscription

Besoin d’aide ?

La réponse à votre question se trouve certainement dans les questions fréquentes.

Service client

filtrer filtrer
Publié le 18/10/2018

Big Data : Nos propres biais représentent un danger plus lourd que n’importe quel vol de données

Les Data Scientists - dont je suis - constituent une profession toute neuve, composée de jeunes recrues fraîchement diplômées des premières écoles spécialisées, mais surtout de développeurs, de chercheurs et de mathématiciens qui y voient un prolongement naturel de leur carrière. J’ai moi-même rejoint Kynapse il y a deux ans, après 6 ans dans la recherche en astrophysique.

Dès l’instant où un Data Scientist passe aux « travaux pratiques », il prend conscience de la difficulté et de l’importance de chacun de ses choix. Le métier a éclos très rapidement ; il a besoin aussi, et au plus vite, de construire sa propre déontologie.

Deux évènements très médiatisés en ce premier semestre, l’entrée en vigueur du RGPD et le scandale Cambridge Analytica, ont placé les données personnelles sous les feux des projecteurs. Mais en ces deux circonstances, comme dans 99% des cas lorsqu’il s’agit de la sécurité de nos données, on considère que la menace est extérieure : pillage brutal ou siphonnage discret, transfert de données entre partenaires, utilisation abusive, clauses opaques… C’est toujours un tiers qui incarne le danger. Un nouveau scandale du même type est en train d’émerger aux Etats-Unis autour des données de géolocalisation des smartphones et de leur utilisation non consentie : plusieurs révélations en cascade impliquent notamment l’entreprise Securus Technologies qui, cerise sur le gâteau, vient d’être hackée.

Pourtant, il existe un autre type de risque, qui est à mon sens plus alarmant. Chaque professionnel manipulant des données est amené à réaliser des choix. Quelles données seront intégrées au modèle ? Sur quels critères seront-elles choisies ? Puis pondérées ? Corrigées ? Et enfin mises à jour ? Nous injectons potentiellement des biais existants dans les calculs et algorithmes, prenant le risque de reproduire et de « graver dans le marbre », les erreurs ou injustices antérieures.

Certains exemples emblématiques ont déjà fait surface : c’est le cas des biais les plus évidents (les biais racistes et sexistes) introduits lors d’opérations de Machine Learning. Lorsque Google Translate traduit « docteur » ou « infirmier », depuis la langue turque qui ne donne pas de genre aux pronoms, vers le français, il propose aux internautes « un docteur » et « une infirmière ». Pourquoi ? Parce que cela reflète une réalité chiffrée actuelle. Mais au passage, on crée un dogme.

Autre exemple, des testeurs d’algorithmes de reconnaissance visuelle se sont vus labelliser en tant que singes, car ils étaient noirs et que l’algorithme construit par Google n’avait pas été confronté à suffisamment de personnes noires, il avait vu principalement des personnes blanches et des animaux. Les créateurs de cet algorithme ne sont pas nécessairement racistes, mais simplement plongés dans un milieu où les banques d’images comptent 95% de blancs.

Troisième exemple : aux Etats-Unis, ProPublica a analysé l’algorithme utilisé par les juges pour déterminer si l’inculpé présentait ou non un profil à risque. Ils ont montré que le calcul était biaisé : ici, ce n’est pas directement la race de la personne qui est entrée dans l’algorithme, mais le quartier dans lequel elle vit et le niveau d’éducation de ses parents.

Ces exemples sont assez flagrants, mais la problématique se pose à chaque instant de chaque travail lié au Big Data. Dans les domaines du Retail, du marketing et bien sûr des ressources humaines, une utilisation bienveillante des données peut parfaitement conduire à la création non seulement de biais socialement discutables, mais aussi d’un algorithme inefficace.

La seule façon de résoudre ce problème est d’intervenir volontairement pour corriger les biais : il faut déjà être conscient que ces biais existent forcément, puis les rechercher et les corriger. C’est important d’y travailler en amont, car intervenir après-coup demande beaucoup plus de temps, s’avère difficile et aura certainement causé des dégâts significatifs entre-temps.

J’invite donc les Data Scientists à se « creuser la tête » pour dénicher ces biais, à s’adresser à leurs sponsors Métiers qui souvent ont déjà eu l’occasion d’en repérer une grande partie, mais aussi à s’inspirer d’un mouvement né aux Etats-Unis pour créer l’équivalent d’un serment d’Hippocrate des Data Scientists*.

Dans un article au titre évocateur (« De l’automatisation des inégalités »), paru sur Internetactu.net en janvier dernier, le journaliste Hubert Guillaud cite l’ouvrage d’une chercheuse américaine spécialisée en sciences politiques, Virginia Eubanks. Elle démontre de nombreux biais dans trois modèles qu’elle passe au crible : « un système mis en place par l’Indiana pour automatiser l’éligibilité de candidats aux programmes d’assistance publique de l’Etat ; un répertoire des SDF de Los Angeles ; et un système d’analyse du risque pour prédire les abus ou négligence sur enfants dans un comté de la Pennsylvanie. (…) La chercheuse souligne aussi l’inexistence d’un droit à l’oubli dans ces systèmes : toute information entrée dans le système est définitive, même fausse. »

Enfin, elle dénonce la « discrimination rationnelle », cette façon que nous avons d’ignorer les biais qui existent déjà. « Quand les outils d’aide à la décision automatisés ne sont pas construits pour démanteler explicitement les inégalités structurelles, elles les augmentent, les précipitent, les étendent, les intensifient. »

Dans la même veine, l’ouvrage de Cathy O’Neill, lui aussi doté d’un très bon titre (« Weapons of Math Destruction »), est de nature à nourrir la réflexion de nombreux Data Scientists !

(*) Le serment en cours de rédaction : https://github.com/Data4Democracy/ethics-resources

L’article original de DJ Patil : https://medium.com/@dpatil/a-code-of-ethics-for-data-science-cda27d1fac1

Article précédent
Transformation numérique : choisir c'est réussir

« Un “projet digital”, cela veut tout et rien dire. Les entreprises savent bien que la transformation numérique est devenue un passage obligé, mais pour autant elles peuvent se sentir découragées face à l’ampleur de la tâche...

Article suivant
Les Bots, véritables chefs d'orchestre de vos données

En l’espace d’un an, les chatbots* se sont invités dans tous les débats. Or, s’ils s’avèrent pertinents pour certains cas d’usage, réduire le sujet des bots* aux chatbots, reviendrait à regarder le monde par le petit bout de la lorgnette. Nous allons traiter ici des bots au sens large : les progrès de l’IA viennent démultiplier les tâches que l’on peut leur confier.