Intelligence artificielle

Des criminels potentiels identifiés par un algorithme : une pente savonneuse ?

Par Sarah Sermondadaz le 25.11.2016 à 08h56 Lecture 5 min.

Deux chercheurs chinois ont conçu un algorithme capable d'automatiser le contrôle au faciès des criminels, à partir de techniques issues du machine learning. Mais prudence : le caractère scientifiquement contestable de leur étude nourrit la controverse.

réagir

Comme Lombroso qui voulait établir (en 1876) le portrait-robot du "criminel né" à partir d'études phrénologiques et physiognomiques, ces deux chercheurs chinois veulent apprendre à un algorithme à identifier les criminels au faciès.

Lombroso

Commenter

ANALYSE PRÉDICTIVE. Et si demain, Big Brother allait de pair avec Big Data ? Imaginez un futur dystopique à la Minority report, où les traits de chacun, connus par les machines grâce à l'omniprésence des caméras de vidéosurveillance, seraient méticuleusement scannés par des algorithmes cherchant à identifier les criminels potentiels. Une perspective qui a de quoi faire froid dans le dos. C'est pourtant une application technologique de ce type qu'envisagent Xiaolin Wu et Xi Zhang, chercheurs en informatique à la Shanghai Jiao Tong University (le premier étant également Professeur à l'université de McMaster au Canada), à travers un article pré-publié sur arXiv.

Le terrain miné du Darwinisme social

Le principe de l'étude ? À partir d'un échantillon de 1856 personnes, composé d'une moitié de criminels, les chercheurs ont fait tourner 4 classes distinctes d'algorithmes de machine learning (dont des réseaux neuronaux convolutifs) et confronté les résultats. Verdict : "Nous avons démontré que trois caractéristiques géométriques du visage peuvent prédire la criminalité : la courbure des lèvres, la distance entre les coins des yeux, ainsi que l'angle entre les lèvres et le nez", affirment les chercheurs. Vraiment ? Autant dire que les auteurs progressent sur un terrain miné qui fleure bon le darwinisme social, et qui pose de délicats soucis d'interprétation. Explications et mise en garde.

Extrait de la base de données de visages utilisée / Xialin Wu et Xi Zhang

Les chercheurs annoncent un taux de succès de 89,51% pour l'algorithme de deep learning utilisé. Ils affirment même que "la vision artificielle est plus performante que l'être humain pour la reconnaissance faciale". Mais de quelle performance parle-t-on ? Un glissement s'opère dans les affirmations des chercheurs : ce que l'étude démontre réellement, c'est qu'après un apprentissage contrôlé sur 1856 visages, l'algorithme a su identifier des traits typiques de criminels... mais uniquement sur cet ensemble réduit, hautement standardisé puisqu'il ne comporte que des hommes chinois entre 18 et 55 ans, sans barbe ou moustache ni tatouages ou cicatrices.

Quelles auraient été ses performances sur un échantillon légèrement différent pour lequel il n'aurait pas été calibré ? Probablement catastrophiques. En cause, le dangereux raccourci qu'opèrent les auteurs quand ils affirment que "contrairement aux humains, les algorithmes n'ont aucune subjectivité ou de biais racial"... alors qu'ils reproduisent naturellement ceux de l'être humain qui a choisi les données alimentant le machine learning. Le risque est alors de présenter le verdict numérique comme objectif alors qu'il n'en est rien.

FIABILITÉ. Les spécialistes du deep learning le reconnaissent : "Quand les données peuvent différer sur beaucoup de critères différents, il est complexe de les échantillonner pour qu'elles soient suffisamment distantes les unes des autres", expliquait le professeur de mathématiques Stéphane Mallat (ENS) à l'occasion de la journée Big Data du CNRS en octobre 2016. "En deep learning, cette question de la dimensionnalité est essentielle pour réaliser des interpolations qui restent fiables sur tout l'ensemble considéré, et pas seulement localement".

Autrement dit, si les données d'apprentissage ne sont pas suffisamment hétérogènes, les déductions (ou interpolations) effectuées risquent fort de tomber à côté. Ce dernier rappelait aussi que l'un des problème avec le deep learning, c'est que ça marche parfois, "mais on ne sait pas prédire à l'avance si ça va fonctionner ou non, et pourquoi. L'apprentissage par essais et erreurs successives ne peut garantir leur fiabilité". On se souviendra aussi comment de la façon dont un simple bruit numérique a pu confondre les algorithmes de vision artificielle du projet DeepMind de Google... Alors imaginons leur impact appliqué à un algorithme de criminalité.

Néo-phrénologie à la sauce big data

En fait, la démarche des chercheurs évoque la figure controversée de Cesare Lombroso, médecin italien du 19^ème siècle qui pensait qu'on naissait criminel par ascendance héréditaire, et que les apparences (l'allure générale, ou "physiognomie", ainsi que la forme du visage et du crâne, ce qu'on appelait alors la phrénologie) permettaient d'identifier les futurs fauteurs de trouble. Son oeuvre fut largement invalidée par les progrès ultérieurs de la sociologie et de la psychologie. Les auteurs de l'étude se réclament ainsi d'Aristote (qui voyait un lien entre traits extérieurs et tempérament), et d'études psychologiques qui évaluent la capacité de tout un chacun à juger intuitivement son voisin selon son apparence.

Mais s'ils reconnaissent la prégnance de la thématique du crime en psychologie sociale ou en criminologie, à aucun moment ils n'incluent ces expertises dans leur processus d'évaluation. "L'automatisation de notre dispositif élimine le besoin d'une compétence humaine extérieure", écrivent-ils. Or cette affirmation est dangereuse car elle revient à nier tout un héritage scientifique et ses apports potentiels, et à considérer le data scientist comme un apprenti-sorcier qui créerait des intelligences artificielles en chambre, à l'aune des seules sciences informatiques et statistiques, sans dialoguer avec les autres sciences. De quoi soulever un certain nombre de préoccupations éthiques autour de la data science... sachant que de nombreux outils de ce type sont déjà déployés en toute opacité, par des sociétés privées (celle-ci, par exemple) ... voire par des États, à l'image de la Chine, qui a annoncé que ses citoyens allaient être notés et évalués dès 2020. Avec, peut-être, ce type de programme pour y parvenir ?

Commenter

Algorithme Big data Machine learning

Commenter

Commenter Pour réagir, veuillez vous connecter en cliquant ici

à la une cette semaine

Couverture du hors-série Sciences et Avenir

Lire S’abonner

Robot

Tous les articles Robot

Web

TikTok sous pression de la Commission européenne et du Sénat américain

Tous les articles Web

Intelligence artificielle : les articles les plus lus