Analyse statistique de la loi sur le renseignement

Edward Sowden en 2013
Edward Snowden en 2013 – capture d’écran tirée du film Citizenfour (2014, Laura Poitras, Praxis Films) sous contrat Creative Commons Paternité 3.0 (non transposée) via Wikimedia Commons.

Il n’aura échappé à personne que le débat public, au moins en France, est dominé ces derniers temps par les questions de sécurités. Les attentats à Paris le 13 novembre 2015 ont participé à mettre ces questions sur le devant de la scène. Pourtant, si la nécessité d’agir, probablement avérée, est souvent mise en avant, mon impression, certes non étayée par une étude exhaustive, est qu’on ne se pose pas assez la question de l’efficacité des mesures adoptées. Toutefois, même s’il faut attendre un peu pour avoir le recul nécessaire à l’évaluer, il est possible d’en réaliser une étude a priori.

Ainsi de la loi relative au renseignement, promulguée en France le 24 juillet 2015 et dont il a été plusieurs fois question vu d’ici. S’il faut encore attendre pour pouvoir juger de ses effets avérés, les statistiques permettent d’en réaliser une première évaluation. Le présent article m’a été inspiré par un autre, publié dans la revue La Recherche en novembre 20151Claude Castelluccia et Daniel Le Métayer, 2015. Les failles de la loi sur le renseignement, La Recherche n° 505, pp. 61 – 65.. Nos conclusions sont compatibles.

Les révélations d’Edward Snowden ont poussé la National Security Agency à défendre inconditionnellement le programme de surveillance généralisée tel que mis en place aux États-Unis depuis les attentats du 11 septembre 2001. Cependant, nous savons désormais qu’en interne l’efficacité de ce programme était sérieusement questionnée. Pourtant, d’autres, comme la France ou certaines provinces canadiennes, souhaitent adopter des programmes similaires.

Pourtant, des statistiques simples permettent déjà une première évaluation de ce qu’on peut attendre d’une telle loi. J’entends le faire dans cet article, mais avant, il faut fixer un peu de vocabulaire.

Nous allons vouloir tester statistiquement si un individu donné répond à une caractéristique – en l’espèce, on veut savoir s’il s’agit d’un djihadiste. Si on estime que le l’individu est doté de cette caractéristique et que c’est bien le cas (l’individu a été identifié comme djihadiste et il s’agit bien d’un djihadiste), on parle de vrai positif. Si on estime que l’individu n’est pas doté de la caractéristique et que c’est bien le cas (l’individu est identifié comme n’étant pas djihadiste et c’est bien le cas), alors on parle de vrai négatif. Si on estime que l’individu n’est pas doté de la caractéristique alors qu’il l’est (l’individu a été considéré comme n’étant pas djihadiste alors qu’il l’est), on parle de faux négatif. Enfin, si l’on considère que l’individu est doté de la caractéristique alors qu’il ne l’est pas (l’individu a été identifié comme étant djihadiste alors qu’il ne l’est pas), on parle de faux positif.

J’espère que le précédent paragraphe n’était pas trop indigeste, mais il est bon d’utiliser le vocabulaire approprié.

Selon l’Insee, la population française en 2016 s’élève à 66 628 000 individus (le chiffre est provisoire au moment où je rédige cet article). Toute la population française n’utilise pas Internet, considérons qu’il y a environ 50 millions d’internautes en France. Par ailleurs, en janvier 2015, le premier ministre français Manuel Valls a déclaré que 3 000 personnes étaient surveillées pour radicalisation potentielle, dont 1 300 djihadistes potentiels. Pour la suite, je vais partir de l’hypothèse, qui très probablement implique une forte surestimation, qu’il y a 5 000 individus qui pourraient potentiellement basculer dans le djihadisme.

Il a donc été décidé de se doter d’un algorithme permettant d’identifier les djihadistes parmi les internautes français. Admettons que l’algorithme est totalement exceptionnel, de sorte qu’il présente un taux de vrais positif de 99 % et un taux de faux positifs de 0,5 % – dans les faits, il est très peu probable que l’algorithme, même extrêmement bien réalisé, atteigne des statistiques aussi flatteuses. Cet algorithme détecterait donc correctement 5 000 × 0,99 = 4 950 terroristes, occasionnant donc 50 faux négatifs. En revanche, il serait à l’origine de (50 000 000 − 5 000) × (0,5 / 100) = 249 975 faux positif. Autrement dit, un individu identifié comme djihadiste par un tel système aurait une probabilité d’environ \frac{4\,950}{4\,950 + 254\,925} \times 100 \approx 1,9\ \% de l’être effectivement : les vrais positifs sont noyés dans la masse des faux positifs. Ceci alors que j’ai volontairement choisi des estimations qui maximisent la part de cas à détecter dans la population totale. Sachant, également, que les djihadistes utilisent probablement des systèmes de cryptages les faisant de toute façon sortir du champ de vision de l’algorithme.

Il existe donc de vrais éléments indiquant que dans un tel système les faux positifs sont la règle et les vrais positifs sont l’exception. Ceci, sachant qu’avant l’adoption de la loi sur le renseignement, tous les terroristes ayant frappés la France avaient fait l’objet d’une fiche de renseignement. Les difficultés des services n’étaient donc pas dans la détection des individus potentiellement dangereux, mais bien ce qui vient après. Dans un tel contexte, augmenter fortement le nombre de dossiers, y noyant complètement ceux qui sont véritablement à traiter, risque d’augmenter d’autant les difficultés. On peut notamment relever qu’en décembre 2015 des policiers indiquaient au Monde que la « DGSI [leur] envoie des dossiers comme on les jette à la poubelle », ce qui va dans le sens d’une sur-abondance de dossiers. Ce qui inquiète également, c’est que certains responsables politiques proposent d’interner toute personne faisant l’objet d’une fiche de renseignement S.

Nous avons opté pour la loi sur le renseignement. Fort bien. Cependant, il importe de se donner les moyens d’évaluer quels en auront été les effets et les conséquences. Plus généralement, interroger l’éthique au sujet d’une mesure que l’on s’apprête à adopter est pertinent et nécessaire. Cependant, cet exemple me semble montrer qu’il est tout aussi important de s’interroger sur ce que l’on peut anticiper concernant son efficacité, ainsi que ses conséquences. Je trouve dommage que l’on ne fasse pas l’effort de cette évaluation plus souvent.

Notes

Notes
1 Claude Castelluccia et Daniel Le Métayer, 2015. Les failles de la loi sur le renseignement, La Recherche n° 505, pp. 61 – 65.

Publié par

Yoann Le Bars

Un enseignant-chercheur avec un peu trop de centres d’intérêts pour pouvoir résumer…

3 réflexions au sujet de « Analyse statistique de la loi sur le renseignement »

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.