Marie Puren, Centre national de la recherche scientifique (CNRS) et Simon Gabay, Université de Genève
Trente-six ans plus tard, l’affaire est une nouvelle fois relancée : de nouvelles analyses génétiques vont être réalisées, dans l’espoir d’identifier enfin le coupable. Cette affaire, peut-être l’une des plus célèbres de France, attend toujours d’être résolue. Pour ce faire, les enquêteurs ont toujours à disposition quelques pistes, à savoir de multiples dénonciations, des brins d’ADN, quelques enregistrements et cinq lettres de menaces mal écrites par un mystérieux corbeau.
Ces lettres de menaces pourraient-elles finalement aider à résoudre l’affaire, grâce à une méthode récemment découverte par le grand public : la stylométrie ? Quand l’analyse graphologique scrute la forme des lettres, la stylométrie propose d’analyser la syntaxe et de compter les mots (ou parfois les lettres) d’un texte pour potentiellement en identifier l’auteur. C’est bien cette expertise stylométrique qui avait été commandée par la précédente magistrate instructrice en charge de l’affaire Gregory à une entreprise suisse, en l’absence d’experts reconnus par la justice en France.
La stylométrie offre en effet une piste prometteuse pour identifier le corbeau, et offre plus généralement de nouvelles perspectives pour l’expertise judiciaire.
Mais l’utilisation de cette méthode n’est pas sans soulever de nouvelles questions ; car identifier un potentiel criminel, c’est aussi pouvoir identifier n’importe qui, et derrière ce processus d’identification, c’est bien notre droit à l’anonymat qui est en jeu.
Une intuition
L’idée est simple : de la même manière que l’on séquence un ADN pour en retrouver son propriétaire, il est possible de découper un texte en petites unités dont l’utilisation est propre à chacun. Si certaines personnes ont les yeux bleus, d’autres utilisent abondamment les adverbes. De la même manière que l’agrégation du matériel génétique forme un génome unique, l’agrégation des fréquences lexicales forme un style unique que l’on est donc capable d’identifier.
Le cas le plus célèbre et le plus ancien, devenu depuis un marronnier des études stylométriques, est celui des Federalist papers, une série de courts essais publiés à la fin du XVIIIe siècle par trois auteurs américains (James Madison, Alexander Hamilton et John Jay) sous un pseudonyme unique (Publius). Prolongeant la remarque de Douglass Adair, qui avait noté que Madison préférait while là où Hamilton utilisait whilst, David Mosteller et David Wallace ont décidé de répertorier et compter tous les mots à l’aide d’un ordinateur pour comparer les essais entre eux, et retrouver ceux écrits par le même auteur.
Si nous prenons l’exemple fictif d’une langue composée uniquement de deux mots x et y : chaque texte a pour « code stylométrique » la fréquence de l’un et l’autre mot (x-y, soit par exemple 4-1, 1-4…). De telles séries peuvent alors être représentées graphiquement en remplaçant en abscisse la fréquence du mot x et en ordonnée celle du mot y.
Ce faisant, nous venons de faire apparaître, en plus de l’identité de chaque texte, la distance qui les sépare les uns des autres.
L’attribution d’auteur
Le principal domaine d’application de la stylométrie, l’attribution d’auteur, propose de former des groupes de textes à partir de cette distance : les textes les plus proches sont considérés comme étant d’un même auteur. Une telle méthode a bien évidemment éveillé l’intérêt des littéraires, régulièrement confrontés au cas d’écrits anonymes ou sous pseudonyme, comme ceux d’Elena Ferrante/Domenico Starnone, de Corneille/Molière ou de Robert Galbraith/J. K. Rowling.
Ces exemples ne sont cependant pas sans soulever quelques questions. Dans le cas de Domenico Starnone, celui-ci dément fermement être la personne derrière Elena Ferrante. A-t-on le droit de révéler l’identité d’un auteur contre sa volonté, alors qu’il n’a rien à se reprocher d’autre que d’avoir écrit un livre à succès ? La question se pose d’autant plus sérieusement que l’erreur est possible…
C’est précisément le cas pour le deuxième exemple. L’affaire Corneille/Molière est ainsi le prototype de l’erreur d’attribution : les auteurs d’une première étude ont contribué à populariser l’idée fausse selon laquelle Molière serait le prête-nom de Corneille. Des analyses traditionnelles sont venues battre en brèche cette théorie, qui a été définitivement invalidée par les travaux stylométriques de Florian Cafiero et Jean‑Baptiste Camps. Mais il est plus facile de faire naître un doute que de le faire disparaître : d’anciennes convictions sont difficiles à déconstruire, et l’idée d’une supercherie littéraire persiste, en dépit des efforts de nombreux chercheurs.
S’il est impossible de confronter Corneille et Molière, morts depuis longtemps, il est possible de le faire pour les auteurs vivants, qui peuvent alors invalider les résultats – comme Domenico Starnone –, mais aussi les valider. C’est notamment le cas pour notre dernier exemple, J.K. Rowling ayant reconnu être la personne se cachant derrière Robert Galbraith. La stylométrie est donc une méthode d’analyse capable de succès certains, mais n’est pas encore infaillible…
Applications “pratiques”
Cette application littéraire n’est cependant que la vitrine glamour de l’attribution d’auteur, régulièrement utilisée à des fins bien moins poétiques. Ainsi, quand il ne tente pas de débusquer l’autrice de Harry Potter dans des écrits sous pseudonyme, le professeur Patrick Juola officie comme associé d’une entreprise de criminalistique qui collabore avec la justice américaine.
Si l’utilisation de la stylométrie dans des affaires juridiques est une nouveauté sur le sol français, la Computer forensics, ou « informatique légale », est depuis longtemps devenue un champ d’application de la stylométrie, notamment aux États-Unis. Elle a ainsi été utilisée dans diverses affaires, dont certaines sont restées célèbres comme celle d’Unabomber. Le terroriste américain avait en effet pour particularité d’avoir rédigé un long manifeste, Industrial Society and Its Future, dont les particularités lexicales ont fini par le trahir. Mis sur la piste linguistique par un américain croyant reconnaître un trait caractéristique des écrits de son frère, le FBI a pu identifier Ted Kaczynski en comparant le style du manifeste avec la totalité des écrits disponibles sur l’Internet d’alors.
S’il y a tout lieu de se réjouir qu’un terroriste responsable de nombreux morts et attentats soit arrêté, il faut bien s’arrêter sur la définition de « terroriste ». Dans un article présentant un cas aussi fictif que plausible, Patrick Juola propose ainsi l’exemple d’un requérant d’asile poursuivi pour ses écrits politiques dans son pays et cherchant refuge aux États-Unis : la stylométrie pourrait permettre de confirmer qu’il est bien l’auteur des textes qu’il prétend avoir écrit et lui offrir un asile mérité. L’histoire est belle, mais quid d’un gouvernement oppressif qui chercherait à identifier des opposants politiques pensant s’exprimer anonymement sur la toile ? La méthode comme l’objectif sont exactement les mêmes…
Évidemment, la question d’Internet est ici centrale. Depuis quelques années, les chercheurs tentent ainsi de relier les comptes de diverses plates-formes entre elles, comme Facebook et Twitter. Il est évident que les techniques requises pour ce type de tâche sont amenées à se développer dans les années qui viennent, et leur précision devrait permettre des applications industrielles et sécuritaires qui posent question.
Des dangers
L’ambition de la société suisse OrphAnalytics, qui espère retrouver le corbeau de l’affaire Grégory avec pour unique preuve cinq courtes lettres, rejoint ces dernières recherches sur les réseaux sociaux, dont les publications ne dépassent parfois pas 140 caractères. Cette ambition doit nous interpeller pour deux raisons. D’une part, avec l’abaissement du matériel écrit nécessaire, nos publications en ligne nous transforment tous en potentiels cas d’étude pour des recherches d’attribution. Les comptes Twitter anonymes relayant des avis de personnes tenues au devoir de réserve, ou ne souhaitant pas mêler vie professionnelle et convictions personnelles sont les premiers menacés, mais nous sommes tous concernés.
Le raccourcissement des textes analysés va cependant de pair avec une diminution de la fiabilité de la stylométrie. Une récente étude avec des textes du XIXe siècle a ainsi déterminé que 5 000 mots était un prérequis pour garantir la solidité des résultats. Mais si le nombre de mots à disposition n’est pas suffisant, la machine continue quand même de renvoyer un résultat, qu’il est tentant d’utiliser. À partir de quel taux de confiance le résultat d’une analyse stylométrique devient-il fiable ? Et, dans le cas d’un procès ou de la surveillance de masse, fiable est-il réellement suffisant ?
Une issue ?
À l’image du génome, qui depuis les années 60 permet d’identifier un être humain, la recherche a récemment découvert l’existence d’un « stylome », permettant d’identifier son code stylistique. Si l’on ne peut pas modifier son génome, en revanche il est possible d’altérer son stylome.
De premières études laissent en effet penser que des solutions aussi simples que faire attention à la manière dont on écrit, ou déguiser son style, pourrait garantir un certain niveau d’anonymat à l’auteur – la question du pastiche soulevant à son tour celle de l’usurpation d’identité. En d’autres termes, la simple connaissance de l’existence du stylome peut empêcher qu’il nous trahisse, et donc nous protéger de lui, c’est-à-dire de nous-mêmes.
Il n’est cependant pas certain que cela soit suffisant. À côté de l’attribution d’auteur se développe ainsi lentement un autre champ de recherche, qui est son corollaire logique : celui de l’offuscation du signal autorial, soit le brouillage volontaire du style d’une personne. Si l’on peut reconnaître un auteur, il devrait en effet être possible d’en dissimuler l’identité, pourquoi pas à l’aide de logiciel. Cette idée simple est cependant complexe à implémenter, et se dégage donc, pour quelques années au moins, une faille dans l’anonymat derrière lequel chacun pourrait se cacher. Terroristes, assassins, activistes ou simples citoyens sont désormais prévenus.
Marie Puren, Chercheuse en histoire et humanités numériques, Centre national de la recherche scientifique (CNRS) et Simon Gabay, Maître-assistant en humanités numériques, Université de Genève
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.