Fuite de données.
Thierry Berthier, Université de Limoges
Un PoliticsLeaks, qu’est-ce que c’est ? C’est par exemple le tout récent #MacronLeaks, c’est-à-dire la mise en ligne de données piratées (vraies et fausses) en lien avec une campagne électorale en train de se dérouler, en l’occurrence celle de l’élection présidentielle française. Son objectif est de ternir ou de détruire l’image d’un candidat puis d’influencer le vote des électeurs.
Déroulons le film de récents scrutins. La campagne électorale américaine de 2016 a été polluée par le piratage informatique et le vol de données personnelles et de mails de l’équipe des Démocrates. Depuis, plusieurs sociétés et cabinets de cybersécurité ont mené des études techniques sur ce que l’on a appelé les DataLeaks pour en comprendre les mécanismes, l’origine et les commanditaires. Cette opération qui a contribué à la défaite d’Hillary Clinton a été attribuée à la célèbre cellule de hacking APT28–APT29, probablement liée aux services de renseignements russes.
« Whodunit » ?
Une telle attribution reste toujours extrêmement complexe à formuler. En toute rigueur, il faudrait d’ailleurs se limiter à évoquer une forte probabilité d’attribution de l’attaque à telle ou telle entité. En matière de cybersécurité, la certitude dans l’attribution n’a guère de sens même lorsque l’attaque témoigne d’un faible niveau de complexité. L’attaquant cherche parfois à orienter une future attribution vers un tiers strictement étranger à l’opération. La prolifération des structures de données fictives, parfois non discernables des données légitimes, doit contraindre les analystes, les journalistes et les commentateurs à la plus grande prudence.
L’élection présidentielle française n’a pas échappé à cette nouvelle thermodynamique de l’information brassant les fausses données avec les vraies pour influencer le choix de l’électeur dans l’isoloir. Le « MacronLeaks » illustre parfaitement ce qui devient la norme d’une campagne électorale avec son lot de désinformation plus ou moins subtile, plus ou moins crédible. Ainsi, on a vu apparaître le 6 mai vers 21 heures des messages pointant vers des contenus piratés de cinq collaborateurs de l’équipe de campagne d’Emmanuel Macron. Représentant près de 9 gigaoctets de données sous forme de mails et de pièces jointes, ces contenus étaient disponibles au téléchargement sur le site de stockage Pastebin sous le titre évocateur « EMLeaks ».
L’équipe de campagne d’En Marche chargée du numérique a alors immédiatement inspecté les contenus fuités et produit un communiqué de presse confirmant les tentatives de cyberattaques subies depuis plusieurs semaines tout en précisant que certaines données mises en ligne étaient grossièrement fausses.
D’autres sources ont prouvé la présence d’un grand nombre de fakes injectés dans un corpus de mails authentiques. Le responsable numérique de la campagne, Mounir Mahjoubi a déclaré que les données d’EMLeaks mises en ligne comportaient certainement « des choses qui ne sont pas très agréables à montrer de l’extérieur, comme les grilles de salaires des collaborateurs, des blagues de potaches mais que le leaks ne contenait aucun secret et aucune révélation à haute valeur informationnelle ». Il a également affirmé que les discussions plus sensibles passaient par d’autres messageries non concernées/impactées par le piratage.
La presse française dans son ensemble est restée heureusement très prudente face aux doutes sur la véracité des données d’« EMLeaks » et s’est abstenue de toute surenchère. On doit saluer cette attitude responsable qui se démarque de celle de certains supports étrangers qui n’ont pas hésité à republier une série de données à très faible niveau de crédibilité…
Pour mieux comprendre la puissance potentielle des structures de données fictives, il suffit d’observer les dernières opérations de HoaxCrash construites sur la publication de faux messages à fort impact boursier. Le niveau d’expertise d’une cellule de hacking à l’origine d’un PoliticsLeaks avec injection de fausses données conditionne grandement ses effets. Plus ce niveau est élevé, plus la cellule prendra des précautions pour noyer les structures de données fictives dans l’ensemble des vraies données piratées et pour les rendre indiscernables.
Amateurisme
Dans le cas de l’EMLeaks, l’injection de données fictives semble avoir été réalisée dans l’urgence sans vérification de cohérence et de vraisemblance. La société de cybersécurité américaine Trend Micro évoquait samedi la piste d’APT28-APT29 pour lui attribuer l’EMLeaks_. Il s’agit effectivement d’une hypothèse à envisager concernant la phase d’ingénierie sociale et de pénétration des comptes qui a permis de prendre possession des données de messagerie des cinq collaborateurs d’En Marche.
On peut par contre fortement douter de l’implication directe d’APT28 dans l’injection de fausses données car l’opération a été menée avec beaucoup d’amateurisme. La piètre qualité des fausses données injectées les rend facilement identifiables et révèle des contradictions avec le contexte fourni par les données ouvertes vérifiables. En un mot, les faux messages sont grossièrement faux tout comme le faux document ayant circulé sur le forum 4Chan relatif à un compte bancaire caché (mal) signé de son prétendu détenteur. D’une manière générale, plus le faux est facilement détectable, plus il est dangereux de l’utiliser contre sa cible, y compris lors d’un débat de second tour d’élection présidentielle…
Comment construire une structure de données fictives efficace
Plaçons-nous à présent dans le rôle de l’attaquant. Nous souhaitons créer une structure de données fictives susceptible de nuire à l’image d’un candidat à une élection présidentielle. Nous supposons que cette élection est normalement relayée par les médias d’un État démocratique. Nous cherchons à instrumentaliser ces médias afin qu’ils diffusent le plus largement nos futures données fictives avant le scrutin, ni trop tôt, ni trop tard. Il faut donc fixer un planning prévisionnel de l’attaque qui optimise la temporalité du PoliticsLeaks.
Nous commençons par passer commande auprès d’une cellule de hacking réputée : nous voulons une cyberattaque sur les comptes de messagerie de membres de l’équipe de campagne du candidat ciblé. Nous pouvons également utiliser nos propres cellules de hacking si nous agissons dans le cadre d’une opération étatique clandestine.
La phase initiale d’ingénierie sociale pouvant prendre plusieurs mois, il est préférable de se laisser du temps et de passer notre commande au moins douze mois avant la date de l’élection. Une fois cette campagne planifiée, nous attendons les premiers retours de données collectées. Plus le volume du leaks obtenu est important et meilleur sera le contexte d’injection de fausses données.
Notre cellule de hacking sous-traitante du vol des données nous transmet (après rémunération ou simple remerciement) les contenus collectés sous forme de mails et de pièces jointes (documents écrits, photos, vidéos…). Nous examinons les contenus collectés et constatons sans surprise qu’ils ne contiennent que des données à faible valeur informationnelle. L’équipe de campagne du candidat ciblé a été « briefée » depuis des mois par les services de sécurité locaux des dangers associés aux compromissions des boîtes de messageries. Sensibilisé aux risques de piratage, chaque collaborateur n’utilise sa messagerie que dans le cadre d’échanges « non critiques ».
Dans l’attente des données piratées, nous avons construit une structure de données fictives qu’il faut désormais incorporer au corpus de données réelles. C’est là que surgit la complexité de l’opération.
Si nous choisissons d’ajouter un seul faux message F1, nous devons nous assurer qu’il est non contradictoire avec les n messages légitimes collectés { M1, M2… Mn } et avec le contexte C formé des données ouvertes disponibles à l’instant de la mise en ligne du leaks.
Si nous optons pour l’injection de deux messages F1, F2 (chacun ayant un objectif de déstabilisation bien défini), il faut alors s’assurer de la cohérence et de la non-contradiction de l’ensemble { F1, F2 } avec C et avec l’ensemble des n messages légitimes issus du piratage.
Enfin, si nous choisissons d’injecter un ensemble de k faux messages { F1, F2… Fk }, il faut en premier lieu s’assurer de la non-contradiction de ces k messages fictifs, soit formellement 2 k – k – 1 opérations à réaliser manuellement ou informatiquement. Il faut ensuite veiller à ce que ces faux messages ne soient pas contradictoires avec le contexte C à l’instant de la mise en ligne du leaks et non-contradictoires avec les n messages légitimes.
On comprend que la complexité de vérification de cohérence de la structure fictive injectée est exponentielle au regard de sa taille. En terme probabiliste, plus le volume de faux messages injectés est important et plus il est probable de faire apparaître involontairement une ou plusieurs contradictions dans l’ensemble du leaks, détruisant ainsi sa crédibilité.
En vertu de ce principe, nous avons intérêt à limiter le nombre de faux messages à injecter pour limiter ce risque. Ceux-ci doivent être à la fois crédibles, et destructeurs concernant l’image de la cible auprès des électeurs. On peut par exemple choisir de confirmer (par une preuve construite de toutes pièces sous forme de faux mail) une rumeur installée depuis plusieurs semaines et circulant sur les réseaux sociaux. Le biais cognitif de confirmation agissant, nous pouvons ainsi espérer que le faux message sera perçu comme une preuve irréfutable d’une information incertaine.
Une fois nos données fictives incorporées aux messages légitimes, nous transmettons l’ensemble du leaks à une seconde cellule de hacking chargée de sa mise en ligne en lui présentant l’ensemble comme des données brutes non exploitées issues d’un leaks à fort potentiel. Une mise en ligne sur un site de stockage comme Pastbin suffit à valider le caractère « brut de piratage » du corpus de données. Il suffit alors d’annoncer le leaks et rendre public le lien de téléchargement sur les réseaux sociaux pour boucler notre opération. Les messages compromettants seront rapidement détectés et exploités même s’ils semblent noyés dans plusieurs téraoctets de données.
Un seul faux message…
Les moyens numériques actuels permettent de créer de faux messages accompagnés de métadonnées totalement compatibles avec un ensemble de messages authentiques. Seul l’expéditeur légitime du faux message sait qu’il n’en est pas l’auteur et que son identité a été usurpée, mais il lui est souvent très difficile de répudier le faux message sans éveiller les doutes. Ce principe informationnel lié aux biais cognitifs humains doit nous tenir en alerte permanente face à un déluge de données globalement légitimes. Comme souvent, une loi de puissance probabiliste agit et fait qu’un seul faux message peut avoir plus d’effets que mille messages légitimes.
Dans ce contexte, l’intelligence artificielle devient un outil puissant à la fois pour l’attaquant lorsqu’il cherche à vérifier la cohérence de sa structure de données fictives et pour la défense lorsqu’il s’agit de contrôler la véracité de données transmises. Pour toutes ces raisons, la valeur informationnelle d’un PoliticLeaks demeure nulle. Comme le disait Édouard Herriot, « une vérité est un mensonge qui a longtemps servi ».
Thierry Berthier, Maitre de conférences en mathématiques, cybersécurité et cyberdéfense, chaire de cyberdéfense Saint-Cyr, Université de Limoges
La version originale de cet article a été publiée sur The Conversation.