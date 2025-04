Caroline Gans Combe, OMNES Education

Dans un monde où l’information est devenue à la fois omniprésente et suspecte, la destruction délibérée de bases de données scientifiques évoque de sombres souvenirs historiques. Elle représente une menace sérieuse pour l’avenir de la connaissance partagée, le progrès scientifique global et, plus fondamentalement, la richesse des nations.

Depuis le 20 janvier 2025, l’administration aux commandes de la première puissance mondiale mène une campagne méthodique contre les données, particulièrement celles à caractère scientifique. Plus de 3 400 jeux de données, dont 2 000 à vocation scientifique, ont été supprimés des sites gouvernementaux américains. Cette offensive cible prioritairement les informations relatives au changement climatique, à la santé publique et à l’équité sociale. L’armée américaine a ainsi reçu l’ordre de supprimer tout contenu mettant en valeur ses efforts de diversité, y compris les images historiques des premières femmes ayant réussi l’entraînement pour intégrer l’infanterie du corps des Marines !

Des données cruciales de santé publique concernant l’obésité, les taux de suicide, le tabagisme chez les adolescents et les comportements sexuels ont également disparu des sites web du Center for Disease Control (CDC), l’équivalent états-unien de notre direction de maladies infectueuses (DMI) dont le rôle est de surveiller notamment les pandémies. Malgré une injonction judiciaire ordonnant la restauration de ces informations, des questions persistent quant à l’intégrité des données reconstituées.

Par ailleurs, des préoccupations émergent concernant la manipulation potentielle des statistiques économiques. Cette purge numérique s’accompagne d’interruptions de projets de recherche, de réductions drastiques des moyens et de licenciements de scientifiques de premier plan, notamment Kate Calvin, scientifique en chef de la Nasa.

L’administration a également ordonné la fin des échanges scientifiques internationaux, notamment entre la National Oceanic and Atmospheric Administration (NOAA) et l’Institut français de recherche pour l’exploitation de la mer (Ifremer). Cela fait craindre pour la précision des alertes sur les évènements majeurs, comme on avait pu le voir lors du Sharpiegate, où l’actuel président et les équipes le soutenant (dont l’actuel administrateur du NOAA déjà en poste à l’époque) avaient falsifié des cartes météo pour donner raison au président quant à la direction du cyclone « Dorian », et ce, contre l’évidence scientifique. Or, la précision de ces alertes est fondamentale pour sauver des vies.

Face à cette situation alarmante, certes, une résistance s’organise : des chercheurs tentent désespérément de préserver les données avant leur destruction. Malheureusement, la vitesse des coups portés à la preuve scientifique rend ces réponses bien dérisoires.

Une menace croissante pour le patrimoine scientifique mondial

Ce phénomène où des ensembles de données scientifiques, fruits de décennies de recherche minutieuse, sont anéantis sans considération pour leur valeur intrinsèque, ou verrouillés par des entités privées échappant largement au contrôle démocratique, interroge d’autant plus que ces mêmes acteurs ont souvent tiré profit des avancées permises par le libre partage des connaissances, par exemple les recherches introduisant l’architecture dite Transformer, publiées dans l’article « Attention Is All You Need » ont directement permis le développement du modèle commercial de Meta : LLaMA.

Dans ce contexte, la destruction de ces données représente non seulement une perte intellectuelle massive, mais aussi un non-sens économique flagrant. Comment justifier l’anéantissement d’actifs dont la valeur, bien que difficile à quantifier avec précision, est manifestement considérable ?

Évaluer l’inestimable : la valeur économique des données scientifiques

La valeur des données en tant qu’actif économique pour les nations et les entreprises est désormais un fait établi, documenté et largement accepté dans la littérature académique. Plusieurs méthodologies permettent d’évaluer cette valeur : le coût historique, les bénéfices futurs actualisés et la valeur de remplacement. Les coûts pour l’économie états-unienne sont donc aujourd’hui immédiatement quantifiables et dantesques.

L’approche par le coût historique consiste à calculer l’investissement total nécessaire à la production des données, incluant le financement de recherche, le temps de travail des chercheurs et l’infrastructure mobilisée. Mais certains soulignent que cette méthode comptable traditionnelle enregistre la valeur d’un actif à son coût d’acquisition initial, sans tenir compte des variations ultérieures de sa valeur. Aussi, la méthode des bénéfices futurs actualisés estime les avancées scientifiques et innovations potentielles découlant de l’exploitation des données sur plusieurs décennies. Elle permet de ramener les coûts et bénéfices futurs à leur valeur présente, ce qui est particulièrement pertinent pour les données scientifiques dont la valeur se déploie souvent sur le long terme.

Quant à la méthode de la valeur de remplacement, elle évalue le coût qu’impliquerait la reconstitution complète des bases de données si elles venaient à disparaître. L’OCDE recommande cette approche pour estimer la valeur des actifs de données, particulièrement lorsque les données sont uniques ou difficilement reproductibles, ce qui est clairement le cas des données de recherche. Aussi, la reconnaissance des données comme actif économique majeur est désormais bien établie, au même titre que tous autres actifs immatériels, désormais centraux dans l’économie moderne. Les données sont de la sorte devenues un facteur de production distinct, au même titre que le capital et le travail.

Une estimation conservatrice basée sur ces approches révèle que chaque jeu de données scientifiques majeur représente potentiellement des milliards d’euros de valeur. À titre d’exemple, le génome humain, dont le séquençage initial a coûté environ 2,7 milliards de dollars en quinze ans, a généré une valeur économique estimée à plus de 1 000 milliards de dollars US à travers diverses applications médicales et biotechnologiques, sans compter les recettes fiscales associées.

L’absurdité économique de la destruction et de la pollution informationnelle

Dans le contexte actuel, où l’intelligence artificielle (IA) se développe à un rythme fulgurant, le volume et la qualité des données deviennent des enjeux cruciaux. Le principe bien connu en informatique de « garbage in, garbage out » (ou GIGO, des données de mauvaise qualité produiront des résultats médiocres) s’applique plus que jamais aux systèmes d’IA qui sont dépendants de données de qualité pour assurer un entraînement des algorithmes efficients.

Ainsi, la destruction et la reconstruction erratique de sets de données à laquelle nous assistons aujourd’hui (on ne peut établir à ce stade que les données détruites ont été ou seront reconstituées avec sérieux et un niveau suffisant de qualité) génèrent une contamination délibérée ou négligente de l’écosystème informationnel par des données incorrectes, peut-être falsifiées ou biaisées.

Il y a là une double destruction de valeur : d’une part, par la compromission de l’intégrité des bases de données existantes, fruit d’investissements considérables ; d’autre part, en affectant la qualité des modèles d’IA entraînés sur ces données, perpétuant ainsi les biais et les erreurs dans des technologies appelées à jouer un rôle croissant dans nos sociétés. Sans données fiables et représentatives, comment espérer développer des systèmes d’IA sans biais et dignes de confiance ?

L’Europe comme sanctuaire de la donnée scientifique et terre d’accueil d’une IA éthique ?

Face à ces défis, l’Union européenne dispose d’atouts considérables pour s’imposer comme le gardien d’une science ouverte mais rigoureuse et le berceau d’une IA responsable. Son cadre réglementaire pionnier, illustré par le RGPD et l’AI Act, démontre sa capacité à établir des normes qualitatives élevées. Le cadre du RGPD permet de « concilier la protection des droits fondamentaux et la conduite des activités de recherche ». L’AI Act, entré en vigueur le 1er août 2024, entend « favoriser le développement et le déploiement responsables de l’intelligence artificielle dans l’UE », notamment dans des domaines sensibles comme la santé. L’Europe régule non pas pour porter atteinte à la liberté d’expression, mais, au contraire, pour proposer un environnement d’affaires sûr, de confiance et pacifié.

L’Union européenne pourrait donc créer un véritable « sanctuaire numérique » pour les données scientifiques mondiales, garantissant leur préservation, leur accessibilité et leur utilisation éthique. Ce sanctuaire reposerait sur trois piliers complémentaires dont l’essentiel est déjà en place du fait de la stratégie digitale :

un système d’archivage pérenne et sécurisé des données de recherche assurant leur préservation ;

des protocoles de partage ouverts mais encadrés, favorisant la collaboration internationale tout en protégeant l’intégrité des données ;

et un cadre d’utilisation garantissant que l’exploitation des données, notamment pour l’entraînement d’IA, respecte des principes éthiques clairs.

Caroline Gans Combe, Associate professor Data, econometrics, ethics, OMNES Education

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.