France
Partager
S'abonner
Ajoutez IDJ à vos Favoris Google News

Explorer les archives de Notre-Dame de Paris grâce à l’intelligence artificielle

La Trinité aux chanoines de Notre-Dame de Paris.
Maître de Dunois , CC BY-SA

Élisabeth Lusset, Université Paris 1 Panthéon-Sorbonne

Depuis l’incendie qui a ravagé Notre-Dame de Paris le 15 avril 2019, des centaines de chercheurs sont mobilisés afin d’étudier les vestiges de la cathédrale et collaborer à sa restauration.

À côté des groupes de travail du chantier scientifique, centrés sur le bâtiment (pierres, vitraux, charpente) et son architecture, une trentaine d’historiens et de conservateurs, rassemblés au sein du projet ANR e-NDP, « Notre-Dame de Paris et son cloître », étudie spécifiquement la documentation textuelle de la cathédrale, les livres qui composaient sa bibliothèque et les archives manuscrites.

Coordonné par Julie Claustre et Darwin Smith, il réunit des chercheuses et chercheurs issus du Laboratoire de médiévistique occidentale de Paris (Université Paris 1 Panthéon-Sorbonne, CNRS), de l’École nationale des chartes, de la Bibliothèque nationale de France, de la Bibliothèque Mazarine (où se trouvent désormais les livres de Notre-Dame) et des Archives nationales (où est conservée une partie des archives de la cathédrale).

Registres capitulaires du chapitre cathédral de Notre-Dame (Archives nationales).
Isabelle Bretthauer, Fourni par l’auteur

Une documentation très riche

Il existe une source essentielle pour connaître l’histoire de Notre-Dame : les registres rédigés, entre le XIVe et le XVIIIe siècle, par les chanoines, c’est-à-dire les clercs qui assistent l’évêque de Paris pour exercer le culte dans la cathédrale et pour gouverner le diocèse. Au nombre de 51, ces chanoines composent ce qu’on appelle le chapitre de Notre-Dame, en charge du Trésor et de la liturgie dans l’église cathédrale.

Au-delà du culte, les chanoines détiennent l’autorité sur le quartier de la cathédrale, ont la tutelle de l’Hôtel-Dieu, l’un des hôpitaux les plus importants du royaume, situé à quelques pas de la cathédrale, et administrent les villages et les terres détenus par la cathédrale en Île-de-France.

Le chapitre de Notre-Dame constitue donc une institution puissante, autonome de l’évêque de Paris et en lien direct avec les autres pouvoirs de l’époque (la municipalité de Paris, l’université, les nobles, les évêques, le roi de France, le pape).

Trois fois par semaine, les lundi, mercredi et vendredi, les chanoines se réunissent pour prendre des décisions relatives à la cathédrale et à son patrimoine. Le notaire du chapitre est chargé d’écrire dans un registre la date de la réunion, la liste des présents et les conclusions des délibérations. 26 registres ont été conservés pour la période médiévale, de 1326 à 1504, soit plus de 14 600 pages de texte manuscrit latin.

Les chanoines statuent sur des questions très diverses : administration de la cathédrale et de son patrimoine, réception des nouveaux chanoines, dons de livres, affaires de discipline, liturgie, gestion des possessions et des droits du chapitre… Ainsi, en 1476, la cloche Gabriel, endommagée, est refaite et remontée dans la tour Guillaume de la cathédrale. Pour sa réfection, le chapitre paye 11 écus d’or.

On estime que les chanoines prennent entre 500 et 1 500 décisions par an. Bien connue des spécialistes de l’histoire de la cathédrale, cette documentation est si massive et si mal indexée qu’elle restait sous-utilisée.

L’intelligence artificielle au service des historiens

Rechercher une information dans ces registres exigeait jusqu’à présent de lire la totalité des décisions ou de se contenter des extraits collectés par des archivistes du chapitre depuis le XVIIe siècle.

Afin d’exploiter de manière exhaustive cette documentation massive et hétéroclite, notre projet utilise les ressources de l’intelligence artificielle (IA), pour transcrire intégralement les registres et pour exploiter leur contenu afin d’éclairer le rôle économique, culturel et social du chapitre de Notre-Dame.

Les 26 registres médiévaux ont d’abord été numérisés (ils sont disponibles sur le site des Archives nationales. Puis l’équipe de recherche a mis au point une intelligence artificielle dite de « handwriting text recognition » (HTR), c’est-à-dire de reconnaissance des écritures manuscrites et de transcription automatique du texte. S’il existait déjà des modèles algorithmiques entraînés à lire des livres imprimés ou des écritures anciennes livresques, très lisibles car très normées et régulières, aucun modèle n’existait pour les écritures cursives de notaires qui prennent des notes à la volée, abrègent les mots latins et écrivent très mal !

Quatre étapes de travail : (1) numérisation du registre, (2) reconnaissance et segmentation des lignes de texte, (3) reconnaissance des zones de textes, (4) transcription automatique en utilisant le modèle via la plate-forme eScriptorium (AN, LL 117, p. 5).
Fourni par l’auteur

Postdoctorant à l’École nationale des chartes et désormais chercheur à l’université de Luxembourg, Sergio Torres Aguilar a entraîné des modèles spécialement conçus pour les registres de Notre-Dame, l’un de reconnaissance des zones de texte (dont la mise en page varie au fil des registres), l’autre de lecture. Pour cela, il a utilisé des données préexistantes (des textes de la même époque déjà transcrits et associés à des images) et s’est appuyé sur une cinquantaine de pages de registres du chapitre, transcrites préalablement par les chercheurs. Cette base de textes avec des écritures des XIVe-XVe siècles a permis d’entraîner l’intelligence artificielle.

Au total, sept versions du modèle algorithmique de lecture ont été successivement développées à partir du travail collectif fourni par l’équipe de transcripteurs, réunissant une quinzaine d’historiens spécialistes de Paris, du livre, des institutions religieuses, de l’édition textuelle et des humanités numériques.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

L’équipe a testé, corrigé et éduqué l’IA à partir de la plate-forme de transcription automatique de documents eScriptorium, afin d’améliorer progressivement les performances de lecture et d’aboutir à la meilleure transcription possible.

L’IA bute sur des obstacles tels que la segmentation des mots (lorsque le passage d’une ligne à une autre oblige le notaire à couper un mot), l’hétérogénéité des manuscrits (différences de mises en pages ou d’écritures) ou l’état des manuscrits (pages déchirées, taches, humidité).

Au final, le modèle produit est parvenu à transcrire 90 % du texte des registres, le taux de reconnaissance oscillant selon les volumes entre 88 et 94 %. Le site du projet e-NDP (en construction) permettra d’explorer le corpus textuel acquis par l’IA, tout en le confrontant aux pages correspondantes des registres qui ont été numérisées. Le modèle facilite la lecture, car il aide l’œil humain à résoudre des difficultés de déchiffrement qui l’auraient beaucoup ralenti. Surtout, l’IA augmente les capacités de lecture et donc le nombre de données collectées. Le modèle sera réutilisable pour toutes les écritures des documents de la pratique de la fin du Moyen Âge.

Notre-Dame révélée

Le corpus textuel acquis par l’IA fait actuellement l’objet de post-traitements et d’un travail d’indexation, notamment par détection automatique des noms de lieux et de personnes.

On peut d’ores et déjà connaître plus précisément les 800 chanoines de Notre-Dame entre 1326 et 1504 et reconstituer leur carrière : présence ou absence aux réunions, responsabilités endossées, types de décisions prises, manquements. Par exemple, en 1392, les chanoines excommunient Robert de Hamelle, chanoine de l’église du Saint-Sépulcre de Paris, qui, en état d’ivresse, a frappé un clerc. Condamné à une amende, le chanoine se voit interdire de boire du vin qui ne serait pas coupé d’eau.

Au-delà des chanoines, les registres permettent de mieux connaître l’histoire des hommes et des femmes qui vivent et travaillent dans le quartier de la cathédrale (des officiers du chapitre aux invités de marque qui logent chez les chanoines, en passant par les servantes au service des clercs). On apprend ainsi qu’en 1420, la garde des enfants trouvés dans l’église de Paris est confiée à Isabelle, veuve de Jean Bruyère, ancien geôlier du chapitre, ou encore que, en 1480, les habitants de Larchant, un village dépendant du chapitre de Notre-Dame et situé à 80 km de Paris, ont détruit le pilori, symbole de la justice des chanoines.

Il est désormais possible d’effectuer des recherches dans des données textuelles massives (« topic modeling ») sur des sujets déjà étudiés ou, au contraire, mal connus, des fêtes liturgiques à l’emploi du plomb dans le bâti, en passant par les rapports entre le roi et les chanoines ou les finances du chapitre.

Le contenu des registres du chapitre pourra être exploité par d’autres projets liés à Notre-Dame, par exemple pour connaître la provenance du bois ou du métal servant à l’entretien de l’édifice. Notre-Dame de Paris comme on ne l’a encore jamais vue !The Conversation

Élisabeth Lusset, Chargée de recherche en histoire médiévale au CNRS, Université Paris 1 Panthéon-Sorbonne

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

The Conversation

France