Appel à stages : pour le projet DataCatalogue, ALMAnaCH – Inria

Bibliotheques Paris

Bibliotheques / Bibliotheques Paris 564 Views comments

Dans le cadre du projet DataCatalogue, l’équipe ALMAnaCH – Inria suggest deux levels de 4 mois à destination de deux étudiant·e·s de grasp en humanités numériques.

Le projet DataCatalogue, lancé au début de l’automne 2021, est mené conjointement par l’équipe ALMAnaCH, la Bibliothèque nationale de France (BnF) et l’Institut nationwide d’histoire de l’art (INHA). Il vise à passer d’une numérisation en mode picture des catalogues de vente (monnaies, objets d’artwork, and so forth.) conservés à la BnF et l’INHA à une base de données textuelle et requêtable.

DataCatalogue s’attache à adapter la suite logicielle GROBID (GeneRation Of BIbliographic Knowledge – https://github.com/kermitt2/grobid) au format des catalogues de vente. GROBID utilise des modèles CRF en cascade pour segmenter les zones d’info d’un document PDF et en produire un encodage XML-TEI. Grâce à l’encodage fin à grande échelle que permet un outil automatique comme GROBID, les catalogues de ventes bénéficieront d’un nouvel accès aux informations qu’ils contiennent. Cela passera notamment par la publication des fichiers obtenus dans une plateforme requêtable, ouverte aux publics.

Offres de stage

Le premier stage s’inscrit dans le contexte de l’extraction automatique d’info dans les catalogues de vente.

Le second porte sur la mise en place d’une plateforme de publication de fichiers XML-TEI avec l’software open source TEI Publisher.

Circumstances des levels

  • Lieu de travail : Inria – 2 rue Simone Iff, 75012, Paris
  • Temps de travail hebdomadaire : 35h
  • Gratification mensuelle : env. 538 €
  • Durée du stage : four mois
  • Début du stage : 4 avril 2022
  • Fin du stage : 22 juillet 2022

Contacts

Comments