Appel à contribution pour la campagne d’évaluation HIPE-2022 sur la reconnaissance d’entités nommées

Bibliotheques Paris

Bibliotheques / Bibliotheques Paris 439 Views comments

Dans la lignée des compétitions scientifiques sur la post-correction de l’OCR coorganisées par le L3i et& la BnF lors des colloques ICDAR 20171 et 20192 , deux partenaires de longue date de la BnF organisent une campagne d’évaluation sur la recherche d’entités nommées, thématique qui concerne de plus en plus les bibliothèques.

Identifying Historical People, Places and other Entities
Figuring out Historic Individuals, Places and different Entities

Présentation/Contexte

La campagne d’évaluation HIPE-2022 vise à mesurer les performances des systèmes de reconnaissance des entités nommées (par ex. : les noms de personnes, lieux, organisations) dans des paperwork historiques multilingues. Organisée par des chercheurs du Digital Humanities Laboratory (DHLAB) de l’EPFL, de l’Université de Lausanne, de l’Université de Zurich et de l’Université de La Rochelle, HIPE-2022 fait partie des “Analysis Labs” de CLEF 2022.

La série de campagnes d’évaluation HIPE participe des efforts communs des communautés scientifiques du traitement automatique du langage naturel et des humanités numériques pour développer des applied sciences d’extraction d’informations sur des textes historiques. Pour cette seconde édition, HIPE-2022 suggest de confronter les systèmes à plus de langues, à des varieties de documents variés, et à des typologies d’entités différentes. L’objectif est de développer des systèmes “transférables” d’une langue à l’autre, d’un sort de document à l’autre, et d’une période temporelle à l’autre.

HIPE-2022 propose deux tâches :

  1. Reconnaissance et classification des entités nommées
  2. Liaison d’entités

Données

Les jeux de données HIPE-2022 sont basés sur six jeux de données assemblés et préparés pour la campagne, composés de journaux historiques et de commentaires classiques en plusieurs langues et couvrant environ 200 ans. Ces jeux de données proviennent de divers projets européens sur le patrimoine culturel; certains sont déjà publiés, d’autres le sont pour la première fois pour HIPE-2022.

Tracks et Challenges


Afin de tenir compte des différentes dimensions qui caractérisent HIPE-2022 (tâches, langues, varieties de documents, typologies d’entités) et de favoriser la recherche sur la transférabilité des systèmes, l’évaluation est organisée autour de “tracks” et “challenges”.

Un “monitor” est un triplet spécifique composé de [dataset-language-tâche] et un “problem” est un ensemble prédéfini de tracks (un challenge peut être vu comme une sorte de championnat avec plusieurs tracks).

HIPE-2022 évalue spécifiquement three challenges :

  1. Multilingual Newspaper Problem : jeux de données de journaux uniquement, 2 langues minimal ;
  2. Multilingual Classical Commentary Challenge : jeux de données de commentaires classiques uniquement, three langues minimum ;
  3. International Adaptation Problem : jeux de données incluant deux varieties de documents, 2 langues minimum.

Pour en savoir plus

Notes

  1. Voir : Guillaume Chiron, Antoine Doucet, Mickaël Coustaty, Jean-Philippe Moreux, « ICDAR2017 Competition on Submit-OCR Textual content Correction », 2017 14th IAPR Worldwide Convention on Doc Analysis and Recognition (ICDAR), Nov 2017, Kyoto, France, p. 1423-1428, url : <https://tel.archives-ouvertes.fr/L3I/hal-03025499v1>.
  2. Voir : Christophe Rigaud, Antoine Doucet, Mickaël Coustaty, Jean-Philippe Moreux, « ICDAR 2019 Competitors on Publish-OCR Textual content Correction », 15th International Conference on Doc Analysis and Recognition, Sep 2019, Sydney, Australia, p. 1588-1593, url : <https://hal.archives-ouvertes.fr/hal-02304334>.

Comments