Office Européen des Brevets – Projet GROBID

GROBID (GeneRation Of BIbliographic Data) pour l'Office Européen des Brevets

Contexte & Enjeux

Infotel a participé à l’Office Européen des Brevets (OEB) au projet GROBID (GeneRation Of BIbliographic Data) qui visait à extraire via la méthode CRF (Conditional Random Field), une méthode originale de remise en ordre de lecture d’un texte désordonné et non structuré, certaines métadonnées directement issues du texte du document, comme par exemple des auteurs ou des références associées à un article.

Le contexte est ici l’OEB et plus précisément l’analyse automatique de documents non structurés type PDF issus de la littérature non brevet.

Solution

Infotel a participé à la phase d’apprentissage de GROBID, laquelle nécessitait d’extraire manuellement ces informations sur un grand nombre de documents.

GROBID est une librairie de machine learning qui permet d’extraire, parser et re-structurer des documents avec des textes désordonnés (de type PDF) en documents structurés de type TEI-encoded documents, en particulier en relation avec les publications techniques et scientifiques.

Les principales fonctionnalités sont l’extraction d’en-tête/de références et parsing à partir d’article au format PDF, appliquée aux données bibliographiques (titre, résumé,auteurs, mots-clés, etc.), l’extraction du Full text à partir d’articles, l’apprentissage de l’annotation sur un ensemble de documents, l’annotation automatique des documents et l’évaluation de l’annotation sur un ensemble de documents.

 

Architecture :

GROBID est une librairie écrite en Java, avec des appels JNI vers les librairies natives CRF, qui  inclut des procédés batch, une API complète RESTful, une API JAVA, un framework d’évaluation relativement générique (précision, rappel, etc.) et la génération semi-automatique de données d’entraînement.

L’extraction et le parsing d’algorithmes GROBID utilise la librairie Wapiti CRF.

Résultats

Les aspects clés de cette phase sur GROBID ont été :

L’amélioration des performances : Extraction d’en-têtes à partir de 4000 PDF en 10 minutes (ou à partir de 3 PDF par seconde avec l’API RESTful), parsing de 3000 références en 18 seconds.

L’extraction de métadonnées des PDF qui nécessite moins de 2 GB de mémoire avec des traitements multi-threadés, extraction de citations qui utilise autour de 3GB et des structures des PDF autour de 4GB.

Le traitement rapide et robuste de PDF basé sur Xpdf et des post-traitements dédiés.

Le traitement de données bibliographiques riches : parsing fin des noms d’auteur, adresses, etc. mais aussi de pièces jointes et d’emails.

La « Génération Automatique » de données d’entraînement pré-formatées basées sur des nouveaux documents PDF pour supporter la génération semi-automatique de données d’entraînement.

Le support des langages CJK et Arabe basé sur des analyseurs personnalisés Lucene.

Ils témoignent


Méthode et ressources

Durée et nombre de jours de l’intervention :

Date de déroulement de l’étude : 2012-2013
Intervenants : Consultants SI d’Infotel, membres de l’équipe STL d’Infotel, chercheur CNRS de Paris Orsay