Solution
Infotel a participé à la phase d’apprentissage de GROBID, laquelle nécessitait d’extraire manuellement ces informations sur un grand nombre de documents.
GROBID est une librairie de machine learning qui permet d’extraire, parser et re-structurer des documents avec des textes désordonnés (de type PDF) en documents structurés de type TEI-encoded documents, en particulier en relation avec les publications techniques et scientifiques.
Les principales fonctionnalités sont l’extraction d’en-tête/de références et parsing à partir d’article au format PDF, appliquée aux données bibliographiques (titre, résumé,auteurs, mots-clés, etc.), l’extraction du Full text à partir d’articles, l’apprentissage de l’annotation sur un ensemble de documents, l’annotation automatique des documents et l’évaluation de l’annotation sur un ensemble de documents.
Architecture :
GROBID est une librairie écrite en Java, avec des appels JNI vers les librairies natives CRF, qui inclut des procédés batch, une API complète RESTful, une API JAVA, un framework d’évaluation relativement générique (précision, rappel, etc.) et la génération semi-automatique de données d’entraînement.
L’extraction et le parsing d’algorithmes GROBID utilise la librairie Wapiti CRF.

Résultats
Les aspects clés de cette phase sur GROBID ont été :
L’amélioration des performances : Extraction d’en-têtes à partir de 4000 PDF en 10 minutes (ou à partir de 3 PDF par seconde avec l’API RESTful), parsing de 3000 références en 18 seconds.
L’extraction de métadonnées des PDF qui nécessite moins de 2 GB de mémoire avec des traitements multi-threadés, extraction de citations qui utilise autour de 3GB et des structures des PDF autour de 4GB.
Le traitement rapide et robuste de PDF basé sur Xpdf et des post-traitements dédiés.
Le traitement de données bibliographiques riches : parsing fin des noms d’auteur, adresses, etc. mais aussi de pièces jointes et d’emails.
La « Génération Automatique » de données d’entraînement pré-formatées basées sur des nouveaux documents PDF pour supporter la génération semi-automatique de données d’entraînement.
Le support des langages CJK et Arabe basé sur des analyseurs personnalisés Lucene.