Le projet

La Toolbox a été conçue par les membres de l'équipe-projet ObTIC (SCAI - Sorbonne Université).
Il s'agit d'une interface qui permet d'utiliser en ligne un ensemble d'outils de manipulation et de traitement de corpus textuels. Les tâches couvertes sont les tâches essentielles le plus souvent réalisées dans les études de corpus : la numérisation (OCR/HTR), la conversion entre différents formats de données (notamment XML-TEI), l'analyse automatique du texte (reconnaissance d'entités nommées) et la visualisation des données.

Les fonctionnalités implémentées sont basées soit sur des outils externes donnant des résultats état de l'art dans les tâches concernés (Tesseract, Spacy, Flair, etc), soit sur des scripts ou applications développés par l'équipe ObTIC (Ariane, Tanagra, etc).

L'équipe

  • Glenn Roe, professeur, Sorbonne Université (porteur du projet)
  • Motasem Alrahabi, ingénieur de recherche, Sorbonne Université (coordinateur)
  • Johanna Cordova, ingénieure d'étude, Sorbonne Université (développement)
  • Yoann Dupont, post-doctorant, Sorbonne Université (développement)
  • Ljudmila Petković, doctorante, Sorbonne Université (développement)
  • Caroline Parfait, doctorante, Sorbonne Université (développement)
  • James Gawley, post-doctorant, Sorbonne Université (développement)

Publications

  • Johanna Mayra Cordova, Yoann Dupont, Ljudmila Petkovic, James Gawley, Motasem Alrahabi, et al.. Toolbox : une chaîne de traitement de corpus pour les humanités numériques. Traitement Automatique des Langues Naturelles, 2022, Avignon, France. pp.11-13. ⟨hal-03701464