Stanza

Stanza est une librairie Python développée par le Stanford NLP Group et utilisée dans le traitement automatique des langues. Stanza est capable de réaliser diverses analyses et annotations d'un texte telles que la tokenisation, la lemmatisation, l'annotation des parties du discours, des relations de dépendances ou encore la reconnaissance d'entités nommées.

Cet outil, développé à partir de Stanza, prend un texte en entrée au format TXT, TEXT, XML/TEI, CHA, TRS, EAF ou TEXTGRID. Le texte est ensuite annoté avec Stanza selon l'un des quatre modèles disponibles. Pour le français : gsd, partut, sequoia, spoken. Le modèle par défaut utilisé pour l'instant est gsd. Pour l'anglais : ewt, gum, lines, partut. Le modèle par défaut utilisé pour l'instant est combined, une combinaison de plusieurs jeux de données. Le résultat est retourné au format CoNLL-U à 10 colonnes pour un fichier de l'écrit et au format CoNLL-U à 13 colonnes inspiré du projet Orféo, pour un fichier de l'oral (transcription).

Annoter un texte avec Stanza ...

Fichier d'entrée
Format
Langue

Durée du traitement: L'analyse grammaticale d'un fichier peut prendre un certain temps pendant lequel la page web restera statique sans affichage.
Il faut compter une trentaine de seconde pour l'initialisation de l'analyseur lors du premier traitement.
Par la suite, il faut compter environ 2 minutes pour 1000 lignes de texte écrit (25 000 mots) et deux fois ce temps pour la même longueur pour un texte oral.