Ressource - French Treebank - Nouvelle version - Nouveau site - 21 550 phrases - 664 500 tokens

Publié le par ANAE

Le laboratoire de linguistique formelle (www.llf.cnrs.fr) est heureux d’annoncer une nouvelle version du French treebank et un nouveau site :

 

http://ftb.linguist.univ-paris-diderot.fr/

 

Le French treebank (extraits du journal Le Monde 1990-1993) est une ressource unique par sa taille (21 550 phrases, 664 500 tokens) et sa richesse d’annotations lexicales et syntaxiques validées à la main (composés, lemmes, flexion, constituants majeurs, fonctions

syntaxiques…) (Abeillé et al. 2003).

 

Il est développé par A. Abeillé et al. depuis 1997 avec le soutien de l’IUF et de l’Université Paris-Diderot.

Il est distribué gratuitement à des fins de recherche et utlisé par plus de 150 laboratoires et entreprises dans le monde.

 

Cette nouvelle version comprend :

- 3 000 phrases supplémentaires (envron 90 000 mots) ;

- des annotations additionnelles sur tout le corpus : tous les composés ont leur composants annotés ;

- des metadonnées ont été ajoutées (articles, auteurs, date, domaine) ;

- des versions additionnelles ont été générées : format utf-8 PennTreebank, format utf-8 Tiger-xml, format CoNNL (Candito et al. 2009 ; 2010).

 

Pour des requêtes, le format Penntreebank permet l’utilisation de T-Regex (https://nlp.stanford.edu/software/tregex.shtml) et le format Tiger-xml celui de Tigersearch (http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/tigersearch.html).

 

Le corpus est distribué gratuitement pour toute utilisation à fins de recherche. Pour l’obtenir, il suffit d’en effectuer la demande en ligne

(http://ftb.linguist.univ-paris-diderot.fr/telecharger.php) et d’accepter les conditions générales d’utilisation. La licence commerciale, quant à elle, s’acquiert en contactant directement ftb@linguist.univ-paris-diderot.fr. De plus, il est possible de tester le corpus grâce à un échantillon de 100 phrases, accessible sur le site.

 

Spécifications techniques :

- Version 1.0 du 3 avril 2017 ;

- 21 550 phrases issues du quotidien Le Monde (1990-1993) : extraits de

1143 articles ;

- 664 500 tokens ;

- 44 fichiers aux formats XML, Tiger-XML, PTB et CoNNL ;

- Métadonnées (auteur, date, domaine) (211 auteurs et 14 domaines) ;

- Annotations lexicales (catégories, sous-catégories, flexions, mots composés, composants) ;

- Annotations syntaxiques (constituants majeurs et fonctions

grammaticales) ;

- Annotations corrigées et validées manuellement.

 

Historique des versions

L’actuelle version est la v1.0. Il s’agit de la première version complète du Corpus arboré pour le français, car c’est la première fois que 100 % des phrases disposent d’un étiquetage morpho-syntaxique et fonctionnel complet. Auparavant, plusieurs versions beta ont coexisté, par exemple :

 

- 2005 : l’entièreté des phrases est utilisée dans Arun et al. 2005 (http://aclweb.org/anthology/P/P05/P05-1038.pdf), sans les annotations fonctionnelles ;

- 2007 : version avec 12 531 phrases et annotations fonctionnelles, utilisée par exemple dans Candito et al. 2010

(http://www.lrec-conf.org/proceedings/lrec2010/pdf/392_Paper.pdf) ;

- 2010 : version avec 15 922 phrases et annotations fonctionnelles, utilisée par exemple dans Green et al. 2011

(http://www.aclweb.org/anthology/D/D11/D11-1067.pdf) ;

- 2013 : version avec 18 535 phrases et annotations fonctionnelles, utilisée pour SPMRL 2013 shared task (Seddah et al. 2013, http://www.aclweb.org/anthology/W/W13/W13-4917.pdf).