Le corpus OrthoCorpus, dans sa nouvelle version augmentée
Le corpus OrthoCorpus, dans sa nouvelle version augmentée, est disponible à l’adresse suivante : www.ortolang.fr, https://hdl.handle.net/11403/orthocorpus/v1.1.
Il comporte plus de 900 articles de la revue Rééducation Orthophonique (4 millions de mots), parus entre 1997 et 2016, et rédigés par des orthophonistes et d’autres professionnels de la santé ou de l’éducation. Il a été constitué à des fins de recherches lexicales, terminologiques et textuelles.
OrthoCorpus est disponible dans deux versions. La première est au format XML-TEI, la deuxième est directement interrogeable sous TXM.
Il a été enrichi en métadonnées telles que le statut de l’auteur (orthophoniste ou non), le pays de l’auteur, le numéro et l’année de parution, la rubrique assignée à l’article, s’il concerne une population d’enfants ou non. Les résumés, mots clés en anglais et en français ont été conservés, ainsi que la structuration des documents (titres et sous-titres, introduction, conclusion…) Les figures et les annexes, ainsi que la bibliographie ont été exclues.
Il est accessible aux membres de l’ESR, et, sur demande, aux orthophonistes praticiens-chercheurs.
Référence :
Analyse et traitement informatique de la langue française - UMR 7118 (ATILF) (2018). OrthoCorpus [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, https://hdl.handle.net/11403/orthocorpus/v1.1.
Pour l’équipe d’OrthoCorpus
Frédérique Brin-Henry, Evelyne Jacquey, Sandrine Ollinger et Jessika Pérignon.
ATILF UMR 7118 CNRS-Université de Lorraine