TAL des langues à corpus restreint : construire en interface avec les communautés parlantes

titleTAL des langues à corpus restreint : construire en interface avec les communautés parlantes
start_date2023/11/08
schedule14h-15h30
onlineno
location_infoSalle de documentation
summaryCette présentation fait le tour d’une palette d’outils pour la documentation des langues à corpus restreint, avec des exemples empiriques tirés du breton et d’autres langues minorisées de l’État français. La présentation construit une discussion sur les outils tant sociétaux qu’informatiques à créer pour l’accélération des constitutions de ressources pour les langues peu dotées, dans une volonté de mise en réseau horizontale des développeurs TAL, des communautés de linguistes universitaires et des communautés parlantes. Dans un premier temps, je présente la wikigrammaire ARBRES (2009-2023) des dialectes du breton, sous l’angle d’une ressource interactive en interface avec la communauté parlante. Cette wikigrammaire construit incrémentalement l’annotation d’une banque de données récupérable pour du traitement automatique. Je présente l’extraction en cours pour la constitution d’un corpus UD avec l’ANR Autogramm. Je présente ensuite la nouvelle version du site Entrelangues (2010-2023), qui documente pour les langues de l’État français les critères de vitalité des langues selon l’Unesco, les ressources d’études linguistiques descriptives et formelles, ainsi que, pour un nouveau chantier d’extension du site en collaboration avec le Modyco (Paris Nanterre), les ressources en traitement automatique (corpus, outils informatiques). Enfin, je présente une ressource pédagogique en ligne réalisée en collaboration avec l’ingénieure pédagogique Lynda Kehli (DORANUM pour la science ouverte). Ce cours en ligne reprend les infos du guide de survie pour les langues minorisées, et présente pour un public large (mais motivé) les bases nécessaires au développement d’outils TAL.
responsiblesNC