Atelier "Structures de données et nettoyages des données textuelles"

Yann Audin (doctorant en humanités numériques à l'Université de Montréal et responsable de projets à la Chaire de recherche du Canada sur les écritures numériques) animera une série de trois ateliers sur le traitement automatique des langues.

Le troisième atelier, "Structures de données et nettoyage des données textuelles", s'adresse aux personnes ayant des bases en Python et qui désirent apprendre à nettoyer les données textuelles et utiliser les formats de données JSON, csv et XML. Cette session reprendra les thèmes des ateliers précédents en analysant les conséquences épistémiques des différentes structures de données, et les présuppositions linguistiques de la racinisation et de la lemmatisation.

Durant cet atelier, les personnes participantes seront amenées à analyser un texte littéraire de leur choix à l'aide des bibliothèques Python Spacy et NLTK. De plus, elles apprendront à transformer un texte en données textuelles en fonction de leurs intérêts de recherche.

Python est utilisé dans les domaines du traitement automatique de la langue, de l'enseignement de la programmation, de l'intelligence artificielle, en programmation scientifique, en développement web, et bien d'autres. Ce langage dit de haut niveau est particulièrement lisible pour les humains, ce qui contribue à sa popularité. De plus, Python est distribué sous une licence très permissive, et est supportée par une forte et vaste communauté de pratique qui développe des bibliothèques pour presque n'importe quelle situation.

Cet atelier aura lieu le 11 novembre 2024 au CRIHN, salle C-8132, 3150 rue Jean Brillant, Université de Montréal de 10h30 à midi.

Le téléchargement d'une version récente d'Anaconda est recommandé, mais non nécessaire.