Accéder au contenu principal

#Article 9 : L’analyse textométrique du corpus



L’article 7 de notre blog s’intitulait « Finalisation du script ». Cependant, il restait dans notre script quelques petites erreurs que nous avons dû corriger.
Tout d’abord, il nous a fallu retirer l’aspiration du dump (avec lynx) de notre fonction. En effet, c’est le fichier dump qui doit être converti en UTF-8 dans le cas où l’encodage est autre : ce fichier doit donc être créé avant conversion, et c’est seulement après que les autres opérations (comprises dans la fonction) peuvent être effectuées.
De plus, nous n’avions pas précisé de fichier de sortie pour le fichier converti, le texte converti en UTF-8 apparaissait donc dans la console mais n’était enregistré nulle part, ce qui rendait toute l’opération totalement inutile.

Ces petites erreurs d’inattention ayant été corrigées, il nous restait encore à créer pour chaque langue un fichier concaténant l’ensemble des dumps en les séparant par des balises (qui servira pour l’analyse avec le logiciel de textométrie iTrameur, dont nous parlerons plus loin) ainsi qu’un fichier concaténant l’ensemble des contextes (qui servira pour créer des nuages de mots).
Nous avons créé un nouveau dossier « CONCAT » dans le répertoire du projet et  ajouté les lignes suivantes à la fin de notre fonction :


Nous avons tout passé en minuscules afin de faciliter l’analyse textométrique.
Nous avons pensé qu’il serait intéressant de créer un index de mots pour chacun de ces deux fichiers. Et enfin, nous avons voulu ajouter tous ces fichiers à la dernière ligne de chaque tableau. Nous avons donc ajouté les lignes suivantes à la fin de la création du tableau (juste avant l’incrémentation de ce dernier) :

Le script est cette fois bel et bien terminé !


Il est temps d’utiliser nos fichiers « contexte global » pour créer des nuages de mots.
Il existe de nombreux sites permettant de créer des nuages de mots. Nous avons choisi https://www.nuagesdemots.fr/ qui nous a permis de créer un nuage de mots en forme de Pacman, ce qui correspond plutôt bien au thème de notre projet.
Nous avons importé notre fichier, à partir duquel le site crée automatiquement un glossaire et génère ainsi le nuage de mots correspondant : plus la fréquence d’un mot est élevée dans notre fichier, plus sa taille est grande dans le nuage.
Le principal problème à régler est l’apparition de mots « vides » (qui ne portent pas d’information sémantique) comme les déterminants et les prépositions, et de mots peu spécifiques (c’est-à-dire des mots fréquents dans la langue en général et pas particuliers à notre corpus). Ces mots apparaissaient en gros dans nos nuages alors qu’ils n’apportent pas d’informations intéressantes pour notre recherche.
Il est assez facile de remédier à ce problème, car le site permet de retravailler le glossaire à la main : il nous suffit donc tout simplement de supprimer ces mots du glossaire et de relancer la génération du nuage de mots.
Voici un exemple avec l’allemand :


Les nuages de mots nous apportent des premières informations, de façon très visuelle, sur les mots fréquemment utilisés dans le voisinage du terme « geek ». Cependant, il nous faut compléter ces informations grâce à un logiciel de textométrie appelé iTrameur.

               Il s’agit d’un logiciel en ligne sur lequel il nous suffit de charger un de nos fichiers « dump global » afin d’accéder à de nombreuses informations comme les concordances d’un mot (les mots qui le suivent et le précèdent) ou ses cooccurrents (les mots fréquemment utilisés avec lui). Ces informations nous sont données sous forme de tableaux ou de graphiques et nous pouvons effectuer des réglages en fonction de la fréquence ou de l’indice de spécificité des mots que nous souhaitons voir apparaître dans nos résultats. Nous pouvons générer un graphique mettant en évidence les différents réseaux de cooccurrences qui se dégagent de nos textes, ce qui peut être très intéressant à étudier.
               Nous n’en dirons pas plus ici, puisque les résultats détaillés de nos analyses seront bientôt visibles sur notre site internet !

Commentaires

Posts les plus consultés de ce blog

#Article 10 : Création du Site Web

Ce dixième et dernier article du blog aura pour objet la création de notre site web associé au projet. Nous avons choisi une mise en forme personnalisée, sur la base d'un modèle trouvé en ligne, et, ayant tous les trois quelques connaissances en HTML/CSS, nous avons ajouté et modifié nous-mêmes les pages dudit site. Il reprend certaines parties de ce blog: présentation de l'équipe, du projet. Nous y avons ajouté une section traitant des programmes utilisés tout au long de notre recherche, ainsi qu'une page dédiée aux données traitée. Par la suite, une section se consacre au script et à son écriture, une aux résultats obtenus, et enfin une à l'analyse de ces résultats. Contrairement à ce blog, le site contiendra plus de visuels et sera probablement un peu plus agréable dans sa navigation. Pour pouvoir travailler ensemble sur les fichiers, ceux-ci ont été partagés sur un drive commun. En effet, il serait autrement compliqué d'y avoir accès aisément depuis différentes

#Article2 Présentation de l’équipe

Avant de vous présenter le projet lui-même et de vous expliquer ce qui nous a amenés à choisir le mot « geek » pour notre étude, laissez-nous vous faire une rapide présentation de l’équipe. Aurore : (langues : français et anglais) : Je suis titulaire d’une licence en Sciences du Langage à Nanterre. En dernière année, avec le parcours Traitement Informatique de Corpus j’ai pu suivre une initiation à la linguistique informatique et la linguistique de corpus. Ayant apprécié l’expérience, j’ai décidé d’entreprendre le Master TAL. En 3ème année de licence, dans le cadre d’une enquête sociolinguistique, mes camarades et moi-même avions travaillé sur les anglicismes dans les jeux vidéos. C’est l’envie d’entreprendre un projet sur un sujet connexe qui m’a conduite à vouloir travail sur un thème proche du gaming. Corentin : (langues : français, japonais, italien) Titulaire d’une Licence en Science du Langage à Nanterre, passionné par langues et la linguistique, et versé dans l’informatique,

#Article 7 : Finalisation du script

Lors de notre dernier billet, nous avons cherché une manière d’obtenir les encodages de toutes les pages et de convertir en UTF-8 celles qui ne l’étaient pas déjà. Nous avons vu en cours une manière plus simple et efficace que celle que nous avions trouvée : egrep -io "charset=\"?[^\",]+\"?" ./PAGES-ASPIREES/$numerotableau-$compteur.html | cut -f2 -d"=" | tr -d '("|\\|>)' | sed "s/'//g" | tr '[a-z]' '[A-Z]' L’expression régulière charset=\"?[^\",]+\"? permet de trouver l’encodage, puis nous nous débarrassons de « charset= » grâce au cut -f2 -d"=" , ainsi que des éventuels guillemets (simples et doubles) encadrant l’encodage et autre signes (barres obliques et balises) avec tr -d '("|\\|>)' | sed "s/'//g" | , et enfin nous passons le résultat en majuscules avec tr '[a-z]' '[A-Z]' .   Nous   avons ajouté à cette commande les inst