L’article 7 de notre blog s’intitulait « Finalisation du script ».
Cependant, il restait dans notre script quelques petites erreurs que nous avons
dû corriger.
Tout d’abord, il nous a fallu
retirer l’aspiration du dump (avec lynx) de notre fonction. En effet, c’est le
fichier dump qui doit être converti en UTF-8 dans le cas où l’encodage est
autre : ce fichier doit donc être créé avant conversion, et c’est seulement
après que les autres opérations (comprises dans la fonction) peuvent être
effectuées.
De plus, nous n’avions pas
précisé de fichier de sortie pour le fichier converti, le texte converti en
UTF-8 apparaissait donc dans la console mais n’était enregistré nulle part, ce
qui rendait toute l’opération totalement
inutile.
Ces petites
erreurs d’inattention ayant été corrigées, il nous restait encore à créer pour
chaque langue un fichier concaténant l’ensemble des dumps en les séparant par
des balises (qui servira pour l’analyse avec le logiciel de textométrie
iTrameur, dont nous parlerons plus loin) ainsi qu’un fichier concaténant l’ensemble
des contextes (qui servira pour créer des nuages de mots).
Nous avons créé un nouveau
dossier « CONCAT » dans le répertoire du projet et ajouté les lignes suivantes à la fin de notre
fonction :
Nous avons pensé qu’il serait
intéressant de créer un index de mots pour chacun de ces deux fichiers. Et
enfin, nous avons voulu ajouter tous ces fichiers à la dernière ligne de chaque
tableau. Nous avons donc ajouté les lignes suivantes à la fin de la création du
tableau (juste avant l’incrémentation de ce dernier) :
Le script est cette fois bel et
bien terminé !
Il est temps d’utiliser
nos fichiers « contexte global » pour créer des nuages de mots.
Il existe de nombreux sites
permettant de créer des nuages de mots. Nous avons choisi https://www.nuagesdemots.fr/ qui nous a
permis de créer un nuage de mots en forme de Pacman, ce qui correspond plutôt
bien au thème de notre projet.
Nous avons importé notre fichier,
à partir duquel le site crée automatiquement un glossaire et génère ainsi le
nuage de mots correspondant : plus la fréquence d’un mot est élevée dans
notre fichier, plus sa taille est grande dans le nuage.
Le principal problème à régler
est l’apparition de mots « vides » (qui ne portent pas d’information
sémantique) comme les déterminants et les prépositions, et de mots peu
spécifiques (c’est-à-dire des mots fréquents dans la langue en général et pas
particuliers à notre corpus). Ces mots apparaissaient en gros dans nos nuages
alors qu’ils n’apportent pas d’informations intéressantes pour notre recherche.
Il est assez facile de remédier à
ce problème, car le site permet de retravailler le glossaire à la main :
il nous suffit donc tout simplement de supprimer ces mots du glossaire et de
relancer la génération du nuage de mots.
Voici un exemple avec l’allemand :
Les nuages de mots nous apportent
des premières informations, de façon très visuelle, sur les mots fréquemment
utilisés dans le voisinage du terme « geek ». Cependant, il nous faut
compléter ces informations grâce à un logiciel de textométrie appelé iTrameur.
Il
s’agit d’un logiciel en ligne sur lequel il nous suffit de charger un de nos
fichiers « dump global » afin d’accéder à de nombreuses informations
comme les concordances d’un mot (les mots qui le suivent et le précèdent) ou
ses cooccurrents (les mots fréquemment utilisés avec lui). Ces informations
nous sont données sous forme de tableaux ou de graphiques et nous pouvons
effectuer des réglages en fonction de la fréquence ou de l’indice de
spécificité des mots que nous souhaitons voir apparaître dans nos résultats. Nous
pouvons générer un graphique mettant en évidence les différents réseaux de
cooccurrences qui se dégagent de nos textes, ce qui peut être très intéressant
à étudier.
Nous
n’en dirons pas plus ici, puisque les résultats détaillés de nos analyses
seront bientôt visibles sur notre site internet !
Commentaires
Enregistrer un commentaire