Accéder au contenu principal

Articles

#Article 10 : Création du Site Web

Ce dixième et dernier article du blog aura pour objet la création de notre site web associé au projet. Nous avons choisi une mise en forme personnalisée, sur la base d'un modèle trouvé en ligne, et, ayant tous les trois quelques connaissances en HTML/CSS, nous avons ajouté et modifié nous-mêmes les pages dudit site. Il reprend certaines parties de ce blog: présentation de l'équipe, du projet. Nous y avons ajouté une section traitant des programmes utilisés tout au long de notre recherche, ainsi qu'une page dédiée aux données traitée. Par la suite, une section se consacre au script et à son écriture, une aux résultats obtenus, et enfin une à l'analyse de ces résultats. Contrairement à ce blog, le site contiendra plus de visuels et sera probablement un peu plus agréable dans sa navigation. Pour pouvoir travailler ensemble sur les fichiers, ceux-ci ont été partagés sur un drive commun. En effet, il serait autrement compliqué d'y avoir accès aisément depuis différentes
Articles récents

#Article 9 : L’analyse textométrique du corpus

L’article 7 de notre blog s’intitulait « Finalisation du script ». Cependant, il restait dans notre script quelques petites erreurs que nous avons dû corriger. Tout d’abord, il nous a fallu retirer l’aspiration du dump (avec lynx) de notre fonction. En effet, c’est le fichier dump qui doit être converti en UTF-8 dans le cas où l’encodage est autre : ce fichier doit donc être créé avant conversion, et c’est seulement après que les autres opérations (comprises dans la fonction) peuvent être effectuées. De plus, nous n’avions pas précisé de fichier de sortie pour le fichier converti, le texte converti en UTF-8 apparaissait donc dans la console mais n’était enregistré nulle part, ce qui rendait toute l’opération totalement inutile. Ces petites erreurs d’inattention ayant été corrigées, il nous restait encore à créer pour chaque langue un fichier concaténant l’ensemble des dumps en les séparant par des balises (qui servira pour l’analyse avec le logiciel de textométrie iTrameur,

#Article 8 : Le Traitement Du Japonais

Bien que l'aspiration des pages japonaises se soit déroulée sans l'ombre d'un problème d'encodage, dès lors que l'on s'attèle au traitement textuel, on se retrouve face à un obstacle non négligeable: l'absence d'espaces entre les mots. Fort heureusement, nous ne sommes pas les seuls linguistes à passer par là, et les sentiers sont battus depuis quelques années déjà! La solution réside dans l'emploi d'un analyseur-étiqueteur morphosyntaxique. Il en existe plusieurs, et après de chaotiques pérégrinations internautiques entre liens morts et problèmes de téléchargements, nous avons trouvé notre perle rare: Kytea! ... Eh non, problème d'installation avec le makefile. Nous nous tournons donc vers MeCab! ... Même problème. Le choix s'offre à nous: passer le restant de nos jours à triturer les rouages d'un Unix émulé sous Windows pour trouver l'éventuel fichier manquant, ou passer par une autre méthode. Le flemmard a toujours r

#Article 7 : Finalisation du script

Lors de notre dernier billet, nous avons cherché une manière d’obtenir les encodages de toutes les pages et de convertir en UTF-8 celles qui ne l’étaient pas déjà. Nous avons vu en cours une manière plus simple et efficace que celle que nous avions trouvée : egrep -io "charset=\"?[^\",]+\"?" ./PAGES-ASPIREES/$numerotableau-$compteur.html | cut -f2 -d"=" | tr -d '("|\\|>)' | sed "s/'//g" | tr '[a-z]' '[A-Z]' L’expression régulière charset=\"?[^\",]+\"? permet de trouver l’encodage, puis nous nous débarrassons de « charset= » grâce au cut -f2 -d"=" , ainsi que des éventuels guillemets (simples et doubles) encadrant l’encodage et autre signes (barres obliques et balises) avec tr -d '("|\\|>)' | sed "s/'//g" | , et enfin nous passons le résultat en majuscules avec tr '[a-z]' '[A-Z]' .   Nous   avons ajouté à cette commande les inst

#Article 6 : Les encodages

Nous avons, lors de notre précédent billet, expliqué comment nous avions conçu un script Bash nous permettant de construire un tableau donnant, pour chaque URL que nous avions aspirée, son code retour HTML, son encodage ainsi que des liens vers la page web correspondante et son code source. Nous avons lors du dernier cours amélioré ce tableau. D’une part, lorsque le code retour n’est pas « 200 », nous avons décidé de laisser vides les colonnes suivantes, puisque cela signifie que la page n’est de toutes façons pas exploitable. Pour cela nous avons utilisé la structure conditionnelle suivante : if [[ $coderetour == 200 ]] then                encodage=$(curl -SIL -o tmp.txt -w %{content_type} $ligne |cut -f2 -d"="|tr '[a-z]' '[A-Z]' | tr -d '\r' | tr -d "\"");                curl -L -o "./PAGES-ASPIREES/$numerotableau-$compteur.html" "$ligne";                echo "<tr><td>$compteur <

#Première étape du projet : Création du corpus

Rappel du mot d’étude : geek Rappel des langues étudiées : français, anglais, allemand, italien, japonais L’analyse linguistique que nous comptons réaliser concernant le mot geek sur le web se fonde sur un corpus que nous allons construire. Mais avant de s’intéresser à la partie informatique du problème, il convient d’établir les limites et la nature de ce fameux corpus multilingue.  Réflexion sur le corpus : Premièrement, nous souhaitons que les urls sélectionnées aient été créées au cours des cinq dernières années. La raison de ce choix se base sur le fait que nous souhaitons réaliser une étude synchronique du mot geek et non pas diachronique. Nous pensons qu’une période de cinq ans représente une durée suffisamment longue pour avoir de nombreuses données, tout en limitant les risques de biais que représentent les stéréotypes qui circulaient sur les geeks par le passé tels que “les geeks sont des personnes asociales qui restent enfermées toute la jo