Accéder au contenu principal

#Article1 Présentation rapide du blog

Bienvenue dans le blog consacré à notre projet sur le(s) sens du mot « geek » en français, anglais, allemand, italien et japonais. Ce blog sera notre journal de bord et vous permettra de suivre en direct nos questionnements, nos problèmes et nos réussites dans le cadre de ce projet, effectué pour le cours de Master TAL « Programmation et projet encadré ».

Commentaires

Posts les plus consultés de ce blog

#Article 4 Quelques exercices : commandes Ubuntu

Exercices de la page 9 du pdf cours-unix-td Grâce à la commande mkdir, je crée trois nouveaux répertoires dans un dossier :TEST1, TEST2, TEST 3. Petite particularité du dernier répertoire: il contient un espace. Pour que le logiciel n’interprète pas mon instruction comme une demande de création d’un répertoire « TEST » et d’un répertoire « 3 », il est nécessaire de délimiter le nom du fichier par des guillemets. Avec la commande ls je peux vérifier l’action de ma commande précédente, « ls -t » affichant le contenu du répertoire courant trié par date de modification. J’entre ensuite dans le répertoire TEST1 grâce à la commande cd, puis je crée trois fichiers vides avec la commande touch. Avec une même ligne de commande je peux créer les trois fichiers en même temps. Ainsi j’écris « touch » suivi du nom du premier fichier (qui sera donc créé dans le répertoire courant TEST1), puis du nom du second fichier accompagné de son emplacement (. désigne le répertoire courant : ce second fichier ...

#Première étape du projet : Création du corpus

Rappel du mot d’étude : geek Rappel des langues étudiées : français, anglais, allemand, italien, japonais L’analyse linguistique que nous comptons réaliser concernant le mot geek sur le web se fonde sur un corpus que nous allons construire. Mais avant de s’intéresser à la partie informatique du problème, il convient d’établir les limites et la nature de ce fameux corpus multilingue.  Réflexion sur le corpus : Premièrement, nous souhaitons que les urls sélectionnées aient été créées au cours des cinq dernières années. La raison de ce choix se base sur le fait que nous souhaitons réaliser une étude synchronique du mot geek et non pas diachronique. Nous pensons qu’une période de cinq ans représente une durée suffisamment longue pour avoir de nombreuses données, tout en limitant les risques de biais que représentent les stéréotypes qui circulaient sur les geeks par le passé tels que “les geeks sont des personnes asociales qui restent enfermées toute l...

#Article 7 : Finalisation du script

Lors de notre dernier billet, nous avons cherché une manière d’obtenir les encodages de toutes les pages et de convertir en UTF-8 celles qui ne l’étaient pas déjà. Nous avons vu en cours une manière plus simple et efficace que celle que nous avions trouvée : egrep -io "charset=\"?[^\",]+\"?" ./PAGES-ASPIREES/$numerotableau-$compteur.html | cut -f2 -d"=" | tr -d '("|\\|>)' | sed "s/'//g" | tr '[a-z]' '[A-Z]' L’expression régulière charset=\"?[^\",]+\"? permet de trouver l’encodage, puis nous nous débarrassons de « charset= » grâce au cut -f2 -d"=" , ainsi que des éventuels guillemets (simples et doubles) encadrant l’encodage et autre signes (barres obliques et balises) avec tr -d '("|\\|>)' | sed "s/'//g" | , et enfin nous passons le résultat en majuscules avec tr '[a-z]' '[A-Z]' .   Nous   avons ajouté à cette commande les inst...