Exercice sur la segmentation du coréen (2)

Bonjour Le professeur m’a conseillé d’une autre façon de récupérer la fréquence du motif. L’exemple de la commande suggérée est le suivant :egrep -o « \w+ » 1-1-utf8-segment.txt | LANG=ko_KR.utf-8 sort | LANG=ko_KR.utf-8 uniq -c | LANG=ko_KR.utf-8 sort -r > index.txt Ici, on spécifie la langue qui est en question en faisant le tri et le filtrage,Lire la suite « Exercice sur la segmentation du coréen (2) »

Exercices sur la segmentation du coréen

Comme le coréen est une langue à cas, seul l’espace ou des caractères spéciaux ne permettent pas à la langue de délimiter les mots, contrairement au français. Par exemple, en français, les mots sont séparés par un espace ou un caractère spécial. Dans une phrase « C’est un article de Lila KIM », on dirait avoir 7Lire la suite « Exercices sur la segmentation du coréen »

Exercices de séance 8 (2)

Une fois que j’ai résolu tous mes problèmes concernant l’encodage, je peux maintenant procéder à écrire l’instruction ‘else’ (si l’encodage n’est pas utf8). Je fais d’abord le dump texte avec l’encodage trouvé, jusque-là, c’est de la même façon que pour l’encodage UTF-8. Ensuite, je fais une liste des encodages que ‘iconv’ est capable de reconnaître.Lire la suite « Exercices de séance 8 (2) »

Exercices de séance 8

Comme je rencontre beaucoup de difficultés pour récupérer l’encodage d’un url (parce que l’encodage récupéré à l’aide de ‘curl’ ne correspond pas à l’encodage réel de la page), je vais me mettre à exécuter la commende sur un des urls qui ont ces problèmes au lieu d’exécuter tout le script. Dans la première commande, j’aiLire la suite « Exercices de séance 8 »

Exercices de séance 6

Avant de commencer à faire des exercices, je vais énumérer les problèmes que j’ai rencontrés lors de l’élaboration du programme. Le premier problème rencontré est sur une page dont le code d’http est 200. Quand je demande à la machine d’aspirer la page, et de faire le dump texte, il y a une erreur quiLire la suite « Exercices de séance 6 »

Exercice de séance 4

Avant de créer un tableau avec le programme écrit en bash, nous devions récupérer les urls en langues en question. Nous avons alors repérer des articles de presse de différents pays : la France, la Chine, la Corée, et les États-Unis. La méthode de recherche est de chercher le motif dans le moteur de recherche.Lire la suite « Exercice de séance 4 »

Exercice de séance 1

Voici les exercices expérimentés que nous allons exemplifier : La commande « ls » nous permets de voir la liste des répertoires et des fichiers existant dans le répertoire courant.La commande « mkdir » permet de créer un nouveau répertoire dans le répertoire courant, celle-ci peut avoir plusieurs arguments.Avant d’exécuter la commande « mkdir », nous n’avions rien dans le répertoireLire la suite « Exercice de séance 1 »

BIENVENUE

Bonjour ! Nous sommes étudiantes en master 1 de Traitement Automatique des Langues, Maude Antoine, Chenjing Zhang et Lila KIM. Dans le cours intitulé « Projet encadré », ce blog a été créé dans le but de présenter les démarches et les difficultés confondues durant l’élaboration du projet. Nous envisageons travailler sur le champs lexical du termeLire la suite « BIENVENUE »

Concevoir un site comme celui-ci avec WordPress.com
Commencer