Projet Encadré 2019-2020

Bienvenue

À la Une

BIENVENUE

30 septembre 2019 par Lila KIM

Bonjour ! Nous sommes étudiantes en master 1 de Traitement Automatique des Langues, Maude Antoine, Chenjing Zhang et Lila KIM. Dans le cours intitulé « Projet encadré », ce blog a été créé dans le but de présenter les démarches et les difficultés confondues durant l’élaboration du projet. Nous envisageons travailler sur le champs lexical du terme… Lire la suite
Exercice sur la segmentation du coréen (2)

11 décembre 2019 par Lila KIM

Bonjour Le professeur m’a conseillé d’une autre façon de récupérer la fréquence du motif. L’exemple de la commande suggérée est le suivant :egrep -o « \w+ » 1-1-utf8-segment.txt | LANG=ko_KR.utf-8 sort | LANG=ko_KR.utf-8 uniq -c | LANG=ko_KR.utf-8 sort -r > index.txt Ici, on spécifie la langue qui est en question en faisant le tri et le filtrage,… Lire la suite
Exercices sur la segmentation du coréen

2 décembre 2019 par Lila KIM

Comme le coréen est une langue à cas, seul l’espace ou des caractères spéciaux ne permettent pas à la langue de délimiter les mots, contrairement au français. Par exemple, en français, les mots sont séparés par un espace ou un caractère spécial. Dans une phrase « C’est un article de Lila KIM », on dirait avoir 7… Lire la suite