Bienvenue
à notre champ lexical
de la protection environnementale !
-
À la Une
BIENVENUE
Bonjour ! Nous sommes étudiantes en master 1 de Traitement Automatique des Langues, Maude Antoine, Chenjing Zhang et Lila KIM. Dans le cours intitulé « Projet encadré », ce blog a été créé dans le but de présenter les démarches et les difficultés confondues durant l’élaboration du projet. Nous envisageons travailler sur le champs lexical du terme… Lire la suite
-
Exercice sur la segmentation du coréen (2)
Bonjour Le professeur m’a conseillé d’une autre façon de récupérer la fréquence du motif. L’exemple de la commande suggérée est le suivant :egrep -o « \w+ » 1-1-utf8-segment.txt | LANG=ko_KR.utf-8 sort | LANG=ko_KR.utf-8 uniq -c | LANG=ko_KR.utf-8 sort -r > index.txt Ici, on spécifie la langue qui est en question en faisant le tri et le filtrage,… Lire la suite
-
Exercices sur la segmentation du coréen
Comme le coréen est une langue à cas, seul l’espace ou des caractères spéciaux ne permettent pas à la langue de délimiter les mots, contrairement au français. Par exemple, en français, les mots sont séparés par un espace ou un caractère spécial. Dans une phrase « C’est un article de Lila KIM », on dirait avoir 7… Lire la suite