Exercice sur la segmentation du coréen (2)

Bonjour

Le professeur m’a conseillé d’une autre façon de récupérer la fréquence du motif. L’exemple de la commande suggérée est le suivant :
egrep -o « \w+ » 1-1-utf8-segment.txt | LANG=ko_KR.utf-8 sort | LANG=ko_KR.utf-8 uniq -c | LANG=ko_KR.utf-8 sort -r > index.txt

Ici, on spécifie la langue qui est en question en faisant le tri et le filtrage, et on utilise l’expression « \w+ » car elle permet aussi de détecter les caractères de mots du coréen dans l’éditeur du texte.

Malheureusement, cette commande ne me donne pas de bon résultat dans mon environnement de travail tandis que dans celui du professeur, elle marchait très bien. Je vous mets son résultat ! Il est dommage que l’on ne puisse trouver de raisons pour lesquelles cette commande ne marche pas sur ma machine.

J’ai donc décidé de garder mon script comme tel. Et le problème pour avoir le nombre d’occurrences du motif était lié au script. J’avais oublié de mettre une ligne au début : motif=$3; 😅 C’était alors normal que le comptage du motif ne fonctionne pas. Je l’ai alors inséré dans le programme et il m’a donné le résultat que j’attendais à obtenir.

Le premier article ne contient aucun motif car dans le texte, nous avons « 환경__보호 »(2 espaces) au lieu de « 환경_보호 »(1 espace).
C’est dû à la manipulation des données. J’ai remplacé le retour à la ligne par un espace pour faire un texte segmenté.

De plus, en regardant et lisant le texte segmenté, je me suis rendu compte que les textes étaient « abusés » de segmentation qui résultent de différents problèmes dans des résultats.😭

Par exemple, pour récupérer les contextes, je n’ai qu’une seule ligne parce que j’ai rassemblé toutes les lignes dans une ligne… Dans un premier temps, j’ai essayé de réorganiser l’ordre des commandes dans le script.

Contexte ayant un problème
Script modifié
Résultat avec le script modifié

Je cherche les motifs dans un fichier non segmenté et crée un fichier contexte. Avec celui-ci, on construit des contextes en html avec le programme perl. En suite, on segmente et cherche la fréquence du motif dans le fichier. Ainsi, on a un résultat qui a l’air bon :)….

Il me reste alors à résoudre le problème cité au dessus avec deux espaces, un problème pour les urls d’anglais, et éventuellement un problème avec le bigramme……. 😤🤔
Peut-être je créerai un autre script de programme pour les urls d’anglais..

J’ai une question sur l’itrameur et le nuage de mots. Il me semble que ces outils ne comprennent (?) pas de caractères coréens.. Pour l’itrameur il n’arrête pas à calculer et le nuage de mots donne des choses non compréhensibles ou des mots en anglais… Voici les exemples ! :

Et une autre question : il est normal qu’on ne voie pas une grande différence entre l’index et le bigramme ? Si je ne me trompe pas, le bigramme donnerait trois colonnes, dont deux sont des mots avec le nombre d’occurrence. Mais dans mes fichiers de bigramme, parfois on a deux mots qui sont ensemble, et la plupart se présente avec un seul mot (c’est surtout le cas du coréen..).

Partager :

Articles similaires

Laisser un commentaire Annuler la réponse.