b0VIM 7.2Jpierrelrc9-pigo/labo/Tools/lia_ltbox/exemple/recette2.csh 3210#"! UtpJNKad IJKwu m  D A i g L ;  d t K J  C&.sX%g`<:BxIHecho 'multisupport' >> mon_nouveau_lexique.lstecho 'checklist' >> mon_nouveau_lexique.lstecho 'polyglotte' >> mon_nouveau_lexique.lstcp lex_20k.lst mon_nouveau_lexique.lstecho 'Ajout de mots a lex_20k.lst et creation de mon_nouveau_lexique.lst'# regles 'correction.rules', il faut faire les choses suivantes:# 'multisupport' et 'FTSE' a notre lexique de base, puis le corriger avec les# Dans notre exemple, imaginons que nous voulions rajouter les termes 'polyglotte', 'checklist'## cas la, rien a faire ....# 3) le mepris : ce mot est inconnu et il le restera, tant pis pour lui, il n'y a dans ce# Il faut donc modifier 'correction.rules' pour le faire correspondre a ses desirs.# car la forme accentuee 'États_Unis' est dans le lexique de base.# le fichier 'correction.rules' contient la ligne: Etats_Unis # États_Unis# Par exemple, pour corriger la forme inconnue 'Etats_Unis' presente 1121 fois dans 'data.clean',# moment il suffit d'editer le code C ....# joker sont permis dans ces reecriture, ils seront documentes dans une autre vie, pour le# le deuxieme champs est le mot ou groupe de mots apres correction. Quelques symboles# separe par un '#'. Le premier champs et le mot ou le groupe de mots a corriger,# donne en exemple : 'correction.rules'. Chaque ligne de ce fichier contient 2 champs# a la possibilite de le corriger dans le corpus en editant le fichier de correction# 2) c'est une erreur (de formatage, de frappe, de ce qu'on veut), a ce moment la on # 1) on le veut, on s'en veut de l'avoir oublie, on l'ajoute au lexique en cours# Il y a trois attitudes possibles face a un mot hors vocabulaire :# dans le corpus nettoye.# Ce fichier contient la liste des mots hors-vocabulaire, tries par frequence, trouves# Il faut ensuite editer le fichier : 'report.oov'echo ' -> done'$LIA_TAGG/bin/stat_corpus lex_20k.lst report < data.cleanecho 'Production du rapport de couverture'# Pour cela on effectue la commande :# Ensuite on produit un "rapport" sur la couverture de cette liste sur le corpus nettoye.# mais on peut partir de n'importe quelle liste de mots.# On peut partir du petit lexique d'environ 27K mots donne en exemple : lex_20k.lst# 2) Deuxieme etape : la constitution du lexiqueecho ' -> done' $LIA_TAGG/bin/lia_rm_ponct > data.clean csh $LIA_BIGLEX/script/lia_clean_corpus $LIA_BIGLEX/biglex |\ csh $LIA_BIGLEX/script/lia_clean.biglex |\cat data.raw | \echo 'Nettoyage du corpus'## enfin on enleve toutes les ponctuations avec 'lia_rm_ponct'# puis on passe aux choses serieuses avec 'lia_clean_corpus'# premier passage en douceur, on se contente de couper en phrase avec 'lia_clean.biglex',# # Tout d'abord nettoyage dit "au karcher" du corpus de base (c'est a dire tres violent et sans etat d'ame ..)# 1) Premiere etape : le nettoyage## Par exemple le corpus 'data.raw'.# propre, mais quand meme ne contenant que du texte (les balises et autres joyeusetes ont ete enlevees).# Le prealable a ce traitement est de disposer d'un corpus brut 'raw' c'est a dire pas forcement tres## langage data.sort.arpa et un lexique phonetise data.phon.speeral# Voici un petit exemple, ou l'on part du corpus data.raw pour aller vers un modele de## FRED 1205## RECETTE POUR OBTENIR UN MODELE DE LANGAGE ET UN LEXIQUE PHONETISE AVEC LES OUTILS LIA#setenv LIA_BIGLEX=/labo/Tools/lia_ltbox/lia_biglex/ setenv SRILM_BIN=/labo/Tools/SRI-LM-1.4.2/bin/i686setenv LIA_PHON_REP=/labo/Tools/lia_ltbox/lia_phon/setenv LIA_TAGG=/labo/Tools/lia_ltbox/lia_tagg/setenv LIA_TAGG_LANG=frenchsetenv LIA_PHON_REP /usr/tools/lia_phon#!/bin/cshadX DC/ ## Voir Pascal Nocera pour plus de details.# moulinette SPEERAL qui compile tout ca en binaire pour pouvoir etre utiliser par le moteur.# Et voila, bravo, c'est fini !! avec le fichier '.sort.arpa' et '.phon.speeral', on peut utiliser la##echo ' -> done' #sort -u | $LIA_TAGG/bin/add_code_to_lex_phon > mon_nouveau_lexique.phon.speeral#cat mon_nouveau_lexique.1.phon.fmt mon_nouveau_lexique.2.phon.fmt | \# rajouter des IDs pour pouvoir etre utilise par SPEERAL. Cela se fait par la commande :# Enfin il ne reste plus qu'a concatener les deux parties de lexique phonetise et de leur#