Blame view

tools/lia_ltbox/lia_ne_v2.2/README.txt 1.9 KB
f34231730   Jean-François Rey   add lia_ne + crf+...
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
  # LIA_NE v2.2
  # FRED 07/2010
  
  Alors, tout d'abord il faut les outils suivant (en plus de LIA_NE v2.2) :
  - lia_tagg (dispo sur ma page)
  - CRF++ (dispo a : http://crfpp.sourceforge.net/)
  (et le convertisseur de caractere 'iconv')
  
  Ensuite, il faut definir les variables d'environnement suivante (bien sur la ou les packages sont installes !!) :
  
  Par exemple en bash:
  
  export LIA_TAGG_LANG=french
  export LIA_TAGG=/home/tools/lia_tagg
  export LIA_NE=/home/tools/lia_ne_v2.2
  
  Apres avoir installe les outils lia_tagg et CRF++ (voir les fichiers README de chacun d'eux),
  il suffit d'aller dans le repertoire LIA_NE puis de lancer 'make all'
  Ca compile les sources et produits les fichiers de donnees necessaires.
  
  Et enfin, les scripts suivants permettent de traiter des fichiers de reco (CTM et STM) :
  
  script/lia_ne_tagg_ctm <file in ctm> <file out ctm-ne> [-post] [-nocap]
  script/lia_ne_tagg_stm <file in stm> <file out stm-ne> [-post] [-nocap]
  
  L'option -post permet d'appliquer les regles de postprocessing specifiques a ESTER.
  L'option -nocap permet de prendre en entree un texte sans majuscule.
  
  Par exemple :
  
  ./script/lia_ne_tagg_ctm 20071220_1900_1920_inter.ctm popo.ctm-ne -post -nocap
  
  On peut aussi tagger du texte simple, par exemple :
  
  echo "Je vais à Marseille voir l'Olympique de Marseille." | $LIA_NE/script/lia_ne_tagg_txt
  
  qui affichera :
  
  <s> Je vais à <LOC> Marseille </LOC> voir l' <ORG> Olympique de Marseille </ORG> . </s>
  
  ou encore : cat sample.txt | ./script/lia_ne_tagg_txt
  
  Attention, le post-processing ESTER n'est pas applique ici.
  
  ----------------------------------------------------------------
  ATTENTION !!!!
  L'ENCODAGE DES CARACTERES DANS TOUT TEXTE (OU CTM OU STM) DOIT IMPERATIVEMENT ETRE EN ISO-8859-1
  UTILISER LA COMMANDE 'iconv -t ISO-8859-1 -f UTF-8' SI VOUS VOULEZ TRAITER DU TEXTE EN UTF-8
  ----------------------------------------------------------------
   
   
  Frederic Bechet
  Frederic.Bechet@lif.univ-mrs.fr