run_ne_tagg.csh 1.49 KB
#!/bin/csh -f

# args : $1=file generic  $2=minu/capi

set FILE = $1

if ( $2 == "minu" ) then
 cat $FILE.word.txt | $LIA_NE/script/utf82iso8859 | sed 's/-/_/g' |  sed "s/'_/'/g" |\
       $LIA_NE/bin/decapital | \
       $LIA_TAGG/bin/lia_quicktagg \
                -lextag $LIA_NE/biglex_ne/ester_train_biglex_ne.arpa.sirlex \
                -morpho NULL \
                -lexgraf $LIA_NE/biglex_ne/biglex_ne.minu.sirlex \
                -pmc $LIA_NE/biglex_ne/biglex_ne.minu \
                -ml $LIA_NE/biglex_ne/ester_train_biglex_ne.arpa | \
	$LIA_NE/bin/fmt4crf | \
        crf_test -m $LIA_NE/crf_data/model_ne.minu | \
        $LIA_NE/bin/tagg2text |\
        $LIA_NE/bin/rewrite_token_ne > $FILE.word.ne
else
 cat $FILE.word.txt | $LIA_NE/script/utf82iso8859 | sed 's/-/_/g' |  sed "s/'_/'/g" |\
       $LIA_TAGG/bin/lia_quicktagg \
                -lextag $LIA_NE/biglex_ne/ester_train_biglex_ne.arpa.sirlex \
                -morpho NULL \
                -lexgraf $LIA_NE/biglex_ne/biglex_ne.sirlex \
                -pmc $LIA_NE/biglex_ne/biglex_ne \
                -ml $LIA_NE/biglex_ne/ester_train_biglex_ne.arpa | \
	$LIA_NE/bin/fmt4crf | \
        crf_test -m $LIA_NE/crf_data/model_ne | \
        $LIA_NE/bin/tagg2text |\
        $LIA_NE/bin/rewrite_token_ne > $FILE.word.ne
endif
cat $FILE.id.txt | grep -v '<s>' | grep -v '</s>' > $FILE.id.txt2
cat $FILE.word.ne | grep -v '<s>' | grep -v '</s>' > $FILE.word.ne2
paste $FILE.id.txt2 $FILE.word.ne2 | grep -v '<s>' | grep -v '</s>' > $FILE.id_word.ne