Jean-François Rey / otmedia

Commit a564ec1e5b7fd3ebbd26ff5be90d9dc021367622

Authored by Jean-François Rey 2013-08-29 14:53:41 +0200

Exists in master

bugfix

update SIGMUND source and bin to take file in argument
update script to request SOLR

Showing 15 changed files with 174 additions and 173 deletions Inline Diff

main_tools/ExploitConfidencePass.sh
main_tools/OneScriptToRuleThemAll.sh
tools/SIGMUND/LIA_topic_seg/bin/Test.class
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/Boundaries.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultBoundaries.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultConfig.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultGapsScores.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultInputData.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultLexicalChainList.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/GapsScores.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/LemmaDict.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/LexicalChainList.java
tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/Sentence.java
tools/SIGMUND/LIA_topic_seg/src/Test.java
tools/scripts/ProcessSOLRQueries.py

main_tools/ExploitConfidencePass.sh

Diff comments View file @ a564ec1

 #!/bin/bash
 #####################################################
 # File :    ExploitConfidencePass.sh                #
 # Brief :   Exploit the ASR confidence pass to :    #
 #           -> boost the confident zone             #
 #           -> find alternative in non confident zone
 #           -> dynamicly extend the lexicon         #
 # Author :  Jean-François Rey                       #
 #	        (base on Emmanuel Ferreira              #
 #	        and Hugo Mauchrétien works)             #
 # Version : 1.0                                     #
 # Date :    25/06/13                                #
 #####################################################
 echo "### ExploitConfidencePass.sh ###"
 # Check OTMEDIA_HOME env var
 if [ -z ${OTMEDIA_HOME} ]
 then
     OTMEDIA_HOME=$(dirname $(dirname $(readlink -e $0)))
     export OTMEDIA_HOME=$OTMEDIA_HOME
 fi
 # where is ExploitConfidencePass.sh
 MAIN_SCRIPT_PATH=$(dirname $(readlink -e $0))
 if [ -z ${SCRIPT_PATH} ]
 then
     SCRIPT_PATH=$OTMEDIA_HOME/tools/scripts
 fi
 # Include scripts
 . $SCRIPT_PATH"/Tools.sh"
 . $SCRIPT_PATH"/CheckExploitConfPass.sh"
 # where is ExploitConfidencePass.cfg
 EXPLOITCONFIDENCEPASS_CONFIG_FILE=$OTMEDIA_HOME"/cfg/ExploitConfidencePass.cfg"
 if [ -e $EXPLOITCONFIDENCEPASS_CONFIG_FILE ]
 then
 	. $EXPLOITCONFIDENCEPASS_CONFIG_FILE
 else
 	echo "ERROR : Can't find configuration file $EXPLOITCONFIDENCEPASS_CONFIG_FILE" >&2
 	exit 1
 fi
 #---------------#
 # Parse Options #
 #---------------#
 while getopts ":hDv:cr" opt
 do
 	case $opt in
 		h)
 			echo -e "$0 [OPTIONS] <INPUT_DIRECTORY>\n"
             echo -e "\t Options:"
             echo -e "\t\t-h :\tprint this message"
             echo -e "\t\t-D :\tDEBUG mode on"
             echo -e "\t\t-v l :\tVerbose mode, l=(1|2|3) level mode"
             echo -e "\t\t-c :\tCheck process, stop if error detected"
             echo -e "\t\t-r n :\tforce rerun without deleting files"
 			exit 1
 			;;
 		D)
 			DEBUG=1
 			;;
         v)
             VERBOSE=$OPTARG
             ;;
         c)
             CHECK=1
             ;;
         r)
             RERUN=1
             ;;
 		:)
 			echo "Option -$OPTARG requires an argument." >&2
 			exit 1
 			;;
 		\?)
 			echo "BAD USAGE : unknow opton -$OPTARG"
 			#exit 1
 			;;
 	esac
 done
 # mode debug enable
 if [ $DEBUG -eq 1 ]
 then
        set -x
        echo -e "## Mode DEBUG ON ##"
 fi
 # mode verbose enable
 if [ $VERBOSE -gt 0 ]; then echo -e "## Verbose level : $VERBOSE ##" ;fi
 # Check USAGE by arguments number
 if [ $(($#-($OPTIND-1))) -ne 1 ]
 then
 	echo "BAD USAGE : ExploitConfidencePass.sh [OPTIONS] <INPUT_DIRECTORY>"
 	echo "$0 -h for more info"
 	exit 1
 fi
 shift $((OPTIND-1))
 # check input directory - first argument
 if [ ! -e $1 ]
 then
     print_error "can't open $1"
     exit 1
 fi
 print_info "[${BASENAME}] => ExploitConfPass start | $(date +'%d/%m/%y %H:%M:%S')" 1
 #-------------#
 # GLOBAL VARS #
 #-------------#
 INPUT_DIR=$(readlink -e $1)
 OUTPUT_DIR=$INPUT_DIR
 BASENAME=$(basename $OUTPUT_DIR)
 SHOW_DIR="$OUTPUT_DIR/shows/"
 SOLR_RES="$OUTPUT_DIR/solr/"
 EXT_LEX="$OUTPUT_DIR/LEX/"
 TRIGGER_CONFZONE="$OUTPUT_DIR/trigg/"
 LOGFILE="$OUTPUT_DIR/info_exploitconf.log"
 ERRORFILE="$OUTPUT_DIR/error_exploitconf.log"
 CONFPASS_CONFIG_FILE="$(readlink -e $1)/ConfPass.cfg"
 if [ -e $CONFPASS_CONFIG_FILE ]
 then
 {
     RES_CONF_DIR=$(cat $CONFPASS_CONFIG_FILE | grep "^RES_CONF_DIR=" | cut -f2 -d"=")
     RES_CONF=$(cat $CONFPASS_CONFIG_FILE | grep "^CONF_DIR=" | cut -f2 -d"=")
     print_info "[${BASENAME}] Use confidence measure from : $RES_CONF" 2
 }
 else
 {
     print_error "[${BASENAME}] Can't find $CONFPASS_CONFIG_FILE"
     print_error "[${BASENAME}] -> use res_p2"
     RES_CONF_DIR="$INPUT_DIR/conf/res_p2/scored_ctm"
     RES_CONF="$INPUT_DIR/conf/res_p2"
 }
 fi
 mkdir -p $SHOW_DIR > /dev/null 2>&1
 mkdir -p $SOLR_RES > /dev/null 2>&1
 mkdir -p $EXT_LEX > /dev/null 2>&1
 mkdir -p $TRIGGER_CONFZONE > /dev/null 2>&1
 #------------------#
 # Create Workspace #
 #------------------#
 # Lock directory
 if [ -e "$OUTPUT_DIR_BASENAME/EXPLOITCONFPASS.lock" ] && [ $RERUN -eq 0 ]
 then
     print_warn "[${BASENAME}] ExploitConfidencePass is locked -> exit" 2
     exit 1
 fi
 rm "$OUTPUT_DIR/EXPLOITCONFPASS.unlock" > /dev/null 2>&1
 touch "$OUTPUT_DIR/EXPLOITCONFPASS.lock" > /dev/null 2>&1
 rm $LOGFILE $ERRORFILE 2>/dev/null
 #------#
 # Save #
 #------#
 cp $EXPLOITCONFIDENCEPASS_CONFIG_FILE $OUTPUT_DIR/ExploitConfPass.cfg
 echo "TRIGGER_DIR=$TRIGGER_CONFZONE" >> $OUTPUT_DIR/ExploitConfPass.cfg
 echo "TRIGGER_SPEERAL=$TRIGGER_CONFZONE/speeral/" >> $OUTPUT_DIR/ExploitConfPass.cfg
 echo "LEX_SPEERAL=$EXT_LEX/speeral/${lexname}_ext" >> $OUTPUT_DIR/ExploitConfPass.cfg
 echo "LEX_BINODE_SPEERAL=$EXT_LEX/speeral/${lexname}_ext.bin" >> $OUTPUT_DIR/ExploitConfPass.cfg
 print_info "[${BASENAME}] Save config in $OUTPUT_DIR_BASENAME/ExploitConfPass.cfg" 1
 #---------------#
 # Check Pass    #
 #---------------#
 if [ $( ls ${RES_CONF_DIR}/*.res 2> /dev/null | wc -l) -eq 0 ]
 then
     print_error "[${BASENAME}] No Conf Pass res -> exit ExploitConfPass"
     if [ $CHECK -eq 1 ]; then print_log_file $ERRORFILE "No ConfPass res in ${RES_CONF_DIR}" ;fi
     exit 1
 fi
 #-----------------------#
 # Segmentation by show  #
 #-----------------------#
 # create txt file from scored res
 # tag pos and lemmatization of the txt file
 # merge the scored res and taglem file
 # segment using the last generated file
 # and create a ctm file by show
 print_info "[${BASENAME}] Segmentation by show" 1
 # -> to txt
 print_info "[${BASENAME}] Create txt from scored res" 3
 cat ${RES_CONF_DIR}/*.res > $INPUT_DIR/$BASENAME.sctm
 cat $INPUT_DIR/$BASENAME.seg | $SIGMUND_BIN/myConvert.pl $INPUT_DIR/$BASENAME.sctm $INPUT_DIR/$BASENAME.tmp
 cat $INPUT_DIR/$BASENAME.tmp | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -f | sed -e "s/_/ /g" | sort -nt 'n' -k '2' > $INPUT_DIR/$BASENAME.txt
 # -> to tagger + lemme
 print_info "[${BASENAME}] Tag pos and lem in txt file" 3
 iconv -t ISO_8859-1 $INPUT_DIR/$BASENAME.txt > $INPUT_DIR/$BASENAME.tmp
 $SIGMUND_BIN/txt2lem.sh $INPUT_DIR/$BASENAME.tmp $INPUT_DIR/$BASENAME.taglem
 # merge sctm and taglem
 print_info "[${BASENAME}] Merge scored ctm with tag pos and lem file" 3
 cat $INPUT_DIR/$BASENAME.sctm | $SCRIPT_PATH/BdlexUC.pl ${RULES}/basic -f | iconv -t ISO_8859-1 | $SCRIPT_PATH/scoredCtmAndTaggedLem2All.pl $INPUT_DIR/$BASENAME.taglem > $INPUT_DIR/$BASENAME.ctl
 # -> new seg
 print_info "[${BASENAME}] Create xml file and run Topic Seg" 3
 $SIGMUND_BIN/tagLem2xml.pl $INPUT_DIR/$BASENAME.taglem $INPUT_DIR/$BASENAME.doc.xml
 rm $INPUT_DIR/$BASENAME.tmp #$INPUT_DIR/$BASENAME.taglem
 # Lia_topic_seg : bring together sentences into show
-cp $INPUT_DIR/$BASENAME.doc.xml 0.xml
+java -cp $LIATOPICSEG/bin Test $INPUT_DIR/$BASENAME.doc.xml > $INPUT_DIR/show.seg
-java -cp $LIATOPICSEG/bin Test > $INPUT_DIR/show.seg
 cat $INPUT_DIR/show.seg | $SIGMUND_BIN/toSegEmiss.pl $INPUT_DIR/$BASENAME.show.seg
-rm 0.xml $INPUT_DIR/show.seg
 if [ $CHECK -eq 1 ]
 then
     if [ ! -s $INPUT_DIR/$BASENAME.show.seg ]
     then
         print_error "[${BASENAME}] No Topic segmentation ! "
         print_error "[${BASENAME}] Check $ERRORFILE "
         print_log_file "$ERRORFILE" "No Topic segmentation in ${BASENAME}.show.seg"
     fi
 fi
 # Segment ctm into several show files and create a seg list by show
 print_info "[${BASENAME}] Segment ctm into show files and a seg list by show" 1
 $SCRIPT_PATH/ctm2show.pl $INPUT_DIR/$BASENAME.ctl $INPUT_DIR/$BASENAME.show.seg $SHOW_DIR
 #-----------------------------------------------------------#
 # SOLR QUERIES                                              #
 # -> Create Confidente Word                                 #
 #   Keep conf words and use Tags                            #
 # -> Query SOLR (document & multimedia)                     #
 #   concat word + add date 2 day before and after the show  #
 #   query document & multimedia                             #
 #-----------------------------------------------------------#
 print_info "[${BASENAME}] Create SOLR queries and ask SOLR" 1
 for show in $(ls $SHOW_DIR/*.ctm)
 do
     bn=$(basename $show .ctm)
     # Remove words with low confidence and keep useful tagger words
     cat $show | $SCRIPT_PATH/KeepConfZone.pl | grep -e "MOTINC\|NMS\|NMP\|NFS\|NFP\|X[A-Z]{3,5}" | cut -f3 -d' ' > "$SHOW_DIR/$bn.confzone"
     # Get date 2 day before and after the show
     datePattern=`$SCRIPT_PATH/daybefore2after.sh $(echo $BASENAME | cut -c1-6)`
     # Create SOLR queries
     cat $SHOW_DIR/$bn".confzone" | $SCRIPT_PATH/GenerateSOLRQueries.pl | iconv -f ISO_8859-1 -t UTF-8 > "$SHOW_DIR/$bn.queries"
     # Ask SOLR DB
     if [ $(wc -w "$SHOW_DIR/$bn.queries" | cut -f1 -d' ') -gt 0 ]; then
         query=$(cat $SHOW_DIR/$bn.queries)"&fq=docDate:[$datePattern]"
         echo $query > $SHOW_DIR/$bn.queries
         print_info "python $SCRIPT_PATH/ProcessSOLRQueries.py $SHOW_DIR/$bn.queries $SOLR_RES/$bn.keywords.tmp $SOLR_RES/$bn.txt.tmp" 3
         python $SCRIPT_PATH/ProcessSOLRQueries.py $SHOW_DIR/$bn.queries $SOLR_RES/$bn.keywords.tmp $SOLR_RES/$bn.txt.tmp
         cat $SOLR_RES/$bn.keywords.tmp | sort -u > $SOLR_RES/$bn.keywords
         cat $SOLR_RES/$bn.txt.tmp | sort -u > $SOLR_RES/$bn.txt
         rm $SOLR_RES/*.tmp > /dev/null 2>&1
     fi
     if [ $CHECK -eq 1 ]
     then
         if [ ! -e $SOLR_RES/$bn.keywords ] || [ ! -e $SOLR_RES/$bn.txt ]
         then
             print_warn "$bn.keywords and $bn.txt are empty !\nMaybe SOLR server is down !" 2
             print_log_file "$LOGFILE" "$bn.keywords and $bn.txt are empty !\nMaybe SOLR server is down !"
         fi
     fi
 done
 #-----------------------------------------------------------------------------------------------
 #  Build trigger file
 #       1) keywords are automatically boosted in the non confident zone of the current res
 #          confident zone are boosted
 #          previous words in sensible zone are penalized
 #       2) OOVs are extracted + phonetized
 #       3) Try to find OOVs acousticly in the current segment
 #       4) Generate the .trigg file
 #------------------------------------------------------------------------------------------------
 print_info "[${BASENAME}] Build trigger files" 1
 for i in `ls $SOLR_RES/*.keywords`
 do
     basename=`basename $i .keywords`
     #
     # Tokenize & produce coverage report
     # Use filter you need
     #
     print_info "[${BASENAME}] keywords filtering and produce coverage report" 3
     # Default filter
     cat $i | $SCRIPT_PATH/CleanFilter.sh | ${SCRIPT_PATH}/ApplyCorrectionRules.pl ${LEXICON}.regex | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -t |\
         $SCRIPT_PATH/CoverageReportMaker.pl --out $SOLR_RES/${basename}_tmp_report $LEXICON.bdlex_tok
     # do less filter
     #cat $i | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -t | sed -f $RULES/preprocess.regex | sed -f $RULES/lastprocess.regex | $SCRIPT_PATH/CoverageReportMaker.pl --out $SOLR_RES/${basename}_tmp_report $LEXICON.bdlex_tok
     #
     # Extract "real" OOV and phonetize them
     # -> petit filtrage persoo pour eviter d'avoir trop de bruits
     #
     print_info "[${BASENAME}] Extract OOV and phonetize them" 3
     ${SCRIPT_PATH}/FindNormRules.pl $SOLR_RES/${basename}_tmp_report/report.oov $LEXICON.bdlex_tok | cut -f3 | grep -v "#" | grep -v "^[A-Z]\+$" | grep -v "^[0-9]" | grep --perl-regex -v "^([a-z']){1,3}$" | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -f | iconv -t ISO_8859-1 -f UTF-8 | ${LIA_LTBOX}/lia_phon/script/lia_lex2phon_variante | grep -v "core dumped" | cut -d"[" -f1 | sort -u | ${SCRIPT_PATH}/PhonFormatter.pl | iconv -f ISO_8859-1 -t UTF-8 | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -t > $SOLR_RES/${basename}.phon_oov
     #
     # Search INVOC & OOV in the current lattice
     #
     print_info "[${BASENAME}] Search INVOC and OOV in the current lattice" 3
     cat $SOLR_RES/${basename}_tmp_report/report.invoc | grep -v "\b0" | cut -f1 | grep -v --perl-regex -v "^[a-zA-Z']{1,3}$" | grep -v --perl-regex "^[a-zA-Z0-9]{1,3}$" | grep -v "<s>" | grep -v "</s>" | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -t > $TRIGGER_CONFZONE/$basename.tosearch
     cat $SOLR_RES/${basename}.phon_oov | cut -f1 >>  $TRIGGER_CONFZONE/$basename.tosearch
     # For each treil
     for baseseg in $(cat "$SHOW_DIR/$basename.lst")
     do
         $OTMEDIA_HOME/tools/QUOTE_FINDER/bin/acousticFinder ${LEXICON}.speer_phon $RES_CONF/wlat/$baseseg.wlat $TRIGGER_CONFZONE/${basename}.tosearch $SOLR_RES/$basename.phon_oov > $TRIGGER_CONFZONE/$baseseg.acousticlyfound $OUTPUT_REDIRECTION
         #
         # Produce the boost file for the next decoding pass
         #
         print_info "[${BASENAME}] Produce trigg file : $baseseg " 3
         cat $RES_CONF_DIR/$baseseg.res | $SCRIPT_PATH/ScoreCtm2trigg.pl $TRIGGER_CONFZONE/$baseseg.acousticlyfound > $TRIGGER_CONFZONE/$baseseg.trigg
     done
 done
 #-----------------------------------------------------------------------------------------------
 # Build the extended SPEERAL Lexicon
 #   1) Merge OOVs + LEXICON
 #   1) Related text are collected in order to find the invoc word with maximizing the ppl (LM proba)
 #   2) The current lexicon is extended with all the valid OOVs
 #-----------------------------------------------------------------------------------------------
 print_info "[${BASENAME}] Build extended Speeral Lexicon" 1
 mkdir -p $EXT_LEX/final
 mkdir -p $EXT_LEX/tmp
 mkdir -p $EXT_LEX/tmp/txt
 #
 # Collect the acousticly found oov and their phonetisation
 #
 print_info "[${BASENAME}] Get all OOV and retrieve all phonetisation" 3
 for i in `ls $SOLR_RES/*.phon_oov`
 do
     basename=`basename $i .phon_oov`
     rm $EXT_LEX/$basename.acousticlyfound 2> /dev/null
     # list acousticly found for the show
     for baseseg in $(cat "$SHOW_DIR/$basename.lst")
     do
         cat $TRIGGER_CONFZONE/$baseseg.acousticlyfound | cut -f1 | cut -f2 -d"=" >> $EXT_LEX/$basename.acousticlyfound
     done
     cat $EXT_LEX/$basename.acousticlyfound | sort -u > $EXT_LEX/.tmp
     mv $EXT_LEX/.tmp $EXT_LEX/$basename.acousticlyfound
     #
     # Extract OOV really added
     #
     cat $SOLR_RES/$basename.phon_oov | cut -f1 | sort -u > $EXT_LEX/$basename.oov
     $SCRIPT_PATH/intersec.pl $EXT_LEX/$basename.oov $EXT_LEX/$basename.acousticlyfound > $EXT_LEX/$basename.oov_acousticlyfound
     #
     # Retrieve all phonetisation
     #
     cat $SOLR_RES/${basename}.phon_oov | $SCRIPT_PATH/LexPhonFilter.pl $EXT_LEX/$basename.oov_acousticlyfound > $EXT_LEX/$basename.oov_acousticlyfound_phon
 done
 #
 # Merge OOVs and their phonetisation
 #
 print_info "[${BASENAME}] Merge OOV and their phonetisation" 3
 lexname=$(basename $LEXICON)
 cat $EXT_LEX/*.oov_acousticlyfound_phon | sort -u > $EXT_LEX/final/all.oov_acousticlyfound_phon
 cat $EXT_LEX/*.oov_acousticlyfound | sort -u | grep --perl-regex -v "^([a-z']){3}$"  > $EXT_LEX/final/all.oov_acousticlyfound
 $SCRIPT_PATH/MergeLexicon.pl $EXT_LEX/final/all.oov_acousticlyfound_phon > $EXT_LEX/final/${lexname}_ext.phon
 #
 # Collect + clean retrieved txt
 #
 print_info "[${BASENAME}] Collect and clean SOLR txt answers" 2
 # choose filter
 # default
 cat $SOLR_RES/*.txt | $SCRIPT_PATH/CleanFilter.sh | $SCRIPT_PATH/ApplyCorrectionRules.pl ${LEXICON}.regex | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -t > $EXT_LEX/final/all.bdlex_txt
 # low filter
 #cat $SOLR_RES/*.txt | $SCRIPT_PATH/BdlexUC.pl $RULES/basic -t | sed -f $RULES/preprocess.regex | sed -f $RULES/lastprocess.regex > $EXT_LEX/final/all.bdlex_txt
 #
 # Construct the map file
 #
 # Notes:
 # - Expected format :
 #   <WORD1_STRING> <CANDIDATE1_STRING> <PHON_1>
 #
 print_info "[${BASENAME}] Construct map file" 3
 rm -f $EXT_LEX/final/${lexname}_ext.map 2>/dev/null
 rm -f $EXT_LEX/final/${lexname}.unvalid_oov 2>/dev/null
 while read oov
 do
     oov=`echo $oov | sed "s/\n//g"`
     #
     # Obtain the oov's tag
     #
     #oov_tag=`grep --perl-regex "^$oov\t" $DYNAMIC_TAGSTATS/all.tags | cut -f2`
     #
     # Try to collect text containing the oov word
     #
     print_info "[${BASENAME}] Collect text containing the oov" 3
     cat $EXT_LEX/final/all.bdlex_txt | grep --perl-regex " $oov " | $SCRIPT_PATH/NbMaxWordsFilter.pl 40 |uniq > $EXT_LEX/tmp/txt/$oov.bdlex_txt
     if [ -f $EXT_LEX/tmp/txt/$oov.bdlex_txt ]; then
         nbWords=`wc -l $EXT_LEX/tmp/txt/$oov.bdlex_txt | cut -f1 -d" "`
         if [ $nbWords -eq 0 ]; then
             print_warn "[${BASENAME}] UNVALID OOV: $oov => $nbWords occurrences" 2
             echo "$oov" >> $EXT_LEX/final/${lexname}.unvalid_oov
         else
             #
             # Find a candidate in a filtred invoc lexicon => a candidate which maximize the ppl in the overall txt collected
             #
             #echo "$/getCandidate $SPEER_LM_PATH $SPEER_LM_BASENAME $oov $LEXICON.bdlex_tok $EXT_LEX/tmp/txt/$oov.bdlex_txt"
             print_info `$SPEERAL_PATH/bin/getCandidate $SPEER_LM_PATH $SPEER_LM_BASENAME $oov $CANDIDATE_LEXICON $EXT_LEX/tmp/txt/$oov.bdlex_txt | cut -f1 -d" "` 3
             candidate=`$SPEERAL_PATH/bin/getCandidate $SPEER_LM_PATH $SPEER_LM_BASENAME $oov $CANDIDATE_LEXICON $EXT_LEX/tmp/txt/$oov.bdlex_txt | cut -f1 -d" "`
             if [ ! "$candidate" == "" ]; then
                 grep --perl-regex "^$oov\t" $EXT_LEX/final/all.oov_acousticlyfound_phon > $EXT_LEX/tmp/$oov.phon
                 while read phonLine
                 do
                     #<word> <phon> => <word> <candidate> <phon>
                     echo "$phonLine" | sed "s|\t|\t$candidate\t|"  >> $EXT_LEX/final/${lexname}_ext.map
                 done < $EXT_LEX/tmp/$oov.phon
             else
                 print_warn "[${BASENAME}] UNVALID OOV: $oov => no availaible Candidate word in LM" 2
                 echo "$oov" >> $EXT_LEX/final/${lexname}.unvalid_oov
             fi
         fi
     else
         print_warn "[${BASENAME}] UNVALID OOV: $oov" 2
         echo "$oov" >> $EXT_LEX/final/${lexname}.unvalid_oov
     fi
 done < $EXT_LEX/final/all.oov_acousticlyfound
 #
 ### Speeral
 #
 lexname=`basename $LEXICON`
 #
 # Build the final trigger file
 #
 print_info "[${BASENAME}] Clean trigg files" 3
 mkdir -p $TRIGGER_CONFZONE/speeral/ 2> /dev/null
 mkdir -p $EXT_LEX/speeral/ 2> /dev/null
 for i in `ls $TRIGGER_CONFZONE/*.trigg`
 do
     basename=`basename $i .trigg`
     cat $i | $SCRIPT_PATH/RemoveLineContaining.pl $EXT_LEX/$lexname.unvalid_oov > $TRIGGER_CONFZONE/speeral/$basename.trigg
 done
 #
 # Compile the speeral extended lexicon
 #
 print_info "[${BASENAME}] Compile Speeral extended lexicon" 3
 print_info "$SPEERAL_PATH/bin/buildmappedbinode $LEXICON.bdlex_phon $EXT_LEX/final/${lexname}_ext.map $AM_SKL $EXT_LEX/speeral/${lexname}_ext" 3
 $SPEERAL_PATH/bin/buildmappedbinode $LEXICON.bdlex_phon $EXT_LEX/final/${lexname}_ext.map $AM_SKL $EXT_LEX/speeral/${lexname}_ext
 if [ $CHECK -eq 1 ]
 then
     check_exploitconfpass_lex_check "${EXT_LEX}/speeral/${lexname}_ext"
     if [ $? -eq 1 ]
     then
         print_error "[${BASENAME}] Building Speeral Lexicon $INPUT_DIR -> exit"
         print_error "[${BASENAME}] Check $ERRORFILE"
         print_log_file $ERRORFILE "ERROR : Building Speeral Lexicon $INPUT_DIR"
         print_log_file $ERRORFILE "ERROR : ${EXT_LEX}/speeral/${lexname}_ext Empty after buildmappedbinode ?"
         exit 1;
     fi
 fi
 #-------#
 # CLOSE #
 #-------#
 # Seem OK
 print_info "[${BASENAME}] <= ExploitConfidencePass End | $(date +'%d/%m/%y %H:%M:%S')" 1
 # unlok directory
 mv "$OUTPUT_DIR/EXPLOITCONFPASS.lock" "$OUTPUT_DIR/EXPLOITCONFPASS.unlock"

main_tools/OneScriptToRuleThemAll.sh

Diff comments View file @ a564ec1

1	#!/bin/bash	1	#!/bin/bash
2		2
3	#####################################	3	#####################################
4	# File: OneScriptToRuleThemAll.sh #	4	# File: OneScriptToRuleThemAll.sh #
5	# Brief : Script to launch OTMEDIA #	5	# Brief : Script to launch OTMEDIA #
6	# Version : 1.0 #	6	# Version : 1.0 #
7	# Date : 23/07/2013 #	7	# Date : 23/07/2013 #
8	# Author : Jean-François Rey #	8	# Author : Jean-François Rey #
9	#####################################	9	#####################################
10		10
11	echo -e "#### OneScriptToRuleThemAll ####"	11	echo -e "#### OneScriptToRuleThemAll ####"
12	LORD=" Three::rings	12	LORD=" Three::rings
13	for:::the::Elven-King	13	for:::the::Elven-King
14	under:the:sky,:Seven:for:the	14	under:the:sky,:Seven:for:the
15	Dwarf-Lords::in::their::halls:of	15	Dwarf-Lords::in::their::halls:of
16	stone,:Nine for:Mortal	16	stone,:Nine for:Mortal
17	:::Men::: ________ doomed::to	17	:::Men::: ________ doomed::to
18	die.:One _,-'...:... \`-. for:::the	18	die.:One _,-'...:... \`-. for:::the
19	::Dark:: ,- .:::::::::::. \`. Lord::on	19	::Dark:: ,- .:::::::::::. \`. Lord::on
20	his:dark ,' .:::::zzz:::::. \`. :throne:	20	his:dark ,' .:::::zzz:::::. \`. :throne:
21	In:::the/ ::::OTMEDIA:::: \ Land::of	21	In:::the/ ::::OTMEDIA:::: \ Land::of
22	:Mordor:\ ::::SCRIPTS:::: / :where::	22	:Mordor:\ ::::SCRIPTS:::: / :where::
23	::the::: '. '::::YEEEP::::' ,' Shadows:	23	::the::: '. '::::YEEEP::::' ,' Shadows:
24	lie.::One \`. \`\`:::::::::'' ,' Ring::to	24	lie.::One \`. \`\`:::::::::'' ,' Ring::to
25	::rule:: \`-._\`\`\`:'''_,-' ::them::	25	::rule:: \`-._\`\`\`:'''_,-' ::them::
26	all,::One \`-----' ring::to	26	all,::One \`-----' ring::to
27	::find::: them,:One	27	::find::: them,:One
28	Ring:::::to bring::them	28	Ring:::::to bring::them
29	all::and::in:the:darkness:bind	29	all::and::in:the:darkness:bind
30	them:In:the:Land:of:Mordor	30	them:In:the:Land:of:Mordor
31	where:::the::Shadows	31	where:::the::Shadows
32	:::lie.:::"	32	:::lie.:::"
33		33
34		34
35	# Check OTMEDIA_HOME env var	35	# Check OTMEDIA_HOME env var
36	if [ -z ${OTMEDIA_HOME} ]	36	if [ -z ${OTMEDIA_HOME} ]
37	then	37	then
38	OTMEDIA_HOME=$(dirname $(dirname $(readlink -e $0)))	38	OTMEDIA_HOME=$(dirname $(dirname $(readlink -e $0)))
39	export OTMEDIA_HOME=$OTMEDIA_HOME	39	export OTMEDIA_HOME=$OTMEDIA_HOME
40	fi	40	fi
41		41
42	# where is OneScriptToRuleThemAll.sh	42	# where is OneScriptToRuleThemAll.sh
43	MAIN_SCRIPT_PATH=$(dirname $(readlink -e $0))	43	MAIN_SCRIPT_PATH=$(dirname $(readlink -e $0))
44		44
45	RING=""	45	RING=""
46	p1=0	46	p1=0
47	p2=0	47	p2=0
48	conf=0	48	conf=0
49	exploitconf=0	49	exploitconf=0
50	p3=0	50	p3=0
51	recompose=0	51	recompose=0
52	scoring=0	52	scoring=0
53		53
54	#---------------#	54	#---------------#
55	# Parse Options #	55	# Parse Options #
56	#---------------#	56	#---------------#
57	while getopts ":hDv:cf:r123C:eRsa" opt	57	while getopts ":hDv:cf:r123C:eRsa" opt
58	do	58	do
59	case $opt in	59	case $opt in
60	h)	60	h)
61	echo -e "$0 [OPTIONS] <WAV_FILE> <OUTPUT_DIRECTORY>\n"	61	echo -e "$0 [OPTIONS] <WAV_FILE> <OUTPUT_DIRECTORY>\n"
62	echo -e "\t Options:"	62	echo -e "\t Options:"
63	echo -e "\t\t-h :\tprint this message"	63	echo -e "\t\t-h :\tprint this message"
64	echo -e "\t\t-D :\tDEBUG mode on"	64	echo -e "\t\t-D :\tDEBUG mode on"
65	echo -e "\t\t-v l :\tVerbose mode, l=(1\|2\|3) level mode"	65	echo -e "\t\t-v l :\tVerbose mode, l=(1\|2\|3) level mode"
66	echo -e "\t\t-c :\tCheck process, stop if error detected"	66	echo -e "\t\t-c :\tCheck process, stop if error detected"
67	echo -e "\t\t-f n :\tSpecify a speeral forks number (default 1)"	67	echo -e "\t\t-f n :\tSpecify a speeral forks number (default 1)"
68	echo -e "\t\t-r :\tForce to rerun without deleting all files"	68	echo -e "\t\t-r :\tForce to rerun without deleting all files"
69	echo -e "\t\t-a :\tDo every pass"	69	echo -e "\t\t-a :\tDo every pass"
70	echo -e "\t\t-1 :\tDo 1rt pass"	70	echo -e "\t\t-1 :\tDo 1rt pass"
71	echo -e "\t\t-2 :\tDo 2nd pass"	71	echo -e "\t\t-2 :\tDo 2nd pass"
72	echo -e "\t\t-3 :\tDo 3rd pass"	72	echo -e "\t\t-3 :\tDo 3rd pass"
73	echo -e "\t\t-C p :\tDo p confidence pass (1=all, 2 or 3)"	73	echo -e "\t\t-C p :\tDo p confidence pass (1=all, 2 or 3)"
74	echo -e "\t\t-e :\tDo exploit confidence pass (SOLR)"	74	echo -e "\t\t-e :\tDo exploit confidence pass (SOLR)"
75	echo -e "\t\t-R :\tDo recompose res"	75	echo -e "\t\t-R :\tDo recompose res"
76	echo -e "\t\t-s :\tDo scoring"	76	echo -e "\t\t-s :\tDo scoring"
77	exit 1	77	exit 1
78	;;	78	;;
79	D)	79	D)
80	RING=$RING" -D"	80	RING=$RING" -D"
81	;;	81	;;
82	v)	82	v)
83	RING=$RING" -v $OPTARG"	83	RING=$RING" -v $OPTARG"
84	;;	84	;;
85	c)	85	c)
86	RING=$RING" -c"	86	RING=$RING" -c"
87	;;	87	;;
88	f)	88	f)
89	FORKS=" -f $OPTARG"	89	FORKS=" -f $OPTARG"
90	;;	90	;;
91	r)	91	r)
92	RING=$RING" -r"	92	RING=$RING" -r"
93	;;	93	;;
94	a)	94	a)
95	p1=1	95	p1=1
96	p2=1	96	p2=1
97	p3=1	97	p3=1
98	conf=1	98	conf=1
99	exploitconf=1	99	exploitconf=1
100	recompose=1	100	recompose=1
101	scoring=1	101	scoring=1
102	;;	102	;;
103	1)	103	1)
104	p1=1	104	p1=1
105	;;	105	;;
106	2)	106	2)
107	p2=1	107	p2=1
108	;;	108	;;
109	3)	109	3)
110	p3=1	110	p3=1
111	;;	111	;;
112	C)	112	C)
113	conf=$OPTARG	113	conf=$OPTARG
114	;;	114	;;
115	e)	115	e)
116	exploitconf=1	116	exploitconf=1
117	;;	117	;;
118	R)	118	R)
119	recompose=1	119	recompose=1
120	;;	120	;;
121	s)	121	s)
122	scoring=1	122	scoring=1
123	;;	123	;;
124	:)	124	:)
125	echo "Option -$OPTARG requires an argument." >&2	125	echo "Option -$OPTARG requires an argument." >&2
126	exit 1	126	exit 1
127	;;	127	;;
128	\?)	128	\?)
129	echo "BAD USAGE : unknow opton -$OPTARG"	129	echo "BAD USAGE : unknow opton -$OPTARG"
130	exit 1	130	exit 1
131	;;	131	;;
132	esac	132	esac
133	done	133	done
134		134
135	# Check USAGE by arguments number	135	# Check USAGE by arguments number
136	if [ $(($#-($OPTIND-1))) -ne 2 ]	136	if [ $(($#-($OPTIND-1))) -ne 2 ]
137	then	137	then
138	echo "BAD USAGE : $0 [OPTIONS] <WAV_FILE> <OUTPUT_DIR>"	138	echo "BAD USAGE : $0 [OPTIONS] <WAV_FILE> <OUTPUT_DIR>"
139	echo "$0 -h for more info"	139	echo "$0 -h for more info"
140	exit 1	140	exit 1
141	fi	141	fi
142		142
143	shift $((OPTIND-1))	143	shift $((OPTIND-1))
144	# check audio file - First argument	144	# check audio file - First argument
145	if [ -e $1 ] && [ -s $1 ]	145	if [ $p1 -eq 0 ] \|\| [[ -e $1 && -s $1 ]]
146	then	146	then
147	echo -e "$LORD\n"	147	echo -e "$LORD\n"
148	REP_OUT=$2/$(basename ${1%.*})	148	REP_OUT=$2/$(basename ${1%.*})
149	if [ $p1 -eq 1 ];then ${MAIN_SCRIPT_PATH}/FirstPass.sh ${RING} ${FORKS} $1 $2;fi	149	if [ $p1 -eq 1 ];then ${MAIN_SCRIPT_PATH}/FirstPass.sh ${RING} ${FORKS} $1 $2;fi
150	if [ $p2 -eq 1 ];then ${MAIN_SCRIPT_PATH}/SecondPass.sh ${RING} ${FORKS} ${REP_OUT};fi	150	if [ $p2 -eq 1 ];then ${MAIN_SCRIPT_PATH}/SecondPass.sh ${RING} ${FORKS} ${REP_OUT};fi
151	if [ $conf -eq 1 ] \|\| [ $conf -eq 2 ];then $p${MAIN_SCRIPT_PATH}/ConfPass.sh ${RING} ${REP_OUT} "res_p2";fi	151	if [ $conf -eq 1 ] \|\| [ $conf -eq 2 ];then $p${MAIN_SCRIPT_PATH}/ConfPass.sh ${RING} ${REP_OUT} "res_p2";fi
152	if [ $exploitconf -eq 1 ]; then ${MAIN_SCRIPT_PATH}/ExploitConfidencePass.sh ${RING} ${REP_OUT};fi	152	if [ $exploitconf -eq 1 ]; then ${MAIN_SCRIPT_PATH}/ExploitConfidencePass.sh ${RING} ${REP_OUT};fi
153	if [ $p3 -eq 1 ];then ${MAIN_SCRIPT_PATH}/ThirdPass.sh ${RING} ${FORKS} ${REP_OUT};fi	153	if [ $p3 -eq 1 ];then ${MAIN_SCRIPT_PATH}/ThirdPass.sh ${RING} ${FORKS} ${REP_OUT};fi
154	if [ $conf -eq 1 ] \|\| [ $conf -eq 3 ];then ${MAIN_SCRIPT_PATH}/ConfPass.sh ${RING} ${REP_OUT} "res_p3";fi	154	if [ $conf -eq 1 ] \|\| [ $conf -eq 3 ];then ${MAIN_SCRIPT_PATH}/ConfPass.sh ${RING} ${REP_OUT} "res_p3";fi
155	if [ $recompose -eq 1 ];then ${MAIN_SCRIPT_PATH}/RecomposePass.sh ${RING} ${REP_OUT};fi	155	if [ $recompose -eq 1 ];then ${MAIN_SCRIPT_PATH}/RecomposePass.sh ${RING} ${REP_OUT};fi
156	if [ $scoring -eq 1 ];then ${MAIN_SCRIPT_PATH}/ScoringRes.sh ${RING} ${REP_OUT};fi	156	if [ $scoring -eq 1 ];then ${MAIN_SCRIPT_PATH}/ScoringRes.sh ${RING} ${REP_OUT};fi
157	echo "done"	157	echo "done"
158	else	158	else
159	echo "can't find $1 OR file is empty"	159	echo "can't find $1 OR file is empty"
160	exit 1	160	exit 1
161	fi	161	fi
162		162
163		163
164		164
165		165

tools/SIGMUND/LIA_topic_seg/bin/Test.class

Diff comments View file @ a564ec1

No preview for this file type

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/Boundaries.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	/**	3	/**
4	* Cette interface est dŽdiŽe ˆ la sŽlection des frontires ˆ partir d'un tableau de valeurs	4	* Cette interface est dédiée à la sélection des frontières à partir d'un tableau de valeurs
5	* associŽes ˆ chaque intervalle entre deux unitŽs de traitement.	5	* associées à chaque intervalle entre deux unités de traitement.
6	* La sŽlection peut se faire ˆ partir d'un nombre connu de frontires ou non, l'essentiel Žtant	6	* La sélection peut se faire à partir d'un nombre connu de frontières ou non, l'essentiel étant
7	* de fournir un sous ensemble des intervalles du texte en rŽponse.	7	* de fournir un sous ensemble des intervalles du texte en réponse.
8	*	8	*
9	*	9	*
10	*/	10	*/
11	public interface Boundaries {	11	public interface Boundaries {
12	/**	12	/**
13	* retourne les numŽros des phrases aprs lesquelles se trouvent les frontires thŽmatiques	13	* retourne les numéros des phrases après lesquelles se trouvent les frontières thématiques
14	* @return un tableau d'entiers qui sont les frontires thŽmatiques	14	* @return un tableau d'entiers qui sont les frontières thématiques
15	*/	15	*/
16	public int[] position_boundaries();	16	public int[] position_boundaries();
17	/**	17	/**
18	* renvoie le nombre de segments thŽmatiques dŽduits	18	* renvoie le nombre de segments thématiques déduits
19	* @return un nombre	19	* @return un nombre
20	*/	20	*/
21	public int count_segments();	21	public int count_segments();
22	/**	22	/**
23	* permet de conna”tre le nombre de frontires thŽmatiques ˆ l'intŽrieur du texte	23	* permet de connaître le nombre de frontières thématiques à l'intérieur du texte
24	* Il se peut que ce nombre soit infŽrieur ˆ un nombre initialisŽ.	24	* Il se peut que ce nombre soit inférieur à un nombre initialisé.
25	* @return le nombre de frontires thŽmatiques	25	* @return le nombre de frontières thématiques
26	*/	26	*/
27	public int count_boundaries();	27	public int count_boundaries();
28	/**	28	/**
29	* Cette fonction permet de suivre l'Žvolution du programme en affichant les valeurs calculŽes	29	* Cette fonction permet de suivre l'évolution du programme en affichant les valeurs calculées
30	* @return une cha”ne de caractre o chaque ligne est un numŽro de frontire thŽmatique	30	* @return une chaîne de caractère où chaque ligne est un numéro de frontière thématique
31	*/	31	*/
32	public String toString();	32	public String toString();
33	}	33	}
34		34

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultBoundaries.java

Diff comments View file @ a564ec1

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultConfig.java

Diff comments View file @ a564ec1

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultGapsScores.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	import java.util.*;	3	import java.util.*;
4	/**	4	/**
5	* Cette classe permet le calcul de probabililtŽs de rupture ˆ chaque intervalle entre deux phrases, ou unitŽs textuelles.	5	* Cette classe permet le calcul de probabililtés de rupture à chaque intervalle entre deux phrases, ou unités textuelles.
6	* Les calculs implŽmentŽs sont la similaritŽ cosine et les profondeurs de dissimilaritŽ.	6	* Les calculs implémentés sont la similarité cosine et les profondeurs de dissimilarité.
7	*	7	*
8	*	8	*
9	*/	9	*/
10	public class DefaultGapsScores implements GapsScores{	10	public class DefaultGapsScores implements GapsScores{
11		11
12	LexicalChainList chains;	12	LexicalChainList chains;
13	float[] gaps_scores = null;	13	float[] gaps_scores = null;
14	int sentence_count = 0;	14	int sentence_count = 0;
15	static int SIM_WINDOW = 3;	15	static int SIM_WINDOW = 3;
16		16
17	public DefaultGapsScores (LexicalChainList lcl, int sc){	17	public DefaultGapsScores (LexicalChainList lcl, int sc){
18	//crŽation du tableau des probas de rupture pour chaque phrase/sŽquence	18	//création du tableau des probas de rupture pour chaque phrase/séquence
19	chains = lcl;	19	chains = lcl;
20	sentence_count = sc;	20	sentence_count = sc;
21	// System.out.print("nombre de phrases traitŽse : " + sc);	21	// System.out.print("nombre de phrases traitése : " + sc);
22	compute_cos();	22	compute_cos();
23		23
24	// for (int i= 0 ; i<sc; i++){	24	// for (int i= 0 ; i<sc; i++){
25	// gaps_scores[i]=0;	25	// gaps_scores[i]=0;
26	// }	26	// }
27		27
28	}	28	}
29		29
30	public DefaultGapsScores (LexicalChainList lcl, DefaultInputData in){	30	public DefaultGapsScores (LexicalChainList lcl, DefaultInputData in){
31	//crŽation du tableau des probas de rupture pour chaque phrase/sŽquence	31	//création du tableau des probas de rupture pour chaque phrase/séquence
32	chains = lcl;	32	chains = lcl;
33	sentence_count = in.sentenceCount();	33	sentence_count = in.sentenceCount();
34	compute_cos();	34	compute_cos();
35		35
36	}	36	}
37		37
38	/**	38	/**
39	* transforme l'attribut gaps_scores en des scores de similaritŽs => on recherchera les plus petits	39	* transforme l'attribut gaps_scores en des scores de similarités => on recherchera les plus petits
40	*	40	*
41	*/	41	*/
42	public void compute_cos(){	42	public void compute_cos(){
43	// transforme gaps_scores en des scores de similaritŽs => on recherchera les + petits	43	// transforme gaps_scores en des scores de similarités => on recherchera les + petits
44	gaps_scores = new float[sentence_count-1];	44	gaps_scores = new float[sentence_count-1];
45	for (int senti = 0 ; senti< sentence_count-1 ; senti++){	45	for (int senti = 0 ; senti< sentence_count-1 ; senti++){
46	float sup = 0;	46	float sup = 0;
47	float inf1 = 0;	47	float inf1 = 0;
48	float inf2 = 0;	48	float inf2 = 0;
49		49
50		50
51	for (int lem=0 ; lem< chains.lemmaCount() ; lem++){	51	for (int lem=0 ; lem< chains.lemmaCount() ; lem++){
52	float wa = 0;	52	float wa = 0;
53	float wb = 0;	53	float wb = 0;
54		54
55	for (int sentj = senti ; sentj>senti-SIM_WINDOW && sentj>=0; sentj--){	55	for (int sentj = senti ; sentj>senti-SIM_WINDOW && sentj>=0; sentj--){
56	if (chains.weight(lem,sentj) > wa){	56	if (chains.weight(lem,sentj) > wa){
57	wa = chains.weight(lem,sentj);	57	wa = chains.weight(lem,sentj);
58	}	58	}
59	}	59	}
60	for (int sentk = senti+1 ; sentk<=senti+SIM_WINDOW && sentk<sentence_count ; sentk++){	60	for (int sentk = senti+1 ; sentk<=senti+SIM_WINDOW && sentk<sentence_count ; sentk++){
61	if (chains.weight(lem,sentk) > wb){	61	if (chains.weight(lem,sentk) > wb){
62	wb = chains.weight(lem,sentk);	62	wb = chains.weight(lem,sentk);
63	}	63	}
64	}	64	}
65		65
66	sup += wa * wb;	66	sup += wa * wb;
67	inf1 += wa * wa;	67	inf1 += wa * wa;
68	inf2 += wb * wb;	68	inf2 += wb * wb;
69		69
70	}	70	}
71	if (inf1 * inf2 != 0){	71	if (inf1 * inf2 != 0){
72	gaps_scores[senti]= sup / (float)Math.sqrt(inf1 * inf2);	72	gaps_scores[senti]= sup / (float)Math.sqrt(inf1 * inf2);
73	}	73	}
74	else {	74	else {
75	gaps_scores[senti]= 0;	75	gaps_scores[senti]= 0;
76	}	76	}
77		77
78	}	78	}
79		79
80	}	80	}
81		81
82	/**	82	/**
83	* Cette fonction opre un lissage sur l'attribut gaps_scores, pour chaque valeur elle la remplace	83	* Cette fonction opère un lissage sur l'attribut gaps_scores, pour chaque valeur elle la remplace
84	* par la moyenne avec les valeurs prŽcŽdente et suivante.	84	* par la moyenne avec les valeurs précédente et suivante.
85	* @param w : fentre de lissage : elle est Žgale ˆ 1 quoi qu'il arrive	85	* @param w : fenêtre de lissage : elle est égale à 1 quoi qu'il arrive
86	*/	86	*/
87	public void compute_smoothing(int w){	87	public void compute_smoothing(int w){
88	//w est la fentre de lissage	88	//w est la fenêtre de lissage
89	float[] smooth_cos = new float[gaps_scores.length] ;	89	float[] smooth_cos = new float[gaps_scores.length] ;
90	smooth_cos[0]= (gaps_scores[1]+2*gaps_scores[0])/3;	90	smooth_cos[0]= (gaps_scores[1]+2*gaps_scores[0])/3;
91	for (int i=1 ; i<gaps_scores.length-1 ; i++){	91	for (int i=1 ; i<gaps_scores.length-1 ; i++){
92	smooth_cos[i]= (gaps_scores[i-1]+gaps_scores[i+1]+2*gaps_scores[i])/4 ;	92	smooth_cos[i]= (gaps_scores[i-1]+gaps_scores[i+1]+2*gaps_scores[i])/4 ;
93		93
94	}	94	}
95	smooth_cos[gaps_scores.length-1]=(gaps_scores[gaps_scores.length-2]+gaps_scores[gaps_scores.length-1])/2;	95	smooth_cos[gaps_scores.length-1]=(gaps_scores[gaps_scores.length-2]+gaps_scores[gaps_scores.length-1])/2;
96	//System.out.print("dernier calculŽ" + smooth_cos[gaps_scores.length-1]);	96	//System.out.print("dernier calculé" + smooth_cos[gaps_scores.length-1]);
97		97
98	gaps_scores = smooth_cos.clone();	98	gaps_scores = smooth_cos.clone();
99	}	99	}
100		100
101	/**	101	/**
102	* Cette fonction, aprs calcul des similaritŽs, permet de sŽlectionner les frontires candidates	102	* Cette fonction, après calcul des similarités, permet de sélectionner les frontières candidates
103	* en recherchant les minimas locaux et en leur attribuant des valeurs liŽes ˆ la profondeur	103	* en recherchant les minimas locaux et en leur attribuant des valeurs liées à la profondeur
104	* de dissimilaritŽ.	104	* de dissimilarité.
105	* Les rŽsultats sont directement reportŽs dans l'attribut gaps_scores	105	* Les résultats sont directement reportés dans l'attribut gaps_scores
106	* @return : le nombre de candidats pour lesquels une valeur a ŽtŽ calculŽe.	106	* @return : le nombre de candidats pour lesquels une valeur a été calculée.
107	*/	107	*/
108	public float compute_depth_scores(){ // retourne le nombre de depth calculŽes	108	public float compute_depth_scores(){ // retourne le nombre de depth calculées
109	//transforme gaps_scores en des scores de profondeur => on recherchera les + grands	109	//transforme gaps_scores en des scores de profondeur => on recherchera les + grands
110	int count = 0;	110	int count = 0;
111	float[] depth_scores = new float [gaps_scores.length];	111	float[] depth_scores = new float [gaps_scores.length];
112	depth_scores[0]=0;	112	depth_scores[0]=0;
113	depth_scores[gaps_scores.length-1]=0;	113	depth_scores[gaps_scores.length-1]=0;
114	for (int i=1 ; i<gaps_scores.length-1 ; i++){	114	for (int i=1 ; i<gaps_scores.length-1 ; i++){
115	if (gaps_scores[i-1]>gaps_scores[i] && gaps_scores[i+1]>gaps_scores[i]){	115	if (gaps_scores[i-1]>gaps_scores[i] && gaps_scores[i+1]>gaps_scores[i]){
116	// on ne calcule les scores que des candidats, c'est ˆ dire les minimas locaux	116	// on ne calcule les scores que des candidats, c'est à dire les minimas locaux
117	float lmax = 0;	117	float lmax = 0;
118	float rmax = 0;	118	float rmax = 0;
119		119
120	int j = i-1;	120	int j = i-1;
121	while (gaps_scores[j]>lmax){	121	while (gaps_scores[j]>lmax){
122	lmax = gaps_scores[j];	122	lmax = gaps_scores[j];
123	}	123	}
124	j = i+1;	124	j = i+1;
125	while (gaps_scores[j]>rmax){	125	while (gaps_scores[j]>rmax){
126	rmax = gaps_scores[j];	126	rmax = gaps_scores[j];
127	}	127	}
128	depth_scores[i]= (rmax + lmax - 2 * gaps_scores[i])/2;	128	depth_scores[i]= (rmax + lmax - 2 * gaps_scores[i])/2;
129	count ++;	129	count ++;
130	}	130	}
131	else{	131	else{
132	depth_scores[i]=0;	132	depth_scores[i]=0;
133	}	133	}
134	}	134	}
135		135
136	gaps_scores = depth_scores.clone();	136	gaps_scores = depth_scores.clone();
137	return count;	137	return count;
138		138
139	}	139	}
140		140
141	// private void compute_C99(){	141	// private void compute_C99(){
142	//	142	//
143	//	143	//
144	// }	144	// }
145		145
146		146
147	public float[] values(){	147	public float[] values(){
148		148
149	return gaps_scores;	149	return gaps_scores;
150		150
151	}	151	}
152		152
153	public float bound_value(int bound){	153	public float bound_value(int bound){
154		154
155	return gaps_scores[bound];	155	return gaps_scores[bound];
156		156
157	}	157	}
158		158
159	public String to_string(){	159	public String to_string(){
160	java.io.StringWriter w = new java.io.StringWriter();	160	java.io.StringWriter w = new java.io.StringWriter();
161	w.write(super.toString()+"\n");	161	w.write(super.toString()+"\n");
162	for (int i=0 ; i<gaps_scores.length ; i++){	162	for (int i=0 ; i<gaps_scores.length ; i++){
163		163
164	w.write("GAP " + i + " - " + (i+1) + " : " + gaps_scores[i] +"\n");	164	w.write("GAP " + i + " - " + (i+1) + " : " + gaps_scores[i] +"\n");
165		165
166	}	166	}
167	return w.toString();	167	return w.toString();
168	}	168	}
169		169
170	}	170	}
171		171

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultInputData.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	import javax.xml.parsers.*;	3	import javax.xml.parsers.*;
4	import org.w3c.dom.*;	4	import org.w3c.dom.*;
5	import org.xml.sax.*;	5	import org.xml.sax.*;
6	import java.io.*;	6	import java.io.*;
7	import javax.xml.transform.dom.*;	7	import javax.xml.transform.dom.*;
8	import javax.xml.transform.stream.*;	8	import javax.xml.transform.stream.*;
9	import javax.xml.transform.*;	9	import javax.xml.transform.*;
10	import java.util.*;	10	import java.util.*;
11		11
12	/**	12	/**
13	* Cette classe permet de charger les informations du fichier d'entrŽe, ainsi que d'Žditer le rŽsultat de la segmentation.	13	* Cette classe permet de charger les informations du fichier d'entrée, ainsi que d'éditer le résultat de la segmentation.
14	* Le fichier d'entrŽe doit tre au format XML et les balises utilisŽes sont dŽterminŽes dans le fichier de configuration.	14	* Le fichier d'entrée doit être au format XML et les balises utilisées sont déterminées dans le fichier de configuration.
15	*/	15	*/
16	public class DefaultInputData	16	public class DefaultInputData
17	{	17	{
18	//--------------------------------------------------------------------------	18	//--------------------------------------------------------------------------
19		19
20	/**	20	/**
21	* la configuration, et donc les paramtres sont copiŽs dans l'objet	21	* la configuration, et donc les paramètres sont copiés dans l'objet
22	*/	22	*/
23	DefaultConfig config;	23	DefaultConfig config;
24		24
25	/**	25	/**
26	* Le dictionnaire des lemmes est Žgalement portŽ par la reprŽsentation des donnŽes d'entrŽe	26	* Le dictionnaire des lemmes est également porté par la représentation des données d'entrée
27	*/	27	*/
28	LemmaDict lemmaDict = new LemmaDict();	28	LemmaDict lemmaDict = new LemmaDict();
29	private Sentence[] _sentenceList;	29	private Sentence[] _sentenceList;
30	//--------------------------------------------------------------------------	30	//--------------------------------------------------------------------------
31		31
32	public DefaultInputData(DefaultConfig c, String file) throws Exception	32	public DefaultInputData(DefaultConfig c, String file) throws Exception
33	{	33	{
34	config = c;	34	config = c;
35	try	35	try
36	{	36	{
37	NodeList sentenceNodeList = DocumentBuilderFactory.newInstance()	37	NodeList sentenceNodeList = DocumentBuilderFactory.newInstance()
38	.newDocumentBuilder().parse(new File(file))	38	.newDocumentBuilder().parse(new File(file))
39	.getElementsByTagName(config	39	.getElementsByTagName(config
40	.getParam("inputDataSentenceXmlTag"));	40	.getParam("inputDataSentenceXmlTag"));
41	int sentenceCount = sentenceNodeList.getLength();	41	int sentenceCount = sentenceNodeList.getLength();
42	_sentenceList = new Sentence[sentenceCount];	42	_sentenceList = new Sentence[sentenceCount];
43		43
44	for (int i=0; i<sentenceCount; i++)	44	for (int i=0; i<sentenceCount; i++)
45	{	45	{
46	Sentence sentence = new Sentence();	46	Sentence sentence = new Sentence();
47	NodeList childList = sentenceNodeList.item(i).getChildNodes();	47	NodeList childList = sentenceNodeList.item(i).getChildNodes();
48	int childCount = childList.getLength();	48	int childCount = childList.getLength();
49	for (int j=0; j<childCount; j++)	49	for (int j=0; j<childCount; j++)
50	{	50	{
51	Node node = childList.item(j);	51	Node node = childList.item(j);
52	String nodeName = node.getNodeName();	52	String nodeName = node.getNodeName();
53	if (nodeName.equals(config.getParam("inputDataWordsXmlTag")))	53	if (nodeName.equals(config.getParam("inputDataWordsXmlTag")))
54	sentence.content = node.getFirstChild().getTextContent();	54	sentence.content = node.getFirstChild().getTextContent();
55	else if (nodeName.equals(config.getParam("inputDataLemmaXmlTag")))	55	else if (nodeName.equals(config.getParam("inputDataLemmaXmlTag")))
56	{	56	{
57	float w = 0; // weight	57	float w = 0; // weight
58	Node n = node.getAttributes().getNamedItem(config	58	Node n = node.getAttributes().getNamedItem(config
59	.getParam("inputDataLemmaWeightXmlTag"));	59	.getParam("inputDataLemmaWeightXmlTag"));
60	if (n != null)	60	if (n != null)
61	w = Float.parseFloat(n.getFirstChild().getTextContent());	61	w = Float.parseFloat(n.getFirstChild().getTextContent());
62	int lemmaCode = lemmaDict.add(	62	int lemmaCode = lemmaDict.add(
63	node.getFirstChild().getTextContent(), w, i);	63	node.getFirstChild().getTextContent(), w, i);
64	sentence.addLemma(lemmaCode, w);	64	sentence.addLemma(lemmaCode, w);
65	}	65	}
66	}	66	}
67	_sentenceList[i] = sentence;	67	_sentenceList[i] = sentence;
68	}	68	}
69	}	69	}
70	catch(Exception e) { throw e; }	70	catch(Exception e) { throw e; }
71	}	71	}
72	//--------------------------------------------------------------------------	72	//--------------------------------------------------------------------------
73	/**	73	/**
74	* Cette fonction est utilisŽe principalement pour le dŽbuggage, pour obtenir une trace des donnŽes d'entrŽe.	74	* Cette fonction est utilisée principalement pour le débuggage, pour obtenir une trace des données d'entrée.
75	*/	75	*/
76	public String toString()	76	public String toString()
77		77
78	{	78	{
79	java.io.StringWriter w = new java.io.StringWriter();	79	java.io.StringWriter w = new java.io.StringWriter();
80	w.write(super.toString()+"\n");	80	w.write(super.toString()+"\n");
81	for (int i=0; i<sentenceCount(); i++)	81	for (int i=0; i<sentenceCount(); i++)
82	{	82	{
83	Sentence sent = _sentenceList[i];	83	Sentence sent = _sentenceList[i];
84	w.write("SENTENCE #"+i	84	w.write("SENTENCE #"+i
85	+" wordCount("+sent.wordCount()+")"	85	+" wordCount("+sent.wordCount()+")"
86	+" content("+sent.content+")\n");	86	+" content("+sent.content+")\n");
87		87
88	for (int j=0; j<sent.lemmaCount(); j++)	88	for (int j=0; j<sent.lemmaCount(); j++)
89	{	89	{
90	Sentence.Lemma l = sent.lemmaObject(j);	90	Sentence.Lemma l = sent.lemmaObject(j);
91	w.write(" LEMMA #"+j	91	w.write(" LEMMA #"+j
92	+" content("+lemmaDict.lemmaObject(l.code).content+")"	92	+" content("+lemmaDict.lemmaObject(l.code).content+")"
93	+" code("+l.code+")"	93	+" code("+l.code+")"
94	+" weight("+l.weight+")"	94	+" weight("+l.weight+")"
95	//+" occurences("+sent.lemmaOccurences(l.code)+")"	95	//+" occurences("+sent.lemmaOccurences(l.code)+")"
96	+"\n");	96	+"\n");
97	}	97	}
98	}	98	}
99	return w.toString();	99	return w.toString();
100	}	100	}
101		101
102		102
103	/**	103	/**
104	* Cette fonction permet d'Žditer le rŽsultat de la segmentation au mme format que le fichier d'entrŽe, avec des balises <seg> pour dŽlilmiter les segments thŽmatiques	104	* Cette fonction permet d'éditer le résultat de la segmentation au même format que le fichier d'entrée, avec des balises <seg> pour délilmiter les segments thématiques
105	* @param bounds : il s'agit de l'objet contenant le calcul des frontires thŽmatiques	105	* @param bounds : il s'agit de l'objet contenant le calcul des frontières thématiques
106	* @return : La fonction renvoie un objet de type String, qui peut ensuite tre affichŽ ˆ l'Žcran ou bien redirigŽ vers un fichier de sortie.	106	* @return : La fonction renvoie un objet de type String, qui peut ensuite être affiché à l'écran ou bien redirigé vers un fichier de sortie.
107	*/	107	*/
108	public String result_complete (Boundaries bounds){	108	public String result_complete (Boundaries bounds){
109	int[] boundaries = bounds.position_boundaries().clone();	109	int[] boundaries = bounds.position_boundaries().clone();
110	Arrays.sort(boundaries);	110	Arrays.sort(boundaries);
111	int count = 0;	111	int count = 0;
112	int next = boundaries[0];	112	int next = boundaries[0];
113		113
114	java.io.StringWriter w = new java.io.StringWriter();	114	java.io.StringWriter w = new java.io.StringWriter();
115	w.write ("<?xml version=\"1.0\" encoding=\"ISO-8859-1\"?>\n<!DOCTYPE Segmentation>\n<Segmentation>\n<seg>\n");	115	w.write ("<?xml version=\"1.0\" encoding=\"ISO-8859-1\"?>\n<!DOCTYPE Segmentation>\n<Segmentation>\n<seg>\n");
116	for (int i=0; i<sentenceCount(); i++){	116	for (int i=0; i<sentenceCount(); i++){
117		117
118	w.write("<" + config.getParam("inputDataSentenceXmlTag") + ">");	118	w.write("<" + config.getParam("inputDataSentenceXmlTag") + ">");
119	Sentence sent = _sentenceList[i];	119	Sentence sent = _sentenceList[i];
120	w.write("<" + config.getParam("inputDataWordsXmlTag") + ">" + sent.content + "</" + config.getParam("inputDataWordsXmlTag") + ">");	120	w.write("<" + config.getParam("inputDataWordsXmlTag") + ">" + sent.content + "</" + config.getParam("inputDataWordsXmlTag") + ">");
121	for (int j=0; j<sent.lemmaCount(); j++)	121	for (int j=0; j<sent.lemmaCount(); j++)
122	{	122	{
123	Sentence.Lemma l = sent.lemmaObject(j);	123	Sentence.Lemma l = sent.lemmaObject(j);
124	w.write("<"+config.getParam("inputDataLemmaXmlTag") + " "	124	w.write("<"+config.getParam("inputDataLemmaXmlTag") + " "
125	+ config.getParam("inputDataLemmaWeightXmlTag")+ "=" + l.weight + ">"	125	+ config.getParam("inputDataLemmaWeightXmlTag")+ "=" + l.weight + ">"
126	+ lemmaDict.lemmaObject(l.code).content	126	+ lemmaDict.lemmaObject(l.code).content
127	+"</" + config.getParam("inputDataLemmaXmlTag") + ">");	127	+"</" + config.getParam("inputDataLemmaXmlTag") + ">");
128	}	128	}
129	w.write("</" + config.getParam("inputDataSentenceXmlTag") + ">\n");	129	w.write("</" + config.getParam("inputDataSentenceXmlTag") + ">\n");
130	if (i == next)	130	if (i == next)
131	{	131	{
132	if (count<boundaries.length-1)	132	if (count<boundaries.length-1)
133	{	133	{
134	count ++;	134	count ++;
135	next = boundaries[count];	135	next = boundaries[count];
136	}	136	}
137	w.write("</seg>\n<seg>\n");	137	w.write("</seg>\n<seg>\n");
138		138
139	}	139	}
140	}	140	}
141	w.write ("</seg>\n</Segmentation>");	141	w.write ("</seg>\n</Segmentation>");
142	return w.toString();	142	return w.toString();
143	}	143	}
144		144
145	/**	145	/**
146	* Cette fonction permet d'Žditer le rŽsultat de la segmentation format XML, avec des balises <seg> pour dŽlilmiter les segments thŽmatiques	146	* Cette fonction permet d'éditer le résultat de la segmentation format XML, avec des balises <seg> pour délilmiter les segments thématiques
147	* et les mme balises que le fichier d'entrŽe pour dŽlimiter les phrases et leur contenu textuel.	147	* et les même balises que le fichier d'entrée pour délimiter les phrases et leur contenu textuel.
148	* @param bounds : il s'agit de l'objet contenant le calcul des frontires thŽmatiques	148	* @param bounds : il s'agit de l'objet contenant le calcul des frontières thématiques
149	* @return : La fonction renvoie un objet de type String, qui peut ensuite tre affichŽ ˆ l'Žcran ou bien redirigŽ vers un fichier de sortie.	149	* @return : La fonction renvoie un objet de type String, qui peut ensuite être affiché à l'écran ou bien redirigé vers un fichier de sortie.
150	*/	150	*/
151	public String result_text_only(Boundaries bounds){	151	public String result_text_only(Boundaries bounds){
152	int[] boundaries = bounds.position_boundaries().clone();	152	int[] boundaries = bounds.position_boundaries().clone();
153	Arrays.sort(boundaries);	153	Arrays.sort(boundaries);
154	int count = 0;	154	int count = 0;
155	int next = boundaries[0];	155	int next = boundaries[0];
156		156
157	java.io.StringWriter w = new java.io.StringWriter();	157	java.io.StringWriter w = new java.io.StringWriter();
158	w.write ("<?xml version=\"1.0\" encoding=\"ISO-8859-1\"?>\n<!DOCTYPE Segmentation>\n<Segmentation>\n<seg>\n");	158	w.write ("<?xml version=\"1.0\" encoding=\"ISO-8859-1\"?>\n<!DOCTYPE Segmentation>\n<Segmentation>\n<seg>\n");
159	for (int i=0; i<sentenceCount(); i++){	159	for (int i=0; i<sentenceCount(); i++){
160		160
161	w.write("<" + config.getParam("inputDataSentenceXmlTag") + ">");	161	w.write("<" + config.getParam("inputDataSentenceXmlTag") + ">");
162	Sentence sent = _sentenceList[i];	162	Sentence sent = _sentenceList[i];
163	w.write("<" + config.getParam("inputDataWordsXmlTag") + ">" + sent.content + "</" + config.getParam("inputDataWordsXmlTag") + ">");	163	w.write("<" + config.getParam("inputDataWordsXmlTag") + ">" + sent.content + "</" + config.getParam("inputDataWordsXmlTag") + ">");
164	w.write("</" + config.getParam("inputDataSentenceXmlTag") + ">\n");	164	w.write("</" + config.getParam("inputDataSentenceXmlTag") + ">\n");
165	if (i == next)	165	if (i == next)
166	{	166	{
167	if(count<boundaries.length-1)	167	if(count<boundaries.length-1)
168	{	168	{
169	count ++;	169	count ++;
170	next = boundaries[count];	170	next = boundaries[count];
171	}	171	}
172	w.write("</seg>\n<seg>\n");	172	w.write("</seg>\n<seg>\n");
173		173
174	}	174	}
175	}	175	}
176	w.write ("</seg>\n</Segmentation>");	176	w.write ("</seg>\n</Segmentation>");
177	return w.toString();	177	return w.toString();
178	}	178	}
179		179
180	/**	180	/**
181	* Cette fonction permet d'Žditer le rŽsultat de la segmentation au format utilisŽ dans les expŽriences de F. Choi, ainsi que dans les premires versions des outils d'Žvaluation livrŽs (Segmele et Segeval)	181	* Cette fonction permet d'éditer le résultat de la segmentation au format utilisé dans les expériences de F. Choi, ainsi que dans les premières versions des outils d'évaluation livrés (Segmele et Segeval)
182	* @param bounds : il s'agit de l'objet contenant le calcul des frontires thŽmatiques	182	* @param bounds : il s'agit de l'objet contenant le calcul des frontières thématiques
183	* @return : La fonction renvoie un objet de type String, qui peut ensuite tre affichŽ ˆ l'Žcran ou bien redirigŽ vers un fichier de sortie.	183	* @return : La fonction renvoie un objet de type String, qui peut ensuite être affiché à l'écran ou bien redirigé vers un fichier de sortie.
184	*/	184	*/
185	public String result_lines(Boundaries bounds){	185	public String result_lines(Boundaries bounds){
186	int[] boundaries = bounds.position_boundaries().clone();	186	int[] boundaries = bounds.position_boundaries().clone();
187	Arrays.sort(boundaries);	187	Arrays.sort(boundaries);
188	int count = 0;	188	int count = 0;
189	int next = boundaries[0];	189	int next = boundaries[0];
190		190
191	java.io.StringWriter w = new java.io.StringWriter();	191	java.io.StringWriter w = new java.io.StringWriter();
192	w.write ("==========\n");	192	w.write ("==========\n");
193	for (int i=0; i<sentenceCount(); i++){	193	for (int i=0; i<sentenceCount(); i++){
194		194
195	Sentence sent = _sentenceList[i];	195	Sentence sent = _sentenceList[i];
196	w.write( sent.content + "\n");	196	w.write( sent.content + "\n");
197	if (i == next){	197	if (i == next){
198	if (count<boundaries.length-1){	198	if (count<boundaries.length-1){
199	count ++;	199	count ++;
200	next = boundaries[count];	200	next = boundaries[count];
201	}	201	}
202	w.write("==========\n");	202	w.write("==========\n");
203	}	203	}
204		204
205	}	205	}
206	w.write ("==========\n");	206	w.write ("==========\n");
207	return w.toString();	207	return w.toString();
208	}	208	}
209		209
210		210
211	//--------------------------------------------------------------------------	211	//--------------------------------------------------------------------------
212	public Sentence sentence(int i)	212	public Sentence sentence(int i)
213	{	213	{
214	return _sentenceList[i];	214	return _sentenceList[i];
215	}	215	}
216	//--------------------------------------------------------------------------	216	//--------------------------------------------------------------------------
217	public int sentenceCount()	217	public int sentenceCount()
218	{	218	{
219	return _sentenceList.length;	219	return _sentenceList.length;
220	}	220	}
221	}	221	}
222		222
223	/*	223	/*
224	InputData in	224	InputData in
225	for (int i=0; i<in.sentenceCount(); i++)	225	for (int i=0; i<in.sentenceCount(); i++)
226	{	226	{
227	Sentence sent = in.sentence(i);	227	Sentence sent = in.sentence(i);
228	sent.content;	228	sent.content;
229	for (int j=0; j<sent.lemmaCount(); j++)	229	for (int j=0; j<sent.lemmaCount(); j++)
230	{	230	{
231	Sentence.Lemma l = sent.lemmaObject(j);	231	Sentence.Lemma l = sent.lemmaObject(j);
232	l.code	232	l.code
233	l.weight	233	l.weight
234	}	234	}
235	}	235	}
236		236
237		237
238		238
239	*/	239	*/
240		240
241		241
242		242
243		243
244		244

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/DefaultLexicalChainList.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	import java.util.*;	3	import java.util.*;
4		4
5	/**	5	/**
6	* Cette classe prend en charge le calcul des liens lexicaux du texte chargŽ dans un objet de type DefaultInputData	6	* Cette classe prend en charge le calcul des liens lexicaux du texte chargé dans un objet de type DefaultInputData
7	* Les paramtres de calcul sont intŽgrŽs dans la configuration. Ils concernent le type de hiatus utilisŽ, et le	7	* Les paramètres de calcul sont intégrés dans la configuration. Ils concernent le type de hiatus utilisé, et le
8	* type de reprŽsentation du texte.	8	* type de représentation du texte.
9	* l'accs aux ŽlŽments dŽcisif du texte se fait pour chaque lemme par un tableau qui indique ˆ chaque phrase si il est	9	* l'accès aux éléments décisif du texte se fait pour chaque lemme par un tableau qui indique à chaque phrase si il est
10	* prŽsent ou non, et le poids (ou la prŽsence) d'un lien lexical.	10	* présent ou non, et le poids (ou la présence) d'un lien lexical.
11	*/	11	*/
12	public class DefaultLexicalChainList implements LexicalChainList	12	public class DefaultLexicalChainList implements LexicalChainList
13	{	13	{
14	int sentenceCount;	14	int sentenceCount;
15	LemmaDict dict;	15	LemmaDict dict;
16	DefaultConfig config;	16	DefaultConfig config;
17	DefaultInputData input;	17	DefaultInputData input;
18		18
19	private static final int NO_HIATUS = 100;	19	private static final int NO_HIATUS = 100;
20	private static final int ADAPTIVE_HIATUS = 101;	20	private static final int ADAPTIVE_HIATUS = 101;
21	private static final int FIXED_HIATUS = 102;	21	private static final int FIXED_HIATUS = 102;
22	private int _hiatus;	22	private int _hiatus;
23	private int _hiatusValue;	23	private int _hiatusValue;
24	private boolean _useWeight;	24	private boolean _useWeight;
25	private boolean _computeChains;	25	private boolean _computeChains;
26	private ArrayList<Lemma> _lemmaList = new ArrayList<Lemma>();	26	private ArrayList<Lemma> _lemmaList = new ArrayList<Lemma>();
27	//--------------------------------------------------------------------------	27	//--------------------------------------------------------------------------
28	/**	28	/**
29	* Un Lemma est indique la rŽpartition d'un lemme dans le texte, ainsi que la rŽpartition et les	29	* Un Lemma est indique la répartition d'un lemme dans le texte, ainsi que la répartition et les
30	* Žventuelles pondŽration de ses liens lexicaux.	30	* éventuelles pondération de ses liens lexicaux.
31	* C'est cette classe qui se charge en rŽalitŽ du calcul des liens lexicaux.	31	* C'est cette classe qui se charge en réalité du calcul des liens lexicaux.
32	*/	32	*/
33	private class Lemma	33	private class Lemma
34	{	34	{
35	private LemmaDict.Lemma _ll;	35	private LemmaDict.Lemma _ll;
36	boolean[] presenceInSentenceVect; // = new boolean[sentenceCount];	36	boolean[] presenceInSentenceVect; // = new boolean[sentenceCount];
37	float[] weightInSentenceVect; // = new float[sentenceCount];	37	float[] weightInSentenceVect; // = new float[sentenceCount];
38	//------------------------------------------------------------------------	38	//------------------------------------------------------------------------
39	Lemma(LemmaDict.Lemma ll)	39	Lemma(LemmaDict.Lemma ll)
40	{	40	{
41	_ll = ll;	41	_ll = ll;
42	presenceInSentenceVect = new boolean[sentenceCount];	42	presenceInSentenceVect = new boolean[sentenceCount];
43	weightInSentenceVect = new float[sentenceCount];	43	weightInSentenceVect = new float[sentenceCount];
44	Arrays.fill(presenceInSentenceVect, false);	44	Arrays.fill(presenceInSentenceVect, false);
45	Arrays.fill(weightInSentenceVect, 0.0f);	45	Arrays.fill(weightInSentenceVect, 0.0f);
46	if (_hiatus == ADAPTIVE_HIATUS)	46	if (_hiatus == ADAPTIVE_HIATUS)
47	_hiatusValue = ll.localHiatus();	47	_hiatusValue = ll.localHiatus();
48	int previousSentenceIdx = -1;	48	int previousSentenceIdx = -1;
49	int sentenceIdx = 0;	49	int sentenceIdx = 0;
50	int chainLength = 1;	50	int chainLength = 1;
51	int lemmasInChainCount = 0;	51	int lemmasInChainCount = 0;
52	int lemmaSentenceCount = ll.sentenceCount();	52	int lemmaSentenceCount = ll.sentenceCount();
53		53
54	for (int i=0; i<lemmaSentenceCount; i++)	54	for (int i=0; i<lemmaSentenceCount; i++)
55	{	55	{
56	sentenceIdx = ll.sentenceIdx(i);	56	sentenceIdx = ll.sentenceIdx(i);
57	presenceInSentenceVect[sentenceIdx] = true;	57	presenceInSentenceVect[sentenceIdx] = true;
58	if (_computeChains)	58	if (_computeChains)
59	{	59	{
60	if (previousSentenceIdx == -1)	60	if (previousSentenceIdx == -1)
61	previousSentenceIdx = sentenceIdx;	61	previousSentenceIdx = sentenceIdx;
62	if (_hiatus == NO_HIATUS \|\|	62	if (_hiatus == NO_HIATUS \|\|
63	sentenceIdx-previousSentenceIdx <= _hiatusValue)	63	sentenceIdx-previousSentenceIdx <= _hiatusValue)
64	{	64	{
65	chainLength += sentenceIdx-previousSentenceIdx;	65	chainLength += sentenceIdx-previousSentenceIdx;
66	lemmasInChainCount++;	66	lemmasInChainCount++;
67	}	67	}
68	else	68	else
69	{	69	{
70	setWeight(previousSentenceIdx, chainLength, lemmasInChainCount);	70	setWeight(previousSentenceIdx, chainLength, lemmasInChainCount);
71	chainLength = 1;	71	chainLength = 1;
72	lemmasInChainCount = 1;	72	lemmasInChainCount = 1;
73	}	73	}
74	previousSentenceIdx = sentenceIdx;	74	previousSentenceIdx = sentenceIdx;
75	}	75	}
76	}	76	}
77	if (_computeChains)	77	if (_computeChains)
78	setWeight(previousSentenceIdx, chainLength, lemmasInChainCount);	78	setWeight(previousSentenceIdx, chainLength, lemmasInChainCount);
79	}	79	}
80	//------------------------------------------------------------------------	80	//------------------------------------------------------------------------
81	/**	81	/**
82	* Cette fonction permet de pondŽrer un lien lexical en fonction de la densitŽ des occurrences	82	* Cette fonction permet de pondérer un lien lexical en fonction de la densité des occurrences
83	* du lemme, et du poids du lemme.	83	* du lemme, et du poids du lemme.
84	* @param lastSentenceIdx : numŽro de la phrase dans laquelle apparait la dernire occurrence	84	* @param lastSentenceIdx : numéro de la phrase dans laquelle apparait la dernière occurrence
85	* @param chainLength : longueur totale du lien lexical	85	* @param chainLength : longueur totale du lien lexical
86	* @param lemmasInChainCount : nombre d'occurrences du lemme dans le llien lexical	86	* @param lemmasInChainCount : nombre d'occurrences du lemme dans le llien lexical
87	*/	87	*/
88	void setWeight(int lastSentenceIdx, int chainLength, int lemmasInChainCount)	88	void setWeight(int lastSentenceIdx, int chainLength, int lemmasInChainCount)
89	{	89	{
90	if (chainLength > 1)	90	if (chainLength > 1)
91	{	91	{
92	float w = 1.0f;	92	float w = 1.0f;
93	if (_useWeight)	93	if (_useWeight)
94	w = _ll.maxWeight * lemmasInChainCount	94	w = _ll.maxWeight * lemmasInChainCount
95	* (float)Math.log((float)sentenceCount/(float)chainLength);	95	* (float)Math.log((float)sentenceCount/(float)chainLength);
96	for (int j=0; j<chainLength; j++)	96	for (int j=0; j<chainLength; j++)
97	weightInSentenceVect[lastSentenceIdx-j] = w;	97	weightInSentenceVect[lastSentenceIdx-j] = w;
98	}	98	}
99	}	99	}
100	}	100	}
101	//--------------------------------------------------------------------------	101	//--------------------------------------------------------------------------
102	public DefaultLexicalChainList(DefaultInputData in)	102	public DefaultLexicalChainList(DefaultInputData in)
103	{	103	{
104	input = in;	104	input = in;
105	dict = in.lemmaDict;	105	dict = in.lemmaDict;
106	config = in.config;	106	config = in.config;
107	String s = config.getParam("computeChains");	107	String s = config.getParam("computeChains");
108	_useWeight = (s.equals("weight"));	108	_useWeight = (s.equals("weight"));
109	_computeChains = (s.equals("yes") \|\| s.equals("weight"));	109	_computeChains = (s.equals("yes") \|\| s.equals("weight"));
110	String chains = config.getParam("lexicalChainsHiatus");	110	String chains = config.getParam("lexicalChainsHiatus");
111	if (chains.equals(""))	111	if (chains.equals(""))
112	_hiatus = NO_HIATUS;	112	_hiatus = NO_HIATUS;
113	else if (chains.equals("ADAPTIVE"))	113	else if (chains.equals("ADAPTIVE"))
114	_hiatus = ADAPTIVE_HIATUS;	114	_hiatus = ADAPTIVE_HIATUS;
115	else	115	else
116	{	116	{
117	_hiatus = FIXED_HIATUS;	117	_hiatus = FIXED_HIATUS;
118	_hiatusValue = Integer.parseInt(chains);	118	_hiatusValue = Integer.parseInt(chains);
119	}	119	}
120	sentenceCount = input.sentenceCount();	120	sentenceCount = input.sentenceCount();
121		121
122	for (int i=0; i<dict.lemmaCount(); i++)	122	for (int i=0; i<dict.lemmaCount(); i++)
123	{	123	{
124	LemmaDict.Lemma ll = dict.lemmaObject(i);	124	LemmaDict.Lemma ll = dict.lemmaObject(i);
125	// si le lemme est unique dans l'ensemble des phrases, on ne le garde pas	125	// si le lemme est unique dans l'ensemble des phrases, on ne le garde pas
126	if (_computeChains && ll.occurences < 2)	126	if (_computeChains && ll.occurences < 2)
127	continue;	127	continue;
128	Lemma lemma = new Lemma(ll);	128	Lemma lemma = new Lemma(ll);
129	if (true) // test à quelles conditions on ajoute le lemme	129	if (true) // test ‡ quelles conditions on ajoute le lemme
130	_lemmaList.add(lemma);	130	_lemmaList.add(lemma);
131	}	131	}
132	}	132	}
133	//--------------------------------------------------------------------------	133	//--------------------------------------------------------------------------
134	/**	134	/**
135	* Cette fonction renvoie le code d'un lemme ayant un index donnŽ	135	* Cette fonction renvoie le code d'un lemme ayant un index donné
136	* @param lemmaIdx : index du lemme	136	* @param lemmaIdx : index du lemme
137	* @return : le code du lemme	137	* @return : le code du lemme
138	*/	138	*/
139	public int lemmaCode(int lemmaIdx)	139	public int lemmaCode(int lemmaIdx)
140	{	140	{
141	return _lemmaList.get(lemmaIdx)._ll.code;	141	return _lemmaList.get(lemmaIdx)._ll.code;
142	}	142	}
143	//--------------------------------------------------------------------------	143	//--------------------------------------------------------------------------
144	/**	144	/**
145	* Cette fonction renvoie le nombre total de lemmes ayant un lien lexical	145	* Cette fonction renvoie le nombre total de lemmes ayant un lien lexical
146	* @return : un nombre de lemmes	146	* @return : un nombre de lemmes
147	*/	147	*/
148	public int lemmaCount()	148	public int lemmaCount()
149	{	149	{
150	return _lemmaList.size();	150	return _lemmaList.size();
151	}	151	}
152	//--------------------------------------------------------------------------	152	//--------------------------------------------------------------------------
153	/**	153	/**
154	* Cette fonction indique si un lemme donnŽ est prŽsent dans le texte initial dans une phrase donnŽe	154	* Cette fonction indique si un lemme donné est présent dans le texte initial dans une phrase donnée
155	* @param lemmaIdx : index du lemme ˆ tester	155	* @param lemmaIdx : index du lemme à tester
156	* @param sentenceIdx : numŽro de la phrase	156	* @param sentenceIdx : numéro de la phrase
157	* @return true si le lemme est prŽsent dans la phrase	157	* @return true si le lemme est présent dans la phrase
158	* false sinon	158	* false sinon
159	*	159	*
160	*/	160	*/
161	public boolean presence(int lemmaIdx, int sentenceIdx)	161	public boolean presence(int lemmaIdx, int sentenceIdx)
162	{	162	{
163	return _lemmaList.get(lemmaIdx).presenceInSentenceVect[sentenceIdx];	163	return _lemmaList.get(lemmaIdx).presenceInSentenceVect[sentenceIdx];
164	}	164	}
165	//--------------------------------------------------------------------------	165	//--------------------------------------------------------------------------
166	/**	166	/**
167	* Cette fonction permet d'accŽder au poids du lien lexical d'un lemme dans une phrase	167	* Cette fonction permet d'accéder au poids du lien lexical d'un lemme dans une phrase
168	* @param lemmaIdx : index du lemme	168	* @param lemmaIdx : index du lemme
169	* @param sentenceIdx : numŽro de la phrase	169	* @param sentenceIdx : numéro de la phrase
170	* @return : valeur du lien lexical du lemme dans la phrase si il y a un lien actif, 0 sinon	170	* @return : valeur du lien lexical du lemme dans la phrase si il y a un lien actif, 0 sinon
171	*/	171	*/
172	public float weight(int lemmaIdx, int sentenceIdx)	172	public float weight(int lemmaIdx, int sentenceIdx)
173	{	173	{
174	return _lemmaList.get(lemmaIdx).weightInSentenceVect[sentenceIdx];	174	return _lemmaList.get(lemmaIdx).weightInSentenceVect[sentenceIdx];
175	}	175	}
176	//--------------------------------------------------------------------------	176	//--------------------------------------------------------------------------
177	/**	177	/**
178	* Cette fonction permet d'appeller toString (false, false), une version par dŽfaut de l'affichage.	178	* Cette fonction permet d'appeller toString (false, false), une version par défaut de l'affichage.
179	*/	179	*/
180	public String toString()	180	public String toString()
181	{	181	{
182	return toString(false, false);	182	return toString(false, false);
183	}	183	}
184	//--------------------------------------------------------------------------	184	//--------------------------------------------------------------------------
185	/**	185	/**
186	* Cette fonction permet de tester et d'afficher les liens lexicaux calculŽs	186	* Cette fonction permet de tester et d'afficher les liens lexicaux calculés
187	* @param displayWeightZero : true pour affichier les poids mme quand les liens sont absents	187	* @param displayWeightZero : true pour affichier les poids même quand les liens sont absents
188	* @param displaySentenceContent : truc pour afficher le texte initial	188	* @param displaySentenceContent : truc pour afficher le texte initial
189	*	189	*
190	*/	190	*/
191	public String toString(boolean displayWeightZero,	191	public String toString(boolean displayWeightZero,
192	boolean displaySentenceContent)	192	boolean displaySentenceContent)
193	{	193	{
194	java.io.StringWriter w = new java.io.StringWriter();	194	java.io.StringWriter w = new java.io.StringWriter();
195	w.write(super.toString()+"\n");	195	w.write(super.toString()+"\n");
196	for (int i=0; i<_lemmaList.size(); i++)	196	for (int i=0; i<_lemmaList.size(); i++)
197	{	197	{
198	w.write("LEMMA #"+i	198	w.write("LEMMA #"+i
199	+" code("+lemmaCode(i)+")"	199	+" code("+lemmaCode(i)+")"
200	+" content("+dict.lemmaObject(lemmaCode(i)).content+")"	200	+" content("+dict.lemmaObject(lemmaCode(i)).content+")"
201	+"\n");	201	+"\n");
202	for (int sent=0; sent<sentenceCount; sent++)	202	for (int sent=0; sent<sentenceCount; sent++)
203	if (weight(i, sent) != 0.0f \|\| displayWeightZero)	203	if (weight(i, sent) != 0.0f \|\| displayWeightZero)
204	{	204	{
205	w.write(" SENTENCE #"+sent	205	w.write(" SENTENCE #"+sent
206	+" presence("+presence(i,sent)+")"	206	+" presence("+presence(i,sent)+")"
207	+" weight("+weight(i, sent)+")");	207	+" weight("+weight(i, sent)+")");
208	if (displaySentenceContent)	208	if (displaySentenceContent)
209	w.write(" content("+input.sentence(sent).content+")");	209	w.write(" content("+input.sentence(sent).content+")");
210	w.write("\n");	210	w.write("\n");
211	}	211	}
212	}	212	}
213	return w.toString();	213	return w.toString();
214	}	214	}
215	}	215	}
216		216

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/GapsScores.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2	/**	2	/**
3	* Cette interface est dŽdiŽe au calcul de probabilitŽ de ruptures entre phrases ou sŽquences de mots.	3	* Cette interface est dédiée au calcul de probabilité de ruptures entre phrases ou séquences de mots.
4	* elle se fonde sur le rŽsultat de LexicalChainList, qui fournit les lemmes importants de chaque phrase,	4	* elle se fonde sur le résultat de LexicalChainList, qui fournit les lemmes importants de chaque phrase,
5	* qu'ils constituent un lien lexical ou qu'ils soient juste prŽsents.	5	* qu'ils constituent un lien lexical ou qu'ils soient juste présents.
6	*	6	*
7	*	7	*
8	*/	8	*/
9	public interface GapsScores {	9	public interface GapsScores {
10	/**	10	/**
11	* La fonction renvoie un tableau des valeurs calculŽes pour tous les intervalles entre 2 unitŽs de traitement	11	* La fonction renvoie un tableau des valeurs calculées pour tous les intervalles entre 2 unités de traitement
12	* Il peut s'agir de valeurs ˆ maximiser ou ˆ minimiser.	12	* Il peut s'agir de valeurs à maximiser ou à minimiser.
13	* @return un tableau de valeurs	13	* @return un tableau de valeurs
14	*/	14	*/
15	public float[] values();	15	public float[] values();
16	/**	16	/**
17	* retourne le score de l'intervalle entre la phrase bound et la phrase bound+1	17	* retourne le score de l'intervalle entre la phrase bound et la phrase bound+1
18	* @param bound : numŽro de la phrase prŽcŽdent l'intervalle	18	* @param bound : numéro de la phrase précédent l'intervalle
19	* @return : un score	19	* @return : un score
20	*/	20	*/
21	public float bound_value(int bound);	21	public float bound_value(int bound);
22	/**	22	/**
23	* propose une sortie texte des valeurs calculŽes. le format est pour chaque intervalle une ligne :	23	* propose une sortie texte des valeurs calculées. le format est pour chaque intervalle une ligne :
24	* GAP X-X+1 : valeur	24	* GAP X-X+1 : valeur
25	* @return : une chaine de caractres	25	* @return : une chaine de caractères
26	*/	26	*/
27	public String to_string();	27	public String to_string();
28		28
29	}	29	}
30		30

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/LemmaDict.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	import java.util.*;	3	import java.util.*;
4		4
5	/**	5	/**
6	* Cette classe reprŽsente le contenu d'un dictionnaire de lemmes, chaque lemme Žtant dŽfini par un	6	* Cette classe représente le contenu d'un dictionnaire de lemmes, chaque lemme étant défini par un
7	* code (numŽro d'index), son contenu textuel, le poids maximal qui lui est attribuŽ dans le texte,	7	* code (numéro d'index), son contenu textuel, le poids maximal qui lui est attribué dans le texte,
8	* le nombre de fois o il apparait dans le texte, et la liste des phrases dans lesquelles il apparait.	8	* le nombre de fois où il apparait dans le texte, et la liste des phrases dans lesquelles il apparait.
9	*	9	*
10	*/	10	*/
11	class LemmaDict	11	class LemmaDict
12	{	12	{
13	//--------------------------------------------------------------------------	13	//--------------------------------------------------------------------------
14	class Lemma	14	class Lemma
15	{	15	{
16	int code;	16	int code;
17	String content;	17	String content;
18	float maxWeight;	18	float maxWeight;
19	int occurences = 1;	19	int occurences = 1;
20	private ArrayList<Integer> sentenceIdxList = new ArrayList<Integer>();	20	private ArrayList<Integer> sentenceIdxList = new ArrayList<Integer>();
21		21
22	private Lemma(int c, float w, String s, int i)	22	private Lemma(int c, float w, String s, int i)
23	{	23	{
24	code = c;	24	code = c;
25	maxWeight = w;	25	maxWeight = w;
26	content = s;	26	content = s;
27	sentenceIdxList.add(i);	27	sentenceIdxList.add(i);
28	}	28	}
29	int sentenceCount()	29	int sentenceCount()
30	{	30	{
31	return sentenceIdxList.size();	31	return sentenceIdxList.size();
32	}	32	}
33	int sentenceIdx(int i)	33	int sentenceIdx(int i)
34	{	34	{
35	return sentenceIdxList.get(i);	35	return sentenceIdxList.get(i);
36	}	36	}
37	int localHiatus()	37	int localHiatus()
38	{	38	{
39	int size = sentenceIdxList.size();	39	int size = sentenceIdxList.size();
40	return (sentenceIdxList.get(size-1) - sentenceIdxList.get(0)) / size + 1;	40	return (sentenceIdxList.get(size-1) - sentenceIdxList.get(0)) / size + 1;
41	}	41	}
42	}	42	}
43	private ArrayList<Lemma> _array = new ArrayList<Lemma>();	43	private ArrayList<Lemma> _array = new ArrayList<Lemma>();
44	private Hashtable<String, Integer> _table = new Hashtable<String,Integer>();	44	private Hashtable<String, Integer> _table = new Hashtable<String,Integer>();
45	//--------------------------------------------------------------------------	45	//--------------------------------------------------------------------------
46	int lemmaCode(String content)	46	int lemmaCode(String content)
47	{	47	{
48	return _table.get(content);	48	return _table.get(content);
49	}	49	}
50	//--------------------------------------------------------------------------	50	//--------------------------------------------------------------------------
51	Lemma lemmaObject(int lemmaCode)	51	Lemma lemmaObject(int lemmaCode)
52	{	52	{
53	return _array.get(lemmaCode);	53	return _array.get(lemmaCode);
54	}	54	}
55	//--------------------------------------------------------------------------	55	//--------------------------------------------------------------------------
56	int lemmaCount()	56	int lemmaCount()
57	{	57	{
58	return _array.size();	58	return _array.size();
59	}	59	}
60	//--------------------------------------------------------------------------	60	//--------------------------------------------------------------------------
61	int add(String content, float weight, int sentenceIdx)	61	int add(String content, float weight, int sentenceIdx)
62	{	62	{
63	Lemma l;	63	Lemma l;
64	Integer i = _table.get(content);	64	Integer i = _table.get(content);
65	if (i == null)	65	if (i == null)
66	{	66	{
67	int code = _array.size();	67	int code = _array.size();
68	String s = new String(content);	68	String s = new String(content);
69	_table.put(s, code);	69	_table.put(s, code);
70	_array.add(new Lemma(code, weight, s, sentenceIdx));	70	_array.add(new Lemma(code, weight, s, sentenceIdx));
71	return code;	71	return code;
72	}	72	}
73	l = _array.get(i);	73	l = _array.get(i);
74	l.maxWeight = Math.max(weight, l.maxWeight);	74	l.maxWeight = Math.max(weight, l.maxWeight);
75	l.occurences++;	75	l.occurences++;
76	l.sentenceIdxList.add(sentenceIdx);	76	l.sentenceIdxList.add(sentenceIdx);
77	return i;	77	return i;
78	}	78	}
79	//--------------------------------------------------------------------------	79	//--------------------------------------------------------------------------
80	public String toString()	80	public String toString()
81	{	81	{
82	java.io.StringWriter w = new java.io.StringWriter();	82	java.io.StringWriter w = new java.io.StringWriter();
83	w.write(super.toString()+"\n");	83	w.write(super.toString()+"\n");
84	for (int i=0; i<lemmaCount(); i++)	84	for (int i=0; i<lemmaCount(); i++)
85	{	85	{
86	Lemma l = lemmaObject(i);	86	Lemma l = lemmaObject(i);
87	w.write("LEMMA"	87	w.write("LEMMA"
88	+" code("+l.code /= i/+")"	88	+" code("+l.code /= i/+")"
89	+" content("+l.content+")"	89	+" content("+l.content+")"
90	+" maxWeight("+l.maxWeight+")"	90	+" maxWeight("+l.maxWeight+")"
91	+" occurences("+l.occurences+")"	91	+" occurences("+l.occurences+")"
92	+" localHiatus("+l.localHiatus()+")"	92	+" localHiatus("+l.localHiatus()+")"
93	+" sentences#(");	93	+" sentences#(");
94	for (int j=0; j<l.sentenceCount(); j++)	94	for (int j=0; j<l.sentenceCount(); j++)
95	{	95	{
96	if (j!=0)	96	if (j!=0)
97	w.write(",");	97	w.write(",");
98	w.write(""+l.sentenceIdx(j)); // "" mandatory to avoid bug	98	w.write(""+l.sentenceIdx(j)); // "" mandatory to avoid bug
99	}	99	}
100	w.write(")\n");	100	w.write(")\n");
101	}	101	}
102	return w.toString();	102	return w.toString();
103	}	103	}
104	//--------------------------------------------------------------------------	104	//--------------------------------------------------------------------------
105	}	105	}

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/LexicalChainList.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	/**	3	/**
4	* Cette classe gre le calcul des liens lexicaux, et plus gŽnŽralement de la reprŽsentation du texte,	4	* Cette classe gère le calcul des liens lexicaux, et plus généralement de la représentation du texte,
5	* en se basant sur des valeurs associŽes ˆ chaque lemme du dictionnaire des lemmes sur l'ensemble des phrases	5	* en se basant sur des valeurs associées à chaque lemme du dictionnaire des lemmes sur l'ensemble des phrases
6	* du texte analysŽ. Un lemme peut tre reprŽsentŽ par n'importe quelle cha”ne de caractres.	6	* du texte analysé. Un lemme peut être représenté par n'importe quelle chaîne de caractères.
7	*	7	*
8	*/	8	*/
9	public interface LexicalChainList {	9	public interface LexicalChainList {
10	/**	10	/**
11	*	11	*
12	* @param lemmaIdx : numŽro d'index du lemme	12	* @param lemmaIdx : numéro d'index du lemme
13	* @return le code du lemme	13	* @return le code du lemme
14	*/	14	*/
15	int lemmaCode(int lemmaIdx);	15	int lemmaCode(int lemmaIdx);
16		16
17	/**	17	/**
18	*	18	*
19	* @return le nombre de lemmes recensŽs dans la reprŽsentation du texte.	19	* @return le nombre de lemmes recensés dans la représentation du texte.
20	*/	20	*/
21	int lemmaCount();	21	int lemmaCount();
22		22
23	/**	23	/**
24	*	24	*
25	* @param lemmaIdx : numŽro d'index du lemme	25	* @param lemmaIdx : numéro d'index du lemme
26	* @param sentenceIdx : numŽro de la phrase (ou unitŽ de traitement)	26	* @param sentenceIdx : numéro de la phrase (ou unité de traitement)
27	* @return : true si le lemme ou est reprŽsentŽ dans la phrase.	27	* @return : true si le lemme ou est représenté dans la phrase.
28	*/	28	*/
29	boolean presence(int lemmaIdx, int sentenceIdx);	29	boolean presence(int lemmaIdx, int sentenceIdx);
30		30
31	/**	31	/**
32	*	32	*
33	* @param lemmaIdx : numŽro d'index du lemme	33	* @param lemmaIdx : numéro d'index du lemme
34	* @param sentenceIdx : numŽro de la phrase (ou unitŽ de traitement)	34	* @param sentenceIdx : numéro de la phrase (ou unité de traitement)
35	* @return : le poids du lemme dans la phrase, qui peut tre par exemple un nombre d'occurrences ou le poids d'un llien lexical, ou encore un score d'affinitŽs lexicales.	35	* @return : le poids du lemme dans la phrase, qui peut être par exemple un nombre d'occurrences ou le poids d'un llien lexical, ou encore un score d'affinités lexicales.
36	*/	36	*/
37	float weight(int lemmaIdx, int sentenceIdx);	37	float weight(int lemmaIdx, int sentenceIdx);
38		38
39	/**	39	/**
40	* Cette fonction doit permettre un affichage ˆ l'Žcran ou une sortie fichier pour pouvoir suivre le fonctionnement du programme	40	* Cette fonction doit permettre un affichage à l'écran ou une sortie fichier pour pouvoir suivre le fonctionnement du programme
41	* @return : une cha”ne de caractres contenant par exemple pour chaque phrase les lemmes qui lui sont affectŽs, ou l'inverse...	41	* @return : une chaîne de caractères contenant par exemple pour chaque phrase les lemmes qui lui sont affectés, ou l'inverse...
42	*/	42	*/
43	public String toString();	43	public String toString();
44		44
45	}	45	}
46		46

tools/SIGMUND/LIA_topic_seg/src/LIA_topic_seg/Sentence.java

Diff comments View file @ a564ec1

1	package LIA_topic_seg;	1	package LIA_topic_seg;
2		2
3	import java.util.*;	3	import java.util.*;
4		4
5	/**	5	/**
6	* Cette classe reprŽsente les informations contenues dans une phrase, c'est ˆ dire un texte brut	6	* Cette classe représente les informations contenues dans une phrase, c'est à dire un texte brut
7	* et un ensemble de lemmes pondŽrŽs.	7	* et un ensemble de lemmes pondérés.
8	*/	8	*/
9	class Sentence	9	class Sentence
10	{	10	{
11	//--------------------------------------------------------------------------	11	//--------------------------------------------------------------------------
12	/**	12	/**
13	* Cette classe permet de conserver les informations sur un lemme, c'est ˆ dire son rang d'accs	13	* Cette classe permet de conserver les informations sur un lemme, c'est à dire son rang d'accès
14	* dans le dictionnaire des lemmes, et le poids qui lui est attribuŽ dans le fichier d'entrŽe.	14	* dans le dictionnaire des lemmes, et le poids qui lui est attribué dans le fichier d'entrée.
15	*/	15	*/
16	class Lemma	16	class Lemma
17	{	17	{
18	int code;	18	int code;
19	float weight;	19	float weight;
20		20
21	Lemma(int c, float w)	21	Lemma(int c, float w)
22	{	22	{
23	code = c;	23	code = c;
24	weight = w;	24	weight = w;
25	}	25	}
26	}	26	}
27	//--------------------------------------------------------------------------	27	//--------------------------------------------------------------------------
28	String content;	28	String content;
29	private ArrayList<Lemma> _lemmaList = new ArrayList<Lemma>();	29	private ArrayList<Lemma> _lemmaList = new ArrayList<Lemma>();
30	//private Hashtable<Integer, Integer> _dict	30	//private Hashtable<Integer, Integer> _dict
31	// = new Hashtable<Integer, Integer>(); // code + occurences	31	// = new Hashtable<Integer, Integer>(); // code + occurences
32	private int _wordCount;	32	private int _wordCount;
33	private boolean _wordCountDefined = false;	33	private boolean _wordCountDefined = false;
34	//--------------------------------------------------------------------------	34	//--------------------------------------------------------------------------
35		35
36	/**	36	/**
37	* Cette fonction permet de signaler la prŽsence d'un lemme dans une phrase	37	* Cette fonction permet de signaler la présence d'un lemme dans une phrase
38	* @param code : le code issu du dictionnaire des lemmes	38	* @param code : le code issu du dictionnaire des lemmes
39	* @param weight : le poids attribuŽ au lemme dans la phrase	39	* @param weight : le poids attribué au lemme dans la phrase
40	*/ void addLemma(int code, float weight)	40	*/ void addLemma(int code, float weight)
41	{	41	{
42	//int occurences = 1;	42	//int occurences = 1;
43	//Integer xocc = _dict.get(code);	43	//Integer xocc = _dict.get(code);
44	//if (xocc != null)	44	//if (xocc != null)
45	// occurences = xocc.intValue()+1;	45	// occurences = xocc.intValue()+1;
46	//_dict.put(code, occurences);	46	//_dict.put(code, occurences);
47	_lemmaList.add(new Lemma(code, weight));	47	_lemmaList.add(new Lemma(code, weight));
48	}	48	}
49	//--------------------------------------------------------------------------	49	//--------------------------------------------------------------------------
50	/**	50	/**
51	* Cette fonction permet de calculer de manire basique le nombre de mots du texte brut de la phrase	51	* Cette fonction permet de calculer de manière basique le nombre de mots du texte brut de la phrase
52	* les sŽparateurs de mots utilisŽs sont les caractres d'espacement.	52	* les séparateurs de mots utilisés sont les caractères d'espacement.
53	* @return : retourne le nombre de mots de la phrase	53	* @return : retourne le nombre de mots de la phrase
54	*/	54	*/
55	int wordCount()	55	int wordCount()
56	{	56	{
57	if (!_wordCountDefined)	57	if (!_wordCountDefined)
58	{	58	{
59	_wordCount = new StringTokenizer(content, " '\t\n\r\f").countTokens();	59	_wordCount = new StringTokenizer(content, " '\t\n\r\f").countTokens();
60	_wordCountDefined = true;	60	_wordCountDefined = true;
61	}	61	}
62	return _wordCount;	62	return _wordCount;
63	}	63	}
64	//--------------------------------------------------------------------------	64	//--------------------------------------------------------------------------
65	/**	65	/**
66	* Cette fonction renvoie le nombre de lemmes associŽs ˆ la phrase	66	* Cette fonction renvoie le nombre de lemmes associés à la phrase
67	* @return le nombre de lemmes	67	* @return le nombre de lemmes
68	*/	68	*/
69	int lemmaCount()	69	int lemmaCount()
70	{	70	{
71	return _lemmaList.size();	71	return _lemmaList.size();
72	}	72	}
73	//--------------------------------------------------------------------------	73	//--------------------------------------------------------------------------
74	/**	74	/**
75	*Cette fonction permet d'accŽder ˆ un lemme de la phrase en fonction de son rang dans la phrase	75	*Cette fonction permet d'accéder à un lemme de la phrase en fonction de son rang dans la phrase
76	*@return un objet de type Lemma (dŽfini par un code dans le dictionnaire des lemmes et un poids)	76	*@return un objet de type Lemma (défini par un code dans le dictionnaire des lemmes et un poids)
77	*/	77	*/
78		78
79	Lemma lemmaObject(int lemmaIdx)	79	Lemma lemmaObject(int lemmaIdx)
80	{	80	{
81	return _lemmaList.get(lemmaIdx);	81	return _lemmaList.get(lemmaIdx);
82	}	82	}
83	//--------------------------------------------------------------------------	83	//--------------------------------------------------------------------------
84	//int lemmaOccurences(int lemmaCode)	84	//int lemmaOccurences(int lemmaCode)
85	//{	85	//{
86	// return _dict.get(lemmaCode);	86	// return _dict.get(lemmaCode);
87	//}	87	//}
88	//--------------------------------------------------------------------------	88	//--------------------------------------------------------------------------
89	}	89	}
90		90

tools/SIGMUND/LIA_topic_seg/src/Test.java

Diff comments View file @ a564ec1

 import LIA_topic_seg.*;
 import java.io.*;
 import java.util.*;
 /**
- * Cet exemple recense la plupart des possibilitŽs pour une utilisation minimale de l'application
+ * Cet exemple recense la plupart des possibilités pour une utilisation minimale de l'application
- * l'exŽcution directe applique les paramtres par dŽfaut.
+ * l'exécution directe applique les paramètres par défaut.
  *
  */
 class Test
 {
   public static void main(String args[])
   {
   	try
   	{
-  		//crŽation d'une configuration avec les paramtres par dŽfaut
+  		//création d'une configuration avec les paramètres par défaut
   		DefaultConfig c = new DefaultConfig();
-  		//  	lorsque on veut utiliser un fichier de configuration connu ˆ l'avance
+  		//  	lorsque on veut utiliser un fichier de configuration connu à l'avance
   		//c.load("config3.xml");
-  		//on peut rŽcupŽrer Žgalement les paramtres en ligne de commande
+  		//on peut récupérer également les paramètres en ligne de commande
   		//en cas de conflit avec le fichier de configuration, c'est la ligne de commande qui est prioritaire
-         //c.setParamsFromCmdLine(args); // on peut ajouter des paramtres en ligne de commande Žgalement (nom du fichier, nombre de frontires ˆ calculer, ...)
+         //c.setParamsFromCmdLine(args); // on peut ajouter des paramètres en ligne de commande également (nom du fichier, nombre de frontières à calculer, ...)
   		//c.save("config.xml");
-  		/* 	pour passer un fichier de configuration en paramtre
+  		/* 	pour passer un fichier de configuration en paramètre
   		DefaultConfig cc = new DefaultConfig();
   		cc.setParamsFromCmdLine(args);
   		DefaultConfig c = new DefaultConfig();
   		if (cc.getParam("config") != null)
   			c.load(cc.getParam("config"));
   		c.setParamsFromCmdLine(args);
   		c.save("config3.xml");
   		*/
       System.out.println(c.toString());
       //--------------------------------------------------------------------------
       //InputData input = new InputData(c, c.getParam("file"));
-      DefaultInputData input = new DefaultInputData(c, "0.xml");
+      //DefaultInputData input = new DefaultInputData(c, "0.xml");
+      DefaultInputData input = new DefaultInputData(c, args[0]);
       //--------------------------------------------------------------------------
       DefaultLexicalChainList chains = new DefaultLexicalChainList(input);
   /* impression de la trace du calcul des liens lexicaux
       System.out.println("Liste des phrases");
       System.out.println("=================");
       System.out.println(input.toString());
       System.out.println("\nDictionnaire des lemmes");
       System.out.println("=======================");
       System.out.println(input.lemmaDict.toString());
       System.out.println("\nChaines lexicales");
       System.out.println("=================");
       System.out.println(chains.toString(false, false));
 */
       //--------------------------------------------------------------------------
       DefaultGapsScores scores = new DefaultGapsScores(chains, input.sentenceCount());
-      // choix du calcul des valeurs affectŽes aux intervalles
+      // choix du calcul des valeurs affectées aux intervalles
-     // fonction automatiquement lancŽe ˆ l'initialisation : scores.compute_cos(); //similaritŽs cosine
+     // fonction automatiquement lancée à l'initialisation : scores.compute_cos(); //similarités cosine
       System.out.println(scores.to_string());
-      //les autres fonctions de calcul des scores sont facultatives, et peuvent tre lancŽes successivement.
+      //les autres fonctions de calcul des scores sont facultatives, et peuvent être lancées successivement.
-      scores.compute_smoothing(1); //lissage du calcul des similaritŽs
+      scores.compute_smoothing(1); //lissage du calcul des similarités
       System.out.println(scores.to_string());
-       //scores.compute_depth_scores(); //calcul des scores de profondeur de similaritŽ, peut s'utiliser avec ou sans lissage
+       //scores.compute_depth_scores(); //calcul des scores de profondeur de similarité, peut s'utiliser avec ou sans lissage
       //System.out.println(scores.to_string());
       //--------------------------------------------------------------------------
           DefaultBoundaries bound = new DefaultBoundaries(scores, 9);
      // DefaultBoundaries bound = new DefaultBoundaries(scores, c.getParam("n");
-          // choix du systme de calcul des frontires, en fonction du calcul choisi prŽcŽdemment
+          // choix du système de calcul des frontières, en fonction du calcul choisi précédemment
           // il faut en choisir 1 parmi les 3
-      //bound.compute_min_similarities(); //ˆ utiliser aprs compute_cos et/ou compute_smoothing
+      //bound.compute_min_similarities(); //à utiliser après compute_cos et/ou compute_smoothing
-      bound.compute_loc_min(2); //ˆ utiliser aprs compute_cos et/ou compute_smoothing
+      bound.compute_loc_min(2); //à utiliser après compute_cos et/ou compute_smoothing
-      // bound.compute_max_depth(); //ˆ utiliser aprs compute_depth_scores
+      // bound.compute_max_depth(); //à utiliser après compute_depth_scores
       //--------------------------------------------------------------------------
-      //impression du rŽsultat ˆ l'Žcran
+      //impression du résultat à l'écran
-      System.out.println(bound.to_string()); //numŽros de phrases aprs lesquelles il y a une frontire thŽmatique
+      System.out.println(bound.to_string()); //numéros de phrases après lesquelles il y a une frontière thématique
-      System.out.println(input.result_lines(bound)); // sortie pour les application d'Žvaluation
+      System.out.println(input.result_lines(bound)); // sortie pour les application d'évaluation
-     // System.out.println(input.result_complete(bound)); //sortie au mme format que l'entrŽe, avec les mmes informations
+     // System.out.println(input.result_complete(bound)); //sortie au même format que l'entrée, avec les mêmes informations
-     // System.out.println(input.result_text_only(bound)); //sortie au format xml, avec uniquement le texte dŽlimitŽ par des balises <seg>
+     // System.out.println(input.result_text_only(bound)); //sortie au format xml, avec uniquement le texte délimité par des balises <seg>
     }
     catch (Exception e)
     {
       e.printStackTrace();
     }
   }
 }

tools/scripts/ProcessSOLRQueries.py

Diff comments View file @ a564ec1

 #!/usr/bin/python
 # -*- coding: utf-8 -*-
 from urllib2 import *
 import json
 from pprint import pprint
 import sys
 from solrinfo import *
 def obtainSOLRInfos(webName, query):
     #print 'http://194.57.216.43:8080/' + webName + '/select?q='+ query + '&wt=json'
     #conn = urlopen('http://194.57.216.43:8080/' + webName + '/select?q='+ query + '&wt=json')
-    print 'http://'+machine+':'+port+'/' + webName + '/select?q='+ query + '&wt=json'
+    print 'http://'+machine+':'+port+'/' + webName + '/select?q='+ query + '&wt=json' + ' timeout = 30 '
-    conn = urlopen('http://'+machine+':'+port+'/' + webName + '/select?q='+ query + '&wt=json')
+    conn = urlopen('http://'+machine+':'+port+'/' + webName + '/select?q='+ query + '&wt=json', timeout = 30)
     rsp = json.load(conn)
+    conn.close()
     keywords = ""
     txts = ""
     for doc in rsp['response']['docs']:
         jsonDoc = json.loads(doc['jsonDocument'].encode("utf-8"))
 	if 'extractedData' in jsonDoc:
             if 'entityTags' in jsonDoc['extractedData']:
         	for keyword in jsonDoc['extractedData']['entityTags']:
                     for item in jsonDoc['extractedData']['entityTags'][keyword]:
                         for access in item:
                             keywords += item[access]['value'].encode("utf-8") + "\n"
 	if 'content' in jsonDoc:
 	    if 'body' in jsonDoc['content']:
 		if 'textBlock' in jsonDoc['content']['body']['textBlocks']:
 		    for txt in jsonDoc['content']['body']['textBlocks']['textBlock']:
 			if 'parag' in txt:
                             for parag in txt['parag']:
 				for textOrMedia in parag['textOrMultimediaRef']:
 				    if 'text' in textOrMedia:
 				        txts += textOrMedia['text']['value'].encode("utf-8")
 	    if 'text' in jsonDoc['content']:
                 for txt in jsonDoc['content']['text']:
                     txts += txt['value'].encode("utf-8")
     return keywords, txts
 if len(sys.argv) != 4:
     print "BAD USAGE: <(i) input queries> <(o) keywords out file> <(o) text out file>\n"
     sys.exit(-1)
 fileName = sys.argv[1]
 keywordsFile = sys.argv[2]
 txtsFile = sys.argv[3]
 inFile = open(fileName, "r")
 outKeywords = open(keywordsFile, "w")
 outTxts = open(txtsFile, "w")
 lines = inFile.readlines()
 for query in lines:
     query = query.rstrip()
 #    print query
     keywords, txt = obtainSOLRInfos('solr-otmedia-document', query)
     outKeywords.write(keywords)
     outTxts.write(txt)
     keywords, txt = obtainSOLRInfos('solr-otmedia-multimedia', query)
     outKeywords.write(keywords)
     outTxts.write(txt)
 outKeywords.close()
 outTxts.close()
+inFile.close()