New organisation of the project

Mathias Quillot
1 parent c95c2bf75c
Showing 44 changed files with 544 additions and 210 deletions Side-by-side Diff
README.md
bin/regroup-measures.py
bin/replace-features.py
config/archives/ivector_config.sh
config/archives/pv_from_xv_config.sh
config/archives/pvector_config.sh
config/archives/pvector_layer1_config.sh
config/archives/pvector_layer2_config.sh
config/archives/pvector_layer3_config.sh
config/archives/pvector_layer4_config.sh
config/archives/xvector_config.sh
config/config_iv.sh
config/config_iv_skyrim.sh
config/config_pv_from_iv.sh
config/config_pv_from_xv.sh
config/config_without_kfold_iv.sh
config/config_xv.sh
config/ivector_config.sh
config/pv_from_xv_config.sh
config/pvector_config.sh
 # Clustering
 A repository where i put everything dealing with clustering algorithms.
  
+# How to use
+You can run directly the run.sh script if you want. You just need data.
+
+You can use some scripts in utils tool, but run these scripts from the root directory "clustering/".
+
 # TODO 
 - Organiser les différentes listes de données pour mes expériences
 - Create a data file example
@@ -40,6 +40,8 @@
 # -- PARSER
 parser = argparse.ArgumentParser(description="")
 parser.add_argument("expdir", type=str, help="Directory of experiment")
+parser.add_argument("--nkfold", type=int, default=4, help="number of kfold")
+parser.add_argument("--nkfoldmin", type=int, default=1, help="Begin with this numero of kfold")
 parser.add_argument("--measurefile", type=str, default="measures.json", 
                     help="Measure file it searchs in folders")
 parser.add_argument("--suffix", type=str, default="", 
@@ -49,6 +51,8 @@
 EXP_DIR = args.expdir
 MEASURE_FILE = args.measurefile
 SUFFIX = args.suffix
+MAX_KFOLD = args.nkfold
+MIN_KFOLD = args.nkfoldmin
  
 # EXP_DIR="exp/kmeans_teacher_1/pvector-1"
 RESULTS_DIR = os.path.join(EXP_DIR, "res")
@@ -83,7 +87,7 @@
  
 measures = init_measures()
  
-for kfold in range(1, 5):
+for kfold in range(MIN_KFOLD, MAX_KFOLD + 1):
     print("Regrouping on kfold: " + str(kfold))
     # -- REGROUP MEASURES INTO LISTS
     for k in range(kmin, kmax+1):
+
+import argparse
+
+from data import read_file, index_by_id, write_line
+
+# -- ARGPARSE
+parser = argparse.ArgumentParser(
+    description="Replace features with file from to file to")
+parser.add_argument("fromfile", type=str, help="From list or features file")
+parser.add_argument("tofile", type=str, help="Features of 'from' saved into this file.")
+
+args = parser.parse_args()
+FROM = args.fromfile
+TO = args.tofile
+
+
+# -- READ AND INDEX FILES
+from_data = read_file(FROM)
+from_by_id = index_by_id(from_data)
+
+to_data = read_file(TO)
+
+with open(TO, "w") as f:
+    for line in to_data:
+        metas = line[0]
+        features = from_by_id[metas[0]][metas[3]][1]
+        write_line(metas, features, f)
+OUTDIR="exp/kmeans_euclidian/ivectors"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILE="data/ivectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+
+KMIN=2
+KMAX=100
+
+# Framework configuration
+OUTDIR="exp/kmeans_euclidian/pv_from_xv"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILES_BEGIN="${DATADIR}/pv_from_xv/me_pv_teacher"
+VECTOR_FILES_END=".txt"
+VECTOR_FILE="" # To specify if there's only one
+VECTOR_FILES_ONE=false # Specify there's only one file
+
+KMIN=2
+KMAX=100
+
+OUTDIR="exp/kmeans_euclidian/teacher-pvector-1"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/pvectors_teacher"
+VECTOR_FILES_END=".txt"
+VECTOR_FILE="" # To specify if there's only one
+VECTOR_FILES_ONE=false # Specify there's only one file
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer1"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_1"
+VECTOR_FILES_END=".txt"
+VECTOR_FILE="" # To specify if there's only one
+VECTOR_FILES_ONE=false # Specify there's only one file
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer2"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_2"
+VECTOR_FILES_END=".txt"
+VECTOR_FILE="" # To specify if there's only one
+VECTOR_FILES_ONE=false # Specify there's only one file
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer3"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_3"
+VECTOR_FILES_END=".txt"
+VECTOR_FILE="" # To specify if there's only one
+VECTOR_FILES_ONE=false # Specify there's only one file
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer4"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_4"
+VECTOR_FILES_END=".txt"
+VECTOR_FILE="" # To specify if there's only one
+VECTOR_FILES_ONE=false # Specify there's only one file
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian/xvectors"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILE="data/xvectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian/iv"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILE="data/ivectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+
+METAS_CHARACTER="data/masseffect.lst"
+CHAR_INFO="data/masseffect_character_information.csv"
+
+ORIGINAL_VECTOR_FILE="${VECTOR_FILE}"
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian_skyrim/iv"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILE="../data/skyrim/skyrim_ivectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+
+METAS_CHARACTER="../data/skyrim/skyrim.lst"
+CHAR_INFO="data/skyrim_character_information.csv"
+
+ORIGINAL_VECTOR_FILE="${VECTOR_FILE}"
+
+KMIN=2
+KMAX=100
+
+if [ -z "$kfold" ]
+then
+	kfold=1
+fi
+
+if [ -z "${t}" ]
+then
+	t=2.0
+fi
+
+OUTDIR="exp/kmeans_euclidian/pv_from_iv/${kfold}"
+DATADIR="data"
+MOTHER_LST_DIR="/local_disk/pegasus/laboinfo/mquillot/vocal_similarity_system/data/prot_alpha"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+
+VECTOR_FILE="/local_disk/pegasus/laboinfo/mquillot/knowledge_distillation/exp/kd_iv/${kfold}/${t}/teacher/masseffect_pvectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+ORIGINAL_VECTOR_FILE="/local_disk/pegasus/laboinfo/mquillot/knowledge_distillation/data/masseffect.txt"
+
+
+MIN_KFOLD=${kfold}
+MAX_KFOLD=${kfold}
+
+KMIN=2
+KMAX=100
+
+if [ -z "$kfold" ]
+then
+	kfold=1
+fi
+
+if [ -z "${t}" ]
+then
+	t=2.0
+fi
+
+OUTDIR="exp/kmeans_euclidian/pv_from_xv/${kfold}"
+DATADIR="data"
+MOTHER_LST_DIR="/local_disk/pegasus/laboinfo/mquillot/vocal_similarity_system/data/prot_alpha"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+
+VECTOR_FILE="/local_disk/pegasus/laboinfo/mquillot/knowledge_distillation/exp/kd_xvectors/${kfold}/${t}/teacher/masseffect_pvectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+ORIGINAL_VECTOR_FILE="/local_disk/pegasus/laboinfo/mquillot/knowledge_distillation/data/masseffect_xvectors.txt"
+
+MIN_KFOLD=${kfold}
+MAX_KFOLD=${kfold}
+
+KMIN=2
+KMAX=100
+OUTDIR="exp/kmeans_euclidian_skyrim/ivectors"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+LST_FILE="/local_disk/pegasus/laboinfo/mquillot/data/skyrim/skyrim_ivectors.txt"
+VECTOR_FILE="data/ivectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+
+WITHOUT_KFOLD=""
+KMIN=2
+KMAX=100
+
+METAS_CHARACTER=""
+OUTDIR="exp/kmeans_euclidian/xv"
+DATADIR="data"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+VECTOR_FILE="data/xvectors.txt" # To specify if there's only one
+VECTOR_FILES_ONE=true # Specify there's only one file
+
+ORIGINAL_VECTOR_FILE="${VECTOR_FILE}"
+KMIN=2
+KMAX=100
-OUTDIR="exp/kmeans_euclidian/ivectors"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILE="data/ivectors.txt" # To specify if there's only one
-VECTOR_FILES_ONE=true # Specify there's only one file
-
-KMIN=2
-KMAX=100
-
-# Framework configuration
-OUTDIR="exp/kmeans_euclidian/pv_from_xv"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILES_BEGIN="${DATADIR}/pv_from_xv/me_pv_teacher"
-VECTOR_FILES_END=".txt"
-VECTOR_FILE="" # To specify if there's only one
-VECTOR_FILES_ONE=false # Specify there's only one file
-
-KMIN=2
-KMAX=100
-
-OUTDIR="exp/kmeans_euclidian/teacher-pvector-1"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/pvectors_teacher"
-VECTOR_FILES_END=".txt"
-VECTOR_FILE="" # To specify if there's only one
-VECTOR_FILES_ONE=false # Specify there's only one file
-
-KMIN=2
-KMAX=100
-OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer1"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_1"
-VECTOR_FILES_END=".txt"
-VECTOR_FILE="" # To specify if there's only one
-VECTOR_FILES_ONE=false # Specify there's only one file
-
-KMIN=2
-KMAX=100
-OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer2"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_2"
-VECTOR_FILES_END=".txt"
-VECTOR_FILE="" # To specify if there's only one
-VECTOR_FILES_ONE=false # Specify there's only one file
-
-KMIN=2
-KMAX=100
-OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer3"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_3"
-VECTOR_FILES_END=".txt"
-VECTOR_FILE="" # To specify if there's only one
-VECTOR_FILES_ONE=false # Specify there's only one file
-
-KMIN=2
-KMAX=100
-OUTDIR="exp/kmeans_euclidian/teacher-pvector-layer4"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/embedding_activation_4"
-VECTOR_FILES_END=".txt"
-VECTOR_FILE="" # To specify if there's only one
-VECTOR_FILES_ONE=false # Specify there's only one file
-
-KMIN=2
-KMAX=100
-OUTDIR="exp/kmeans_euclidian/xvectors"
-DATADIR="data"
-NEW_LSTDIR="${OUTDIR}/lst"
-
-VECTOR_FILE="data/xvectors.txt" # To specify if there's only one
-VECTOR_FILES_ONE=true # Specify there's only one file
-
-KMIN=2
-KMAX=100
-
-
-# Number of set
-k=4
-
-
-# Vector features file
-DATADIR="data"
-
-VECTOR_FILE_MASSEFFECT="${DATADIR}/xvectors.txt"
-
-for kmean in 12 41 45 50 6 69 72 88
-do
-    echo "KMEAN: ${kmean}"
-	# Dirs
-	EXP_DIR="exp/kmeans_euclidian/pv_from_xv/${k}/${kmean}"
-	CLUSTERING="${EXP_DIR}/clustering_${kmean}.pkl"
-
-
-	# Output dirs
-	OUTFILE_MASSEFFECT="data/pv_from_xv/saved_clustered/masseffect_clustered_${k}_${kmean}.txt"
-	echo "Extracting"
-	python3 bin/extract_kmeans.py "${CLUSTERING}" \
-		    "${VECTOR_FILE_MASSEFFECT}" \
-			--outfile "$OUTFILE_MASSEFFECT"
-	echo "End extracting"
-done
-
-
-# Number of set
-k=4
-kmean=88
-
-
-# Vector features file
-VECTOR_FILE_MASSEFFECT="data/xvectors.txt"
-
-
-# Dirs
-EXP_DIR="exp/kmeans_euclidian/xvectors/${k}/${kmean}"
-CLUSTERING="${EXP_DIR}/clustering_${kmean}.pkl"
-
-
-# Output dirs
-OUTFILE_MASSEFFECT="data/xvectors/saved_clustered/masseffect_clustered_xvectors_${k}_${kmean}.txt"
-
-python3 bin/extract_kmeans.py "${CLUSTERING}" \
-        "${VECTOR_FILE_MASSEFFECT}" \
-        --outfile "$OUTFILE_MASSEFFECT"
-
-if [ $# -eq 1 ]
-then
-    EXP_DIR="$1"
-else
-    echo "Need to have one and only one argument. This argument is the exp directory."
-    exit 1
-fi
-
-for kfold in {1..4}
-do
-    for k in {1..100}
-    do
-        rm ${EXP_DIR}/$kfold/$k/clustered_$k.txt
-    done
-done
@@ -29,7 +29,7 @@
  
  
 # -- TRAIN KMEANS 
-echo "Clustering - ${kfold}"
+echo "Clustering - ${kfold}"sss
 python3 bin/cluster_kmeans.py "${VECTOR_FILE}" \
     "${TRAIN_LST}" \
     "${EXP_DIR}" --kmin ${KMIN} --kmax ${KMAX}
@@ -2,7 +2,9 @@
 # quelques petites commandes que l'on souhaite
 # tester.
  
-OUTDIR="exp/kmeans_euclidian/teacher-pvector-1"
+set -e
+
+OUTDIR="exp/kmeans_euclidian/ivectors"
 EXP_DIR=${OUTDIR}
 DATADIR="data"
 NEW_LSTDIR="${OUTDIR}/lst"
@@ -22,8 +24,8 @@
  
 for kfold in {1..4}
 do
-    pvector_file="${DATADIR}/pvectors_1rst/pvectors_teacher_${kfold}.txt"
-    VECTOR_FILE=$pvector_file
+    #pvector_file="${DATADIR}/pvectors_1rst/pvectors_teacher_${kfold}.txt"
+    VECTOR_FILE="${DATADIR}/ivectors.txt"
     lst_dir="${DATADIR}/pvectors_1rst/lst"
     output_kfold="${OUTDIR}/${kfold}"
  
  
  
  
@@ -61,58 +63,19 @@
     do
         echo "Kmeans Measuring and ploting - ${k}"
  
-	SUB_EXP_DIR="${EXP_DIR}/${kfold}/${k}"
+        SUB_EXP_DIR="${EXP_DIR}/${kfold}/${k}"
  
-	# -- EXTRACT CLUSTERING LABELS
-	python3 bin/extract_kmeans.py "${SUB_EXP_DIR}/clustering_${k}.pkl" \
-        "${VECTOR_FILE}" \
-        --outfile "${SUB_EXP_DIR}/clustered_${k}.txt"
+        # -- EXTRACT CLUSTERING LABELS
+        python3 bin/extract_kmeans.py "${SUB_EXP_DIR}/clustering_${k}.pkl" \
+            "${VECTOR_FILE}" \
+            --outfile "${SUB_EXP_DIR}/clustered_${k}.txt"
  
-	# -- MEASURES AND PLOT WITH RESPECT TO LANG VAR
-        # Measures
-        python3 bin/measure_clustering.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
-            "${METAS_LANG}" \
-            "${TRAIN_LST}" \
-            "${VAL_LST}" \
-            --outfile "${SUB_EXP_DIR}/measures_lang.json"
+        # -- MEASURES AND PLOT
+        source steps/measure_clustering_char.sh
+        source steps/measure_clustering_type.sh
+        source steps/measure_clustering_lang.sh
  
-        # This script plot the count matrix of the train set
-        python3 bin/plot-count-matrix.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
-            "${METAS_LANG}" \
-            "${TRAIN_LST}" \
-            --outfile "${SUB_EXP_DIR}/train_count_matrix_lang.pdf"
-
-        # This script plot the count matrix of the validation set
-        python3 bin/plot-count-matrix.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
-            "${METAS_LANG}" \
-            "${VAL_LST}" \
-             --outfile "${SUB_EXP_DIR}/val_count_matrix_lang.pdf"
-
-	rm ${SUB_EXP_DIR}/clustered_${k}.txt
-        #python3 bin/measure_clustering.py "${output_kfold}/${k}/clustered_${k}.txt" \
-        #    "${NEW_LSTDIR}/metas_${kfold}_type.lst" "${lst_dir}/train_${kfold}.lst" \
-        #    "${lst_dir}/val_${kfold}.lst" \
-        #    --outfile "${output_kfold}/${k}/measures_type.json"
-        
-        # This script plot the count matrix of the train set
-        #python3 bin/plot-count-matrix.py ${output_kfold}/${k}/clustered_${k}.txt \
-        #    ${NEW_LSTDIR}/metas_${kfold}_type.lst ${lst_dir}/train_${kfold}.lst \
-        #    --outfile ${output_kfold}/${k}/train_count_matrix_type.pdf
-        
-        # This script plot the count matrix of the validation set
-        #python3 bin/plot-count-matrix.py ${output_kfold}/${k}/clustered_${k}.txt \
-        #    ${NEW_LSTDIR}/metas_${kfold}_type.lst ${lst_dir}/val_${kfold}.lst \
-        #    --outfile ${output_kfold}/${k}/val_count_matrix_type.pdf
-        
-        # This script plot the count matrix of the train set
-        #python3 bin/plot-count-matrix.py ${output_kfold}/${k}/clustered_${k}.txt \
-        #    ${pvector_file} ${lst_dir}/train_${kfold}.lst \
-        #    --outfile ${output_kfold}/${k}/train_count_matrix.pdf
-        
-        # This script plot the count matrix of the validation set
-        #python3 bin/plot-count-matrix.py ${output_kfold}/${k}/clustered_${k}.txt \
-        #    ${pvector_file} ${lst_dir}/val_${kfold}.lst \
-        #    --outfile ${output_kfold}/${k}/val_count_matrix.pdf
+        rm ${SUB_EXP_DIR}/clustered_${k}.txt
     done
 done
+python bin/cluster_kmeans.py ../data/skyrim/skyrim_ivectors.txt ../data/skyrim/skyrim.lst exp/kmeans_euclidian_skyrim/ivectors/ --kmin 1 --kmax 100
@@ -31,7 +31,17 @@
 fi
  
  
+if [ -z "$METAS_CHARACTER" ]
+then
+    METAS_CHARACTER="${DATADIR}/masseffect.lst"
+fi
  
+
+if [ -z "$CHAR_INFO" ]
+then
+    CHAR_INFO="${DATADIR}/character_information.csv"
+fi
+
 # -- MAKE DIRECTORIES
 if [ ! -d "$OUTDIR" ];
 then
@@ -59,7 +69,6 @@
 for kfold in $(seq ${MIN_KFOLD} ${MAX_KFOLD})
 do
     # Some usefull variable
-    CHAR_INFO="${DATADIR}/character_information.csv"
     TRAIN_TYPE_LST="${NEW_LSTDIR}/train_${kfold}_type.lst"
     VAL_TYPE_LST="${NEW_LSTDIR}/val_${kfold}_type.lst"
     TRAIN_LANG_LST="${NEW_LSTDIR}/train_${kfold}_lang.lst"
  
@@ -71,11 +80,10 @@
         VECTOR_FILE="${VECTOR_FILES_BEGIN}_${kfold}${VECTOR_FILES_END}"
     fi
  
-    TRAIN_LST="${DATADIR}/pvectors_1rst/lst/train_${kfold}.lst"
-    VAL_LST="${DATADIR}/pvectors_1rst/lst/val_${kfold}.lst"
+    TRAIN_LST="${MOTHER_LST_DIR}/lst/train_${kfold}.lst"
+    VAL_LST="${MOTHER_LST_DIR}/lst/val_${kfold}.lst"
     EXP_DIR="${OUTDIR}/${kfold}"
     METAS_TYPE="${NEW_LSTDIR}/metas_${kfold}_type.lst"
-    METAS_CHARACTER="${DATADIR}/masseffect.lst"
     METAS_LANG="${NEW_LSTDIR}/metas_${kfold}_lang.lst"
  
  
+
+for kfold in `seq 1 4`
+do
+	echo "KFOLD: ${kfold}"
+	source run.sh
+done
+
+for k in $(seq ${KMIN} 1 ${KMAX})
+do
+    SUB_EXP_DIR="${EXP_DIR}/${k}"
+    
+    # -- EXTRACT KMEANS VALUES
+    echo "Kmeans Measuring and extraction - ${k}"
+    python3 bin/extract_kmeans.py "${SUB_EXP_DIR}/clustering_${k}.pkl" \
+        "${VECTOR_FILE}" \
+        --outfile "${SUB_EXP_DIR}/clustered_${k}.txt"
+        
+    python3 bin/measure_clustering.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
+        "${METAS_CHARACTER}" \
+        "${TRAIN_LST}" \
+        "${VAL_LST}" \
+        --outfile "${SUB_EXP_DIR}/measures.json"
+
+for kfold in `seq 1 4`
+do
+  source $1
+  vector_file=${VECTOR_FILE}
+  echo "kfold: $kfold"
+  for kmean in `seq 2 100`
+  do
+    echo "kmean: $kmean"
+    exp_dir="${OUTDIR}/${kfold}/${kmean}"
+    clustering="${exp_dir}/clustering_${kmean}.pkl"
+    save_loc="${exp_dir}"
+    saved_txt="${save_loc}/masseffect_clustered.txt"
+    saved_lst="${save_loc}/masseffect_clustered.lst"
+    
+    python3 bin/extract_kmeans.py "${clustering}" \
+        "${vector_file}" \
+        --outfile "${saved_txt}"
+    
+    cat ${saved_txt} | cut -d" " -f1 > ${saved_lst}
+
+    python3 bin/replace-features.py "${ORIGINAL_VECTOR_FILE}" "${saved_txt}"
+  done
+done
+
+source $1
+vector_file=${VECTOR_FILE}
+echo "kfold: $kfold"
+for kmean in `seq 2 100`
+do
+  echo "kmean: $kmean"
+  exp_dir="${OUTDIR}/${kmean}"
+  clustering="${exp_dir}/clustering_${kmean}.pkl"
+  save_loc="${exp_dir}"
+  saved_txt="${save_loc}/masseffect_clustered.txt"
+  saved_lst="${save_loc}/masseffect_clustered.lst"
+    
+  python3 bin/extract_kmeans.py "${clustering}" \
+      "${vector_file}" \
+      --outfile "${saved_txt}"
+    
+  cat ${saved_txt} | cut -d" " -f1 > ${saved_lst}
+
+  python3 bin/replace-features.py "${ORIGINAL_VECTOR_FILE}" "${saved_txt}"
+done
+DATADIR="data"
+OUTDIR="exp/kmeans_euclidian/ivectors"
+NEW_LSTDIR="${OUTDIR}/lst"
+
+TRAIN_LST=${DATADIR}/pvectors_1rst/lst/train_${kfold}.lst
+VAL_LST=${DATADIR}/pvectors_1rst/lst/val_${kfold}.lst
+TRAIN_LANG_LST=${NEW_LSTDIR}/train_${kfold}_lang.lst
+VAL_LANG_LST=${NEW_LSTDIR}/val_${kfold}_lang.lst
+METAS_LANG=${NEW_LSTDIR}/metas_${kfold}_lang.lst
+     
+
+awk '$2=$1' FS=, OFS=, ${TRAIN_LST} > ${TRAIN_LANG_LST}
+echo "VAL EXTRACT LANGUAGE INFO DONE"
+awk '$2=$1' FS=, OFS=, ${VAL_LST} > ${VAL_LANG_LST}
+echo "TRAIN EXTRACT LANGUAGE INFO DONE"
+cat "${TRAIN_LANG_LST}" "${VAL_LANG_LST}" > "${METAS_LANG}"
+echo "GLOBAL EXTRACT LANGUAGE INFO DONE"
+
+python3 bin/measure_clustering.py "${output_kfold}/${k}/clustered_${k}.txt" \
+    "${lst_dir}/trainval_${kfold}.lst" "${lst_dir}/train_${kfold}.lst" \
+    "${lst_dir}/val_${kfold}.lst" \
+    --outfile "${output_kfold}/${k}/measures.json"
+
+
+# This script plot the count matrix of the train set
+python3 bin/plot-count-matrix.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
+    "${lst_dir}/train_${kfold}.lst" \
+    "${lst_dir}/train_${kfold}.lst" \
+    --outfile "${SUB_EXP_DIR}/train_count_matrix.pdf"
+
+# This script plot the count matrix of the validation set
+python3 bin/plot-count-matrix.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
+    "${lst_dir}/val_${kfold}.lst" \
+    "${lst_dir}/val_${kfold}.lst" \
+    --outfile "${SUB_EXP_DIR}/val_count_matrix.pdf"
+
+python3 bin/measure_clustering.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
+    "${METAS_LANG}" \
+    "${TRAIN_LST}" \
+    "${VAL_LST}" \
+    --outfile "${SUB_EXP_DIR}/measures_lang.json"
+
+# This script plot the count matrix of the train set
+python3 bin/plot-count-matrix.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
+    "${METAS_LANG}" \
+    "${TRAIN_LST}" \
+    --outfile "${SUB_EXP_DIR}/train_count_matrix_lang.pdf"
+
+# This script plot the count matrix of the validation set
+python3 bin/plot-count-matrix.py "${SUB_EXP_DIR}/clustered_${k}.txt" \
+    "${METAS_LANG}" \
+    "${VAL_LST}" \
+    --outfile "${SUB_EXP_DIR}/val_count_matrix_lang.pdf"
+python3 bin/measure_clustering.py "${output_kfold}/${k}/clustered_${k}.txt" \
+    "${NEW_LSTDIR}/metas_${kfold}_type.lst" "${lst_dir}/train_${kfold}.lst" \
+    "${lst_dir}/val_${kfold}.lst" \
+    --outfile "${output_kfold}/${k}/measures_type.json"
+        
+# This script plot the count matrix of the train set
+python3 bin/plot-count-matrix.py "${output_kfold}/${k}/clustered_${k}.txt" \
+    "${NEW_LSTDIR}/metas_${kfold}_type.lst" "${lst_dir}/train_${kfold}.lst" \
+    --outfile "${output_kfold}/${k}/train_count_matrix_type.pdf"
+        
+# This script plot the count matrix of the validation set
+python3 bin/plot-count-matrix.py "${output_kfold}/${k}/clustered_${k}.txt" \
+    "${NEW_LSTDIR}/metas_${kfold}_type.lst" "${lst_dir}/val_${kfold}.lst" \
+    --outfile "${output_kfold}/${k}/val_count_matrix_type.pdf"
+        
+
+vector_file="data/xvectors.txt"
+
+for kfold in `seq 1 4`
+do
+  echo "kfold: $kfold"
+  for kmean in `seq 2 100`
+  do
+    echo "kmean: $kmean"
+    exp_dir="exp/kmeans_euclidian/xvectors/${kfold}/${kmean}"
+    clustering="${exp_dir}/clustering_${kmean}.pkl"
+	save_loc="data/xvectors/saved_clustered/"
+	saved_txt="${save_loc}/masseffect_clustered_xvectors_${kfold}_${kmean}.txt"
+	saved_lst="${save_loc}/masseffect_clustered_xvectors_${kfold}_${kmean}.lst"
+    
+	python3 bin/extract_kmeans.py "${clustering}" \
+	  "${vector_file}" \
+	  --outfile "${saved_txt}"
+
+	cat ${saved_txt} | cut -d" " -f1 > ${saved_lst}
+  done
+done
+
+
+# Number of set
+k=4
+kmean=88
+
+
+# Vector features file
+VECTOR_FILE_MASSEFFECT="data/xvectors.txt"
+
+
+# Dirs
+EXP_DIR="exp/kmeans_euclidian/xvectors/${k}/${kmean}"
+CLUSTERING="${EXP_DIR}/clustering_${kmean}.pkl"
+
+
+# Output dirs
+OUTFILE_MASSEFFECT="data/xvectors/saved_clustered/masseffect_clustered_xvectors_${k}_${kmean}.txt"
+
+python3 bin/extract_kmeans.py "${CLUSTERING}" \
+        "${VECTOR_FILE_MASSEFFECT}" \
+        --outfile "$OUTFILE_MASSEFFECT"
+
+if [ $# -eq 1 ]
+then
+    EXP_DIR="$1"
+else
+    echo "Need to have one and only one argument. This argument is the exp directory."
+    exit 1
+fi
+
+for kfold in {1..4}
+do
+    for k in {1..100}
+    do
+        rm ${EXP_DIR}/$kfold/$k/clustered_$k.txt
+    done
+done
+
+# -- DESCRIPTION --
+#
+# This script aims to transform data in a shape that is
+# usable mainly by knowledge distillation scripts.
+#
+# Firstly, it extracts clustering labels
+# then change features with the given one
+# and finally generate a list file.
+#
+# The pair features files and list file will be usable
+# by the knowledge distillation system.
+# --------------------
+
+
+# -- CONFIGURATION --
+# Configuration error
+set -e
+
+# KFOLD config
+MIN_KFOLD=1
+MAX_KFOLD=4
+
+# KMEAN config
+MIN_KMEAN=2
+MAX_KMEAN=100
+
+# Vector features file
+DATADIR="data"
+FEATURES_DIR="${DATADIR}/pv_from_xv"
+FEATURES_PREFIX="me_pv_teacher"
+FEATURES_SUFFIX=".txt"
+
+EXP_DIR="exp/kmeans_euclidian/pv_from_xv"
+VECTOR_FILE_MASSEFFECT="${DATADIR}/xvectors.txt"
+OUTDIR="data/pv_from_xv/saved_clustered"
+
+# -- CREATE DIRECTORIES
+# OUTPUT DIRECTORY
+if [ ! -d "${OUTDIR}" ]
+then
+    mkdir -p ${OUTDIR}
+fi
+
+
+# -- FUNCTIONS --
+# Definition of the transform function
+function transform() {
+    # Define subdir variable
+	local SUB_EXP_DIR="${EXP_DIR}/${k}/${kmean}"
+
+    # Define features file variable
+    local INITIAL_VECTOR_FILE="${FEATURES_DIR}/${FEATURES_PREFIX}_${k}${FEATURES_SUFFIX}"
+
+    # Information of the current process
+    echo "[KFOLD, KMEAN]: [${k}, ${kmean}]"
+
+    # Define clustering model variable
+	local CLUSTERING="${SUB_EXP_DIR}/clustering_${kmean}.pkl"
+
+
+	# Define output file
+	local OUTFILE_MASSEFFECT="${OUTDIR}/masseffect_clustered_${k}_${kmean}.txt"
+
+    # Extracting clustering labels
+	echo "Extracting clustering labels"
+	python3 bin/extract_kmeans.py "${CLUSTERING}" \
+		    "${INITIAL_VECTOR_FILE}" \
+			--outfile "${OUTFILE_MASSEFFECT}"
+    
+    # Changing features
+    echo "Changing features"
+	python bin/replace-features.py ${VECTOR_FILE_MASSEFFECT} ${OUTFILE_MASSEFFECT}
+
+    # Extracting list file
+    cut -d' ' -f1 ${OUTFILE_MASSEFFECT} > "${OUTDIR}/masseffect_clustered_${k}_${kmean}.lst"
+}
+
+
+# -- MAIN LOOPS 
+for k in $(seq ${MIN_KFOLD} ${MAX_KFOLD})
+do
+    for kmean in  $(seq ${MIN_KMEAN} ${MAX_KMEAN})
+    do
+        transform
+    done
+done
1	1	# Clustering
2	2	A repository where i put everything dealing with clustering algorithms.
3	3
	4	+# How to use
	5	+You can run directly the run.sh script if you want. You just need data.
	6	+
	7	+You can use some scripts in utils tool, but run these scripts from the root directory "clustering/".
	8	+
4	9	# TODO
5	10	- Organiser les différentes listes de données pour mes expériences
6	11	- Create a data file example
...	...	@@ -40,6 +40,8 @@
40	40	# -- PARSER
41	41	parser = argparse.ArgumentParser(description="")
42	42	parser.add_argument("expdir", type=str, help="Directory of experiment")
	43	+parser.add_argument("--nkfold", type=int, default=4, help="number of kfold")
	44	+parser.add_argument("--nkfoldmin", type=int, default=1, help="Begin with this numero of kfold")
43	45	parser.add_argument("--measurefile", type=str, default="measures.json",
44	46	help="Measure file it searchs in folders")
45	47	parser.add_argument("--suffix", type=str, default="",
...	...	@@ -49,6 +51,8 @@
49	51	EXP_DIR = args.expdir
50	52	MEASURE_FILE = args.measurefile
51	53	SUFFIX = args.suffix
	54	+MAX_KFOLD = args.nkfold
	55	+MIN_KFOLD = args.nkfoldmin
52	56
53	57	# EXP_DIR="exp/kmeans_teacher_1/pvector-1"
54	58	RESULTS_DIR = os.path.join(EXP_DIR, "res")
...	...	@@ -83,7 +87,7 @@
83	87
84	88	measures = init_measures()
85	89
86		-for kfold in range(1, 5):
	90	+for kfold in range(MIN_KFOLD, MAX_KFOLD + 1):
87	91	print("Regrouping on kfold: " + str(kfold))
88	92	# -- REGROUP MEASURES INTO LISTS
89	93	for k in range(kmin, kmax+1):
	1	+
	2	+import argparse
	3	+
	4	+from data import read_file, index_by_id, write_line
	5	+
	6	+# -- ARGPARSE
	7	+parser = argparse.ArgumentParser(
	8	+ description="Replace features with file from to file to")
	9	+parser.add_argument("fromfile", type=str, help="From list or features file")
	10	+parser.add_argument("tofile", type=str, help="Features of 'from' saved into this file.")
	11	+
	12	+args = parser.parse_args()
	13	+FROM = args.fromfile
	14	+TO = args.tofile
	15	+
	16	+
	17	+# -- READ AND INDEX FILES
	18	+from_data = read_file(FROM)
	19	+from_by_id = index_by_id(from_data)
	20	+
	21	+to_data = read_file(TO)
	22	+
	23	+with open(TO, "w") as f:
	24	+ for line in to_data:
	25	+ metas = line[0]
	26	+ features = from_by_id[metas[0]][metas[3]][1]
	27	+ write_line(metas, features, f)
	1	+OUTDIR="exp/kmeans_euclidian/ivectors"
	2	+DATADIR="data"
	3	+NEW_LSTDIR="${OUTDIR}/lst"
	4	+
	5	+VECTOR_FILE="data/ivectors.txt" # To specify if there's only one
	6	+VECTOR_FILES_ONE=true # Specify there's only one file
	7	+
	8	+KMIN=2
	9	+KMAX=100
	1	+
	2	+# Framework configuration
	3	+OUTDIR="exp/kmeans_euclidian/pv_from_xv"
	4	+DATADIR="data"
	5	+NEW_LSTDIR="${OUTDIR}/lst"
	6	+
	7	+VECTOR_FILES_BEGIN="${DATADIR}/pv_from_xv/me_pv_teacher"
	8	+VECTOR_FILES_END=".txt"
	9	+VECTOR_FILE="" # To specify if there's only one
	10	+VECTOR_FILES_ONE=false # Specify there's only one file
	11	+
	12	+KMIN=2
	13	+KMAX=100
	1	+
	2	+OUTDIR="exp/kmeans_euclidian/teacher-pvector-1"
	3	+DATADIR="data"
	4	+NEW_LSTDIR="${OUTDIR}/lst"
	5	+
	6	+VECTOR_FILES_BEGIN="${DATADIR}/pvectors_1rst/pvectors_teacher"
	7	+VECTOR_FILES_END=".txt"
	8	+VECTOR_FILE="" # To specify if there's only one
	9	+VECTOR_FILES_ONE=false # Specify there's only one file
	10	+
	11	+KMIN=2
	12	+KMAX=100
	1	+OUTDIR="exp/kmeans_euclidian/xvectors"
	2	+DATADIR="data"
	3	+NEW_LSTDIR="${OUTDIR}/lst"
	4	+
	5	+VECTOR_FILE="data/xvectors.txt" # To specify if there's only one
	6	+VECTOR_FILES_ONE=true # Specify there's only one file
	7	+
	8	+KMIN=2
	9	+KMAX=100
	1	+OUTDIR="exp/kmeans_euclidian/iv"
	2	+DATADIR="data"
	3	+NEW_LSTDIR="${OUTDIR}/lst"
	4	+
	5	+VECTOR_FILE="data/ivectors.txt" # To specify if there's only one
	6	+VECTOR_FILES_ONE=true # Specify there's only one file
	7	+
	8	+METAS_CHARACTER="data/masseffect.lst"
	9	+CHAR_INFO="data/masseffect_character_information.csv"
	10	+
	11	+ORIGINAL_VECTOR_FILE="${VECTOR_FILE}"
	12	+
	13	+KMIN=2
	14	+KMAX=100
	1	+OUTDIR="exp/kmeans_euclidian_skyrim/iv"
	2	+DATADIR="data"
	3	+NEW_LSTDIR="${OUTDIR}/lst"
	4	+
	5	+VECTOR_FILE="../data/skyrim/skyrim_ivectors.txt" # To specify if there's only one
	6	+VECTOR_FILES_ONE=true # Specify there's only one file
	7	+
	8	+METAS_CHARACTER="../data/skyrim/skyrim.lst"
	9	+CHAR_INFO="data/skyrim_character_information.csv"
	10	+
	11	+ORIGINAL_VECTOR_FILE="${VECTOR_FILE}"
	12	+
	13	+KMIN=2
	14	+KMAX=100
	1	+
	2	+if [ -z "$kfold" ]
	3	+then
	4	+ kfold=1
	5	+fi
	6	+
	7	+if [ -z "${t}" ]
	8	+then
	9	+ t=2.0
	10	+fi
	11	+
	12	+OUTDIR="exp/kmeans_euclidian/pv_from_iv/${kfold}"
	13	+DATADIR="data"
	14	+MOTHER_LST_DIR="/local_disk/pegasus/laboinfo/mquillot/vocal_similarity_system/data/prot_alpha"
	15	+NEW_LSTDIR="${OUTDIR}/lst"
	16	+
	17	+
	18	+VECTOR_FILE="/local_disk/pegasus/laboinfo/mquillot/knowledge_distillation/exp/kd_iv/${kfold}/${t}/teacher/masseffect_pvectors.txt" # To specify if there's only one
	19	+VECTOR_FILES_ONE=true # Specify there's only one file
	20	+ORIGINAL_VECTOR_FILE="/local_disk/pegasus/laboinfo/mquillot/knowledge_distillation/data/masseffect.txt"
	21	+
	22	+
	23	+MIN_KFOLD=${kfold}
	24	+MAX_KFOLD=${kfold}
	25	+
	26	+KMIN=2
	27	+KMAX=100