types fichiers Page History


Sommaire

Dans ce document, nous allons documenter les différents types de fichiers que vous pouvez rencontrer.

  1. List (.lst)
  2. Features File (.features)
  3. Labels file (.label)

List (.lst)

Ce sont des fichiers qui listent des identifiants. La structure de ces fichiers est décrite ci-dessous.

[id_1]
[id_2]
...
[id_n]

Par exemple, une liste de fichiers audios pour masseffect :

en-us,global_admiral_koris,gth002_bigchoice_m_d_int,00506414_m
fr-fr,hench_kaidan,norhen_kaid_mr_kron7b_a,00660352_m
fr-fr,hench_kaidan,proear_andersonak01_b,00522667_m
fr-fr,hench_kaidan,end001_aa_attack_b,00634635_m
fr-fr,hench_kaidan,end001_building_04_b,00634660_m
fr-fr,hench_kaidan,end001_building_04_b,00634668_m

Features File (.features)

Ces fichiers associent à chaque identifiant un ensemble de valeurs. Généralement, tous les ensembles de valeurs sont de même dimension/taille. La structure de ces fichiers est décrite ci-dessous :

[id_1] [val_1_1] [val_1_2] [val_1_3] ... [val_1_k]
[id_2] [val_2_1] [val_2_2] [val_2_3] ... [val_2_k]
...
[id_n] [val_n_1] [val_n_2] [val_n_3] ... [val_n_k]

Par exemple, un fichier features de masseffect :

en-us,global_admiral_koris,gth002_bigchoice_m_d_int,00506414_m 0.2 1.0
fr-fr,hench_kaidan,norhen_kaid_mr_kron7b_a,00660352_m 0.5 0.2
fr-fr,hench_kaidan,proear_andersonak01_b,00522667_m 0.2 0.2
fr-fr,hench_kaidan,end001_aa_attack_b,00634635_m 0.3 0.1
fr-fr,hench_kaidan,end001_building_04_b,00634660_m 0.2 0.1
fr-fr,hench_kaidan,end001_building_04_b,00634668_m 0.2 0.1

Labels files (.label)

Structure des fichiers labels

Ce sont des fichiers comportant des labels. Leur structure est exactement identique à celle des features. Voici un exemple de fichier de labels :

en-us,global_admiral_koris,gth002_bigchoice_m_d_int,00506414_m no
fr-fr,hench_kaidan,norhen_kaid_mr_kron7b_a,00660352_m yes
fr-fr,hench_kaidan,proear_andersonak01_b,00522667_m yes
fr-fr,hench_kaidan,end001_aa_attack_b,00634635_m 0.3 0.1 yes
fr-fr,hench_kaidan,end001_building_04_b,00634660_m 0.2 0.1 yes
fr-fr,hench_kaidan,end001_building_04_b,00634668_m 0.2 0.1 yes

Fichiers spéciaux

Voici une liste de fichiers spéciaux qui proviennent pour la plus part du paradigme de Kaldi.

  • utt2char : Ce fichier associe à chaque identifiant un personnage joué.
  • utt2spk : Ce fichier associe à chaque identifiant un locuteur.
  • spk2utt : Ce fichier associe à chaque speaker une liste d'identifiants.

Last edited by Quillot Mathias