Blame view

egs/hub4_english/s5/local/format_data.sh 5.09 KB
8dcb6dfcb   Yannick Estève   first commit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
  #! /bin/bash
  
  # Copyright 2016  Vimal Manohar
  # Apache 2.0.
  
  set -e
  set -o pipefail
  
  echo "$0 $@"  # Print the command line for logging
  
  noise_word="<NOISE>"
  spoken_noise_word="<SPOKEN_NOISE>"
  
  . utils/parse_options.sh || exit 1;
  
  . ./path.sh || exit 1;
  
  if [ $# -ne 0 ]; then
    echo "Usage: $0"
    exit 1
  fi
  
  srcdir=data/local/data
  tmpdir=data/local/
  
  export PATH=$PATH:$KALDI_ROOT/tools/sph2pipe_v2.5
  
  ###############################################################################
  # Format 1996 English Broadcast News Train (HUB4)
  ###############################################################################
  mkdir -p data/train_bn96
  
  local/data_prep/format_1996_bn_data.pl \
    $srcdir/train_bn96/audio.list $srcdir/train_bn96/transcripts.txt \
    data/train_bn96 || exit 1
  
  mv data/train_bn96/text data/train_bn96/text.unnorm
  local/data_prep/normalize_bn96_transcripts.pl $noise_word $spoken_noise_word \
    < data/train_bn96/text.unnorm > data/train_bn96/text
  
  ###############################################################################
  # Format 1997 English Broadcast News Train (HUB4)
  ###############################################################################
  mkdir -p data/train_bn97
  
  local/data_prep/format_1997_bn_data.pl \
    $srcdir/train_bn97/audio.list $srcdir/train_bn97/transcripts.txt \
    data/train_bn97 || exit 1
  
  mv data/train_bn97/text data/train_bn97/text.unnorm
  local/data_prep/normalize_bn97_transcripts.pl $noise_word $spoken_noise_word \
    < data/train_bn97/text.unnorm > data/train_bn97/text
  
  ###############################################################################
  # Format 1996 English Broadcast News Dev (HUB4)
  ###############################################################################
  mkdir -p data/dev96pe 
  mkdir -p data/dev96ue
  
  cp $srcdir/hub4_96_dev_eval/dev96_uem_segments data/dev96ue/segments
  cp $srcdir/hub4_96_dev_eval/dev96_uem_utt2spk data/dev96ue/utt2spk
  cp $srcdir/hub4_96_dev_eval/dev96_uem_wav_scp data/dev96ue/wav.scp
  cp $srcdir/hub4_96_dev_eval/dev96_uem_stm data/dev96ue/stm
  cp $srcdir/hub4_96_dev_eval/glm data/dev96ue/glm
  
  awk '{if ($4 > $3) print $0}' $srcdir/hub4_96_dev_eval/dev96_pem_segments \
    > data/dev96pe/segments
  cp $srcdir/hub4_96_dev_eval/dev96_pem_utt2spk data/dev96pe/utt2spk
  cp $srcdir/hub4_96_dev_eval/dev96_pem_wav_scp data/dev96pe/wav.scp
  cp $srcdir/hub4_96_dev_eval/dev96_pem_stm data/dev96pe/stm
  cp $srcdir/hub4_96_dev_eval/glm data/dev96pe/glm
  
  ###############################################################################
  # Format 1996 English Broadcast News Eval (HUB4)
  ###############################################################################
  mkdir -p data/eval96
  mkdir -p data/eval96.pem 
  
  cp $srcdir/hub4_96_dev_eval/eval96_pem_segments data/eval96.pem/segments
  cp $srcdir/hub4_96_dev_eval/eval96_pem_utt2spk data/eval96.pem/utt2spk
  cp $srcdir/hub4_96_dev_eval/eval96_wav_scp data/eval96.pem/wav.scp
  cp $srcdir/hub4_96_dev_eval/eval96_stm data/eval96.pem/stm
  cp $srcdir/hub4_96_dev_eval/glm data/eval96.pem/glm
  
  cp $srcdir/hub4_96_dev_eval/eval96_uem_segments data/eval96/segments
  cp $srcdir/hub4_96_dev_eval/eval96_uem_utt2spk data/eval96/utt2spk
  cp $srcdir/hub4_96_dev_eval/eval96_wav_scp data/eval96/wav.scp
  cp $srcdir/hub4_96_dev_eval/eval96_stm data/eval96/stm
  cp $srcdir/hub4_96_dev_eval/glm data/eval96/glm
  
  ###############################################################################
  # Format 1997-98 Hub4 Broadcast news evalutation
  ###############################################################################
  for t in eval97 eval98; do
    mkdir -p data/$t data/${t}.pem
    cp $srcdir/$t/segments data/$t/segments
    cp $srcdir/$t/utt2spk data/$t/utt2spk
    cp $srcdir/$t/segments.pem data/${t}.pem/segments
    cp $srcdir/$t/utt2spk.pem data/${t}.pem/utt2spk
    cp $srcdir/$t/wav.scp data/$t/wav.scp
    cp $srcdir/$t/wav.scp data/${t}.pem/wav.scp
    cp $srcdir/$t/stm data/$t/stm
    cp $srcdir/$t/stm data/${t}.pem/stm
    cp $srcdir/$t/glm data/$t/glm
    cp $srcdir/$t/glm data/${t}.pem/glm
  done
  
  ###############################################################################
  # Format 1999 Hub4 Broadcast news evalutation
  ###############################################################################
  for d in eval99_1 eval99_2; do
    mkdir -p data/${d} data/${d}.pem
    cp $srcdir/eval99/${d}_uem_segments data/${d}/segments
    cp $srcdir/eval99/${d}_uem_utt2spk data/${d}/utt2spk
    cp $srcdir/eval99/${d}_pem_segments data/${d}.pem/segments
    cp $srcdir/eval99/${d}_pem_utt2spk data/${d}.pem/utt2spk
    cp $srcdir/eval99/${d}_wav_scp data/${d}/wav.scp
    cp $srcdir/eval99/${d}_wav_scp data/${d}.pem/wav.scp
    cp $srcdir/eval99/${d}_stm data/${d}/stm
    cp $srcdir/eval99/${d}_stm data/${d}.pem/stm
    cp $srcdir/eval99/${d}_glm data/${d}/glm
    cp $srcdir/eval99/${d}_glm data/${d}.pem/glm
  done
  
  for d in train_bn96 train_bn97 eval96 eval96.pem dev96pe dev96ue eval97 eval97.pem \
           eval98 eval98.pem eval99_1 eval99_1.pem eval99_2 eval99_2.pem; do
    utils/utt2spk_to_spk2utt.pl data/$d/utt2spk > data/$d/spk2utt
    awk '{print $1" "$1" 1"}' data/${d}/wav.scp > \
      data/${d}/reco2file_and_channel
    utils/fix_data_dir.sh data/${d}
  done
  
  utils/combine_data.sh data/train data/train_bn96 data/train_bn97