Blame view
egs/hub4_english/s5/local/format_data.sh
5.09 KB
8dcb6dfcb first commit |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 |
#! /bin/bash # Copyright 2016 Vimal Manohar # Apache 2.0. set -e set -o pipefail echo "$0 $@" # Print the command line for logging noise_word="<NOISE>" spoken_noise_word="<SPOKEN_NOISE>" . utils/parse_options.sh || exit 1; . ./path.sh || exit 1; if [ $# -ne 0 ]; then echo "Usage: $0" exit 1 fi srcdir=data/local/data tmpdir=data/local/ export PATH=$PATH:$KALDI_ROOT/tools/sph2pipe_v2.5 ############################################################################### # Format 1996 English Broadcast News Train (HUB4) ############################################################################### mkdir -p data/train_bn96 local/data_prep/format_1996_bn_data.pl \ $srcdir/train_bn96/audio.list $srcdir/train_bn96/transcripts.txt \ data/train_bn96 || exit 1 mv data/train_bn96/text data/train_bn96/text.unnorm local/data_prep/normalize_bn96_transcripts.pl $noise_word $spoken_noise_word \ < data/train_bn96/text.unnorm > data/train_bn96/text ############################################################################### # Format 1997 English Broadcast News Train (HUB4) ############################################################################### mkdir -p data/train_bn97 local/data_prep/format_1997_bn_data.pl \ $srcdir/train_bn97/audio.list $srcdir/train_bn97/transcripts.txt \ data/train_bn97 || exit 1 mv data/train_bn97/text data/train_bn97/text.unnorm local/data_prep/normalize_bn97_transcripts.pl $noise_word $spoken_noise_word \ < data/train_bn97/text.unnorm > data/train_bn97/text ############################################################################### # Format 1996 English Broadcast News Dev (HUB4) ############################################################################### mkdir -p data/dev96pe mkdir -p data/dev96ue cp $srcdir/hub4_96_dev_eval/dev96_uem_segments data/dev96ue/segments cp $srcdir/hub4_96_dev_eval/dev96_uem_utt2spk data/dev96ue/utt2spk cp $srcdir/hub4_96_dev_eval/dev96_uem_wav_scp data/dev96ue/wav.scp cp $srcdir/hub4_96_dev_eval/dev96_uem_stm data/dev96ue/stm cp $srcdir/hub4_96_dev_eval/glm data/dev96ue/glm awk '{if ($4 > $3) print $0}' $srcdir/hub4_96_dev_eval/dev96_pem_segments \ > data/dev96pe/segments cp $srcdir/hub4_96_dev_eval/dev96_pem_utt2spk data/dev96pe/utt2spk cp $srcdir/hub4_96_dev_eval/dev96_pem_wav_scp data/dev96pe/wav.scp cp $srcdir/hub4_96_dev_eval/dev96_pem_stm data/dev96pe/stm cp $srcdir/hub4_96_dev_eval/glm data/dev96pe/glm ############################################################################### # Format 1996 English Broadcast News Eval (HUB4) ############################################################################### mkdir -p data/eval96 mkdir -p data/eval96.pem cp $srcdir/hub4_96_dev_eval/eval96_pem_segments data/eval96.pem/segments cp $srcdir/hub4_96_dev_eval/eval96_pem_utt2spk data/eval96.pem/utt2spk cp $srcdir/hub4_96_dev_eval/eval96_wav_scp data/eval96.pem/wav.scp cp $srcdir/hub4_96_dev_eval/eval96_stm data/eval96.pem/stm cp $srcdir/hub4_96_dev_eval/glm data/eval96.pem/glm cp $srcdir/hub4_96_dev_eval/eval96_uem_segments data/eval96/segments cp $srcdir/hub4_96_dev_eval/eval96_uem_utt2spk data/eval96/utt2spk cp $srcdir/hub4_96_dev_eval/eval96_wav_scp data/eval96/wav.scp cp $srcdir/hub4_96_dev_eval/eval96_stm data/eval96/stm cp $srcdir/hub4_96_dev_eval/glm data/eval96/glm ############################################################################### # Format 1997-98 Hub4 Broadcast news evalutation ############################################################################### for t in eval97 eval98; do mkdir -p data/$t data/${t}.pem cp $srcdir/$t/segments data/$t/segments cp $srcdir/$t/utt2spk data/$t/utt2spk cp $srcdir/$t/segments.pem data/${t}.pem/segments cp $srcdir/$t/utt2spk.pem data/${t}.pem/utt2spk cp $srcdir/$t/wav.scp data/$t/wav.scp cp $srcdir/$t/wav.scp data/${t}.pem/wav.scp cp $srcdir/$t/stm data/$t/stm cp $srcdir/$t/stm data/${t}.pem/stm cp $srcdir/$t/glm data/$t/glm cp $srcdir/$t/glm data/${t}.pem/glm done ############################################################################### # Format 1999 Hub4 Broadcast news evalutation ############################################################################### for d in eval99_1 eval99_2; do mkdir -p data/${d} data/${d}.pem cp $srcdir/eval99/${d}_uem_segments data/${d}/segments cp $srcdir/eval99/${d}_uem_utt2spk data/${d}/utt2spk cp $srcdir/eval99/${d}_pem_segments data/${d}.pem/segments cp $srcdir/eval99/${d}_pem_utt2spk data/${d}.pem/utt2spk cp $srcdir/eval99/${d}_wav_scp data/${d}/wav.scp cp $srcdir/eval99/${d}_wav_scp data/${d}.pem/wav.scp cp $srcdir/eval99/${d}_stm data/${d}/stm cp $srcdir/eval99/${d}_stm data/${d}.pem/stm cp $srcdir/eval99/${d}_glm data/${d}/glm cp $srcdir/eval99/${d}_glm data/${d}.pem/glm done for d in train_bn96 train_bn97 eval96 eval96.pem dev96pe dev96ue eval97 eval97.pem \ eval98 eval98.pem eval99_1 eval99_1.pem eval99_2 eval99_2.pem; do utils/utt2spk_to_spk2utt.pl data/$d/utt2spk > data/$d/spk2utt awk '{print $1" "$1" 1"}' data/${d}/wav.scp > \ data/${d}/reco2file_and_channel utils/fix_data_dir.sh data/${d} done utils/combine_data.sh data/train data/train_bn96 data/train_bn97 |