hub4_en_data_prep.sh
2.32 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
#!/bin/bash
# 1996/1997 English Broadcast News training data preparation (HUB4)
# Copyright 2017 Xiaohui Zhang
# 2017 Vimal Manohar
# Apache 2.0.
if [ $# != 4 ]; then
echo "Arguments should be a list of HUB4 directories, see ../run.sh for example."
exit 1;
fi
hub4_96_train_transcripts=$1
hub4_96_train_speech=$2
hub4_97_train_transcripts=$3
hub4_97_train_speech=$4
. ./path.sh # Needed for KALDI_ROOT
###############################################################################
# Prepare 1996 English Broadcast News Train (HUB4)
###############################################################################
local/hub4_96_data_prep.sh \
$hub4_96_train_transcripts \
$hub4_96_train_speech \
data/local/train_bn96
###############################################################################
# Prepare 1996 English Broadcast News Train (HUB4)
###############################################################################
local/hub4_97_data_prep.sh \
$hub4_97_train_transcripts \
$hub4_97_train_speech \
data/local/train_bn97
###############################################################################
# Format 1996 English Broadcast News Train (HUB4)
###############################################################################
mkdir -p data/hub4_en/train_bn96
local/hub4_format_data.pl \
data/local/train_bn96/audio.list data/local/train_bn96/transcripts.txt \
data/hub4_en/train_bn96 || exit 1
mv data/hub4_en/train_bn96/text data/hub4_en/train_bn96/text.unnorm
local/hub4_normalize_bn96_transcripts.pl "<noise>" "<spoken_noise>" \
< data/hub4_en/train_bn96/text.unnorm > data/hub4_en/train_bn96/text
###############################################################################
# Format 1997 English Broadcast News Train (HUB4)
###############################################################################
mkdir -p data/hub4_en/train_bn97
local/hub4_format_data.pl \
data/local/train_bn97/audio.list data/local/train_bn97/transcripts.txt \
data/hub4_en/train_bn97 || exit 1
mv data/hub4_en/train_bn97/text data/hub4_en/train_bn97/text.unnorm
local/hub4_normalize_bn97_transcripts.pl "<noise>" "<spoken_noise>" \
< data/hub4_en/train_bn97/text.unnorm > data/hub4_en/train_bn97/text
# Combine 1996/1997 BN data
utils/combine_data.sh data/hub4_en/train data/hub4_en/train_bn96 data/hub4_en/train_bn97