Evaluation of an LSTM-RNN System in Different NIST Language - - PowerPoint PPT Presentation
Evaluation of an LSTM-RNN System in Different NIST Language - - PowerPoint PPT Presentation
Evaluation of an LSTM-RNN System in Different NIST Language Recognition Frameworks Ruben Zazo, Alicia Lozano-Diez and Joaquin Gonzalez-Rodriguez {ruben.zazo, alicia.lozano} @uam.es ATVS Biometric Recognition Group. Universidad Autnoma
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
2/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
3/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
v Most state-of-the-art systems rely on acoustic modeling v i-Vector extraction + Classification stage v Deep Neural Networks seem to outperform i-Vector based approaches
when enough data for training is available.
v End-to-end v Bottleneck v Senons ¡
¡
Language Identification The process of automatically identifying the language of a given spoken utterance
Motivation
4/24 ¡
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡ ¡ ¡ ¡Can ¡we ¡model ¡context ¡in ¡a ¡be<er ¡way? ¡
¡
Motivation: DNNs
n Deep Neural Network: q Input: Frame + Context q K hidden layers q Sigmoid q ReLu q Output layer q Softmax q Rely on stacking several
acoustic frames in order to model time context
5/24 ¡
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
6/24 ¡
Good ¡theoreAcal ¡model. ¡In ¡pracAce: ¡Vanishing ¡gradient ¡problem ¡ ¡
Motivation: RNNs
n Recurrent Neural Networks: q Input: Same q K hidden layers q Recurrent connections q Output layer q Softmax q Can model temporal context
and learn from previous input! -> Good model for sequences!
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
7/24 ¡
n LSTM - RNNs:
q We replace every hidden node with a LSTM block
Motivation: LSTMs
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
8/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
9/24 ¡
Long Short-Term Memory Recurrent Neural Network
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
10/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
11/24 ¡
v Input Layer: MFCC Shifted Delta Coefficients v No Stacking of Acoustic Frames v One or Two hidden layers v Unidirectional LSTM layers with peepholes v Output Layer: Softmax (same units as target languages). v Cross entropy error function. v Different training subset per iteration: Random chunks of 2 seconds -> 6
hours of audio per language.
v Last 10% of output scores averaged to obtain final score. v Multiclass Linear Logistic Regression Calibration is applied to the output
- f every system (FoCal). ¡
System Description
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
12/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
13/24 ¡
Reference System
v Input features: v MFCC-SDCs, configuration 7-1-3-7 v Each frame represented by a 56-dimensional vector v Same features for the proposed systems v UBM: 1024 Gaussian components v Total Variability space from Baum-Welch statistics: v 400 dimensions v Cosine-based scoring v Implemented in Kaldi v Same calibration technique (FoCal multiclass) ¡
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
14/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
15/24 ¡
Datasets
v Balanced subset of NIST 2009 LRE 3s task: v VOA only, to avoid unbalanced mix of CTS and VOA v Languages with 200 or more hours available v 8 representative languages: US English, Spanish, Dari, French, Pashto,
Russian, Urdu and Chinese Mandarin.
v Dev set of NIST LRE 2015: v Mix of CTS and Broadcast Narrow Band Speech v 20 languages grouped in 6 clusters according to similarity v Amount of training data ranges from .5h to >100h v 15% of data, split in segments of 3, 10 and 30s used as test v Test set of NIST LRE 2015: v Broad range of speech durations.
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
¡
1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions
16/24 ¡
Outline
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
17/24 ¡
Results: Discarding Initial Frame Scores
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 15.5 16 16.5 17 17.5 18
Performance (EER) versus percentage of frame outputs discarded
Percentage of frame outputs discarded EER (%)
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
18/24 ¡
Results: Balanced Subset of LRE09 (I)
v 4 out of 5 systems outperform up to 15% in terms of Cavg the
reference i-Vector system.
v Proposed architectures have 5 to 21 times fewer parameters. v Fusion of i-Vector and LSTM gives best performance.
¡
v Balanced subset of NIST 2009 LRE, VOA only, 8 lang, 1600h total train
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
19/24 ¡
Results: Balanced Subset of LRE09 (II)
v Balanced subset of NIST 2009 LRE, VOA only, 8 lang, 1600h total train
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
20/24 ¡
Results: Dev set of LRE15 (I)
v Dev set of LRE15: 6 clusters, database mismatch, unbalanced sets. v One LSTM per cluster (no inter-cluster trials). v Same architecture than best result in LRE09: 2 hidden layers of size 512. v LSTM system performs better than i-Vector system when facing short durations v Fusion of i-Vector and LSTM gives best and most robust performance
Cavg ¡x ¡100 ¡ System ¡ Ara ¡ Eng ¡ Fren ¡ Iber ¡ Slav ¡ Chin ¡ Avg 3s ¡ LSTM ¡ 13.79 ¡ 18.88 ¡ 2.70 ¡ 17.11 ¡ 15.01 ¡ 10.11 ¡ 12.93 ¡ i-‑vector ¡ 15.59 ¡ 13.91 ¡ 5.68 ¡ 19.96 ¡ 19.71 ¡ 22.06 ¡ 16.15 ¡ Fusion ¡ 11.50 ¡ 12.48 ¡ 2.86 ¡ 13.28 ¡ 13.71 ¡ 9.75 ¡ 10.60 ¡ 30s ¡ LSTM ¡ 8.59 ¡ 18.76 ¡ 1.04 ¡ 14.73 ¡ 8.68 ¡ 9.95 ¡ 10.29 ¡ i-‑vector ¡ 3.08 ¡ 1.99 ¡ 0 ¡ 12.78 ¡ 4.23 ¡ 4.93 ¡ 4.50 ¡ Fusion ¡ 3.06 ¡ 3.87 ¡ 0 ¡ 9.84 ¡ 3.31 ¡ 4.60 ¡ 4.11 ¡
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
Arabic English French Iberic Slavic Chinese Average 0.05 0.1 0.15 0.2 0.25 0.3 Cavg LSTM i−vector Fusion
21/24 ¡
v Dev set of LRE15: 6 clusters, database mismatch, unbalanced sets. v Results on the 3s task
Results: Dev set of LRE15 (II)
v LSTM has over 20%
relative improvement over
- ref. i-Vector system
v Fusion is better and
more robust than single systems
Ruben ¡Zazo. ¡Odyssey ¡2016. ¡
3 5 10 15 20 25 30 All 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Cavg Durations (in seconds) LSTM i−vector Fusion Fusion CV
22/24 ¡
v Test set of LRE15: Similar to dev set of LRE15 but with continuous
durations and a big mismatch between training and testing data.
Results: Test set of LRE15
v LSTM system
degrades faster in mismatched scenarios
v i-Vector handles better
long utterances
v Fusion is worse than
single systems (mismatch)
v 2-fold fusion shows