Evaluation of an LSTM-RNN System in Different NIST Language - - PowerPoint PPT Presentation

evaluation of an lstm rnn system in different nist
SMART_READER_LITE
LIVE PREVIEW

Evaluation of an LSTM-RNN System in Different NIST Language - - PowerPoint PPT Presentation

Evaluation of an LSTM-RNN System in Different NIST Language Recognition Frameworks Ruben Zazo, Alicia Lozano-Diez and Joaquin Gonzalez-Rodriguez {ruben.zazo, alicia.lozano} @uam.es ATVS Biometric Recognition Group. Universidad Autnoma


slide-1
SLIDE 1

Ruben Zazo, Alicia Lozano-Diez and Joaquin Gonzalez-Rodriguez

{ruben.zazo, alicia.lozano} @uam.es ATVS – Biometric Recognition Group. Universidad Autónoma de Madrid Odyssey 2016.

Evaluation of an LSTM-RNN System in Different NIST Language Recognition Frameworks ¡

slide-2
SLIDE 2

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

2/24 ¡

Outline

slide-3
SLIDE 3

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

3/24 ¡

Outline

slide-4
SLIDE 4

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

v Most state-of-the-art systems rely on acoustic modeling v i-Vector extraction + Classification stage v Deep Neural Networks seem to outperform i-Vector based approaches

when enough data for training is available.

v End-to-end v Bottleneck v Senons ¡

¡

Language Identification The process of automatically identifying the language of a given spoken utterance

Motivation

4/24 ¡

slide-5
SLIDE 5

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡ ¡ ¡ ¡Can ¡we ¡model ¡context ¡in ¡a ¡be<er ¡way? ¡

¡

Motivation: DNNs

n Deep Neural Network: q Input: Frame + Context q K hidden layers q Sigmoid q ReLu q Output layer q Softmax q Rely on stacking several

acoustic frames in order to model time context

5/24 ¡

slide-6
SLIDE 6

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

6/24 ¡

Good ¡theoreAcal ¡model. ¡In ¡pracAce: ¡Vanishing ¡gradient ¡problem ¡ ¡

Motivation: RNNs

n Recurrent Neural Networks: q Input: Same q K hidden layers q Recurrent connections q Output layer q Softmax q Can model temporal context

and learn from previous input! -> Good model for sequences!

slide-7
SLIDE 7

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

7/24 ¡

n LSTM - RNNs:

q We replace every hidden node with a LSTM block

Motivation: LSTMs

slide-8
SLIDE 8

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

8/24 ¡

Outline

slide-9
SLIDE 9

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

9/24 ¡

Long Short-Term Memory Recurrent Neural Network

slide-10
SLIDE 10

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

10/24 ¡

Outline

slide-11
SLIDE 11

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

11/24 ¡

v Input Layer: MFCC Shifted Delta Coefficients v No Stacking of Acoustic Frames v One or Two hidden layers v Unidirectional LSTM layers with peepholes v Output Layer: Softmax (same units as target languages). v Cross entropy error function. v Different training subset per iteration: Random chunks of 2 seconds -> 6

hours of audio per language.

v Last 10% of output scores averaged to obtain final score. v Multiclass Linear Logistic Regression Calibration is applied to the output

  • f every system (FoCal). ¡

System Description

slide-12
SLIDE 12

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

12/24 ¡

Outline

slide-13
SLIDE 13

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

13/24 ¡

Reference System

v Input features: v MFCC-SDCs, configuration 7-1-3-7 v Each frame represented by a 56-dimensional vector v Same features for the proposed systems v UBM: 1024 Gaussian components v Total Variability space from Baum-Welch statistics: v 400 dimensions v Cosine-based scoring v Implemented in Kaldi v Same calibration technique (FoCal multiclass) ¡

slide-14
SLIDE 14

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

14/24 ¡

Outline

slide-15
SLIDE 15

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

15/24 ¡

Datasets

v Balanced subset of NIST 2009 LRE 3s task: v VOA only, to avoid unbalanced mix of CTS and VOA v Languages with 200 or more hours available v 8 representative languages: US English, Spanish, Dari, French, Pashto,

Russian, Urdu and Chinese Mandarin.

v Dev set of NIST LRE 2015: v Mix of CTS and Broadcast Narrow Band Speech v 20 languages grouped in 6 clusters according to similarity v Amount of training data ranges from .5h to >100h v 15% of data, split in segments of 3, 10 and 30s used as test v Test set of NIST LRE 2015: v Broad range of speech durations.

slide-16
SLIDE 16

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

16/24 ¡

Outline

slide-17
SLIDE 17

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

17/24 ¡

Results: Discarding Initial Frame Scores

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 15.5 16 16.5 17 17.5 18

Performance (EER) versus percentage of frame outputs discarded

Percentage of frame outputs discarded EER (%)

slide-18
SLIDE 18

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

18/24 ¡

Results: Balanced Subset of LRE09 (I)

v 4 out of 5 systems outperform up to 15% in terms of Cavg the

reference i-Vector system.

v Proposed architectures have 5 to 21 times fewer parameters. v Fusion of i-Vector and LSTM gives best performance.

¡

v Balanced subset of NIST 2009 LRE, VOA only, 8 lang, 1600h total train

slide-19
SLIDE 19

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

19/24 ¡

Results: Balanced Subset of LRE09 (II)

v Balanced subset of NIST 2009 LRE, VOA only, 8 lang, 1600h total train

slide-20
SLIDE 20

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

20/24 ¡

Results: Dev set of LRE15 (I)

v Dev set of LRE15: 6 clusters, database mismatch, unbalanced sets. v One LSTM per cluster (no inter-cluster trials). v Same architecture than best result in LRE09: 2 hidden layers of size 512. v LSTM system performs better than i-Vector system when facing short durations v Fusion of i-Vector and LSTM gives best and most robust performance

Cavg ¡x ¡100 ¡ System ¡ Ara ¡ Eng ¡ Fren ¡ Iber ¡ Slav ¡ Chin ¡ Avg 3s ¡ LSTM ¡ 13.79 ¡ 18.88 ¡ 2.70 ¡ 17.11 ¡ 15.01 ¡ 10.11 ¡ 12.93 ¡ i-­‑vector ¡ 15.59 ¡ 13.91 ¡ 5.68 ¡ 19.96 ¡ 19.71 ¡ 22.06 ¡ 16.15 ¡ Fusion ¡ 11.50 ¡ 12.48 ¡ 2.86 ¡ 13.28 ¡ 13.71 ¡ 9.75 ¡ 10.60 ¡ 30s ¡ LSTM ¡ 8.59 ¡ 18.76 ¡ 1.04 ¡ 14.73 ¡ 8.68 ¡ 9.95 ¡ 10.29 ¡ i-­‑vector ¡ 3.08 ¡ 1.99 ¡ 0 ¡ 12.78 ¡ 4.23 ¡ 4.93 ¡ 4.50 ¡ Fusion ¡ 3.06 ¡ 3.87 ¡ 0 ¡ 9.84 ¡ 3.31 ¡ 4.60 ¡ 4.11 ¡

slide-21
SLIDE 21

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

Arabic English French Iberic Slavic Chinese Average 0.05 0.1 0.15 0.2 0.25 0.3 Cavg LSTM i−vector Fusion

21/24 ¡

v Dev set of LRE15: 6 clusters, database mismatch, unbalanced sets. v Results on the 3s task

Results: Dev set of LRE15 (II)

v LSTM has over 20%

relative improvement over

  • ref. i-Vector system

v Fusion is better and

more robust than single systems

slide-22
SLIDE 22

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

3 5 10 15 20 25 30 All 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Cavg Durations (in seconds) LSTM i−vector Fusion Fusion CV

22/24 ¡

v Test set of LRE15: Similar to dev set of LRE15 but with continuous

durations and a big mismatch between training and testing data.

Results: Test set of LRE15

v LSTM system

degrades faster in mismatched scenarios

v i-Vector handles better

long utterances

v Fusion is worse than

single systems (mismatch)

v 2-fold fusion shows

that the systems are learning complementary information ¡

slide-23
SLIDE 23

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

¡

1. Motivation 2. Long Short-Term Memory Recurrent Neural Network (LSTM) 3. System Description 4. Reference i-Vector System 5. Datasets 6. Results (LRE09, LRE15) 7. Conclusions

23/24 ¡

Outline

slide-24
SLIDE 24

Ruben ¡Zazo. ¡Odyssey ¡2016. ¡

24/24 ¡

Conclusions

v Controlled/Balanced scenario (e.g., LRE09):

v 85% less parameters v Over 15% relative improvement

v Highly unbalanced scenario, (e.g., LRE15):

v Comparable results v Complementary information. Robust fusion.

v Strong dependence on mismatch: need for variability

compensation.

¡