[PPT] - Deep Virtual Networks for Memory Efficient Inference of Multiple PowerPoint Presentation

SLIDE 1

Deep Virtual Networks for Memory Efficient Inference of Multiple Tasks (CVPR 2019)

Reading Group August 21, 2019

Computer Vision Lab @ ETH Zurich Suman Saha (postdoc)

SLIDE 2

2

M

t

i t i v a v a t i

n

 i

t i s w e l l

k

n

w

n t h a t D N N s h a v e a h i g i g h m m e m e m

r

y f y f

t

p

t

p r i n i n t [ 1 , 1 7 ] l i m i t i n g t h e i r p r a c t i c a l a p p l i c a t i

n

s , s u c h a s m

b

i l e p h

n

e s , r

b
t

s , a n d a u t

n
m
u

s v e h i c l e s

f

l

w

c a p a c i t y

 T

a

d d r e s s t h i s , r e s e a r c h a i m e d a t r e d u c i n i n g t h t h e n n u m b e r e r

f
f

p p a r a m a m e t e r e t e r s [ 1 2 , 1 4 ] , h

w

e v e r , t h e r e i s a t r a d e

fg

b e t w e e n a c c u r a c y a n d t h e n u m b e r

f

p a r a m e t e r s ( m e m

r

y b u d g e t ) a t t e s t t i m e



w e w e w a n a n t a n t a n e t w e t w

r
r

k k t h t h a t g a t g i v i v e s e s c c

m

p e t i t i e t i t i v e p p e r e r f

r
r

m a n a n c e e u n d e r e r a g a g i v e n m e m e m

r
r

y y b u d g e t e t

 B

e s i d e s , g i v e n N d i fg e r e n t m e m

r

y b u d g e t s , w e d e fj n e a n d t r a i n N d i fg e r e n t D N N m

d

e l s w h i c h r e q u i r e a d d i t i

i

t i

n

a l t r t r a i n i n i n i n g c c

s
s

t

SLIDE 3

3

M

t

i t i v a v a t i

n

 [

1 9 , 2 2 ] p r

p
s

e d s i n g l e D N N m

d

e l s w h i c h c a n p e r f

r

m m u l t i p t i p l e e i n f e r e r e n e n c e u n d e r e r d d i fg i fg e r e n e n t t m e m e m

r
r

y b y b u d g e t s e t s a l l

w

i n g fm e x i b l e a c c u r a c y

m

e m

r

y t r a d e

fg

s w i t h i n a s i n i n g l e n e n e t w t w

r
r

k ( a l s

c

a l l e d m e m

r

y e ffj c i e n t i n f e r e n c e )

 a

n d t h u s , c a n a v

i

d i n t r

d

u c i n g m u l t i p l e n e t w

r

k s f

r

d i fg e r e n t m e m

r

y b u d g e t ( n

t

e , t h e s e a r e f

r

a s i n i n g l e t a s e t a s k )

 l

e a r n i n g m u l t i p l e t a s k s s i m u l t a n e

u

s l y i n a n e t w

r

k a v

i

d m u l t i

s

t a g e t r a i n i n g [ 2 , 2 6 ] a n d i m p r

v

e g e n e r a l i z a t i

n

[ 5 , 7 , 3 9 ]

 t

h i s w

r

k p r

p
s

e s a n a p p r

a

c h t h a t p e r f

r

m s m e m e m

r
r

y e ffj y e ffj c i e n i e n t t i n f e r e r e n e n c e f

r

m u l t i p t i p l e e t a t a s k s k s [ [ * ] i n a s i n i n g l e n e n e t w e t w

r
r

k

[19] Eunwoo Kimet al. NestedNet: Learning nested sparse structures in deep neural networks. CVPR 2018 [22] Gustav Larsson et al. FractalNet: Ultra-deep neural networks without residuals. ICLR 2017 [*] Multiple tasks refer to multiple datasets, unless stated otherwise

SLIDE 4

4

A p A p p r

a

c h

 a

r c h i t e c t u r e c

n

t a i n i n g m u l t i p t i p l e n e n e t w e t w

r
r

k s k s

f

d d i fg i fg e r e n e n t c c

n
n

fj fj g u r a t a t i

n

i

n

s t e r m e d d e e p e p v i r i r t u t u a l a l n n e t w t w

r
r

k s k s ( D V N s )



E a c h D V N s h a r e s p a r a m e t e r s

f

t h e a r c h i t e c t u r e a n d p e r f

r

m s m e m

r

y e ffj c i e n t i n f e r e n c e f

r

i t s c

r

r e s p

n

d i n g t a s k

SLIDE 5

5

A p A p p r

a

c h

 t

h e p r

p
s

e d a r c h i t e c t u r e i s b a s e d

n

a b a c a c k b k b

n

e n e n e t w e t w

r
r

k

 t

h e n e t w

r

k p a r a m e t e r s a r e d i v i d e d i n t

m

u l t i p l e d i s j

i

n t u n i t s i t s

 u

n i t i t s a r e c

l

l e c t e d b y d i v i d i n g

 a

s e t

f

f e a t u r e m a p s i n e a c h

 l

a y e r i n t

m

u l t i p l e s u b s e t s

 A

D V N i s s t r u c t u r e d h i e r a r c h i c a l l y

 w

h i c h c

n

t a i n s m u l t i p l e l e v e l s

 o

f h i e r a r c h y c

r

r e s p

n

d i n g t

 d

i fg e r e n t n u m b e r s

f

u n i t s e n a b l i n g

 m

u l t i p l e i n f e r e n c e f

r

d i fg e r e n t

 m

e m

r

y b u d g e t s

SLIDE 6

6

A p A p p r

a

c h

 a

u n i t c a n b e s h a r e d b y d i fg e r e n t D V N s a l l

w

i n g m u l t i p l e D V N s i n a s i n g l e d e e p n e t w

r

k t

p

e r f

r

m m u l t i

t

i

t

a s t a s k i n k i n g

 E

a c h D V N h a s a u n i q i q u e c e c

n
n

fj fj g u r a t i

a

t i

n

( S e c t i

n

3 . 2 ) ( i . e . , a h i e r a r c h i c a l s t r u c t u r e w i t h a d i fg e r e n t

r

d e r

f

u n i t s ) ,

 a

n d i s s p e c i a l a l i z i z e d f f

r
r

a s a s i n i n g l e e t a t a s k

 Tie

a p p r

a

c h i s r e a l i z e d i n a s i n i n g l e

 t

r t r a i n i n i n i n g s s t a t a g e b a s e d

n

a s i n g l e

 b

a c k b

n

e a r c h i t e c t u r e

 (

e . g . , a r e s i d u a l n e t w

r

k [ 1 3 ] ) ,

 w

h i c h s i g n i fj c a n t l y r e d u c e s e s

 t

r t r a i n i n i n i n g e fg e fg

r

t s t s a n d

 n

e t w e t w

r
r

k s k s t

r

t

r

a g e

SLIDE 7

7

A p A p p r

a

c h – M M e m

r

y e ffj ffj c i c i e n t l n t l e a r n i n i n g n g

 g

i v e n a b a c k b

n

e , d i v i d e t h e n e t w

r

k p a r a m e t e r s i n t

k

d i s j

i

n t s u b s e t s : i . e . W = [ W_ { 1 } , ../ , W_ { k } ]

 l

t

h l e v e l

f

h i e r a r c h y ( l > = 2 ) c

n

t a i n s t h e s u b s e t s i n t h e ( l

1

)

t

h l e v e l a n d

n

e a d d i t i

n

a l s u b s e t

 l

e v e l

1

( l

w

e s t l e v e l ) c

n

t a i n s ( l = 1 )

 a

s i n g l e s u b s e t s

 l

e v e l n _ { h } ( h i g h e s t l e v e l ) c

n

t a i n s

 a

l l s u b s e t s ( i . e . W)

 n

_ { h } : n u m b e r

f

l e v e l s

f

h i e r a r c h y

 k

: n u m b e r

f

s u b s e t s

 i

n t h i s w

r

k , k = n _ { h }

 e

a c h l e v e l

f

h i e r a r c h y d e fj n e s

 a

n e t w

r

k c

r

r e s p

n

d i n g t

t

h e s u b s e t

 a

n d p r

d

u c e s a n

u

t p u t

SLIDE 8

8

A p A p p r

a

c h – M M e m

r

y e ffj ffj c i c i e n t l n t l e a r n i n i n g n g

 L

s

s f u n c t i

n

:



: d a t a s e t

i

m a g e

l

a b e l p a i r s



: l e v e l s

f

h i e r a r c h y



: s e t

f

p a r a m e t e r s a n d c a n b e

p

t i m i z e d b y t h e s u m

f

t h e l

s

s f u n c t i

n

s

 w

h e r e :



i s a s e t

f

p a r a m e t e r s

f

t h a t a r e a s s i g n e d t

t

h e l

t

h l e v e l a n d d e s i g n e d b y f

l

l

w

i n g g r

u

p

w

i s e p r u n i n g a p p r

a

c h e s [ 1 4 , 3 3 ]

 N

t

e

t

e , E q E q . ( ( 1 ) i s a p a p p l i e i e d t

a

t

a

s i n i n g l e t a s e t a s k

SLIDE 9

9

A p A p p r

a

c h – D D e e p v v i r t u t u a l n e n e t w t w

r

k



a d i fg e r e n t h i e r a r c h i c a l s t r u c t u r e i s c

n

s t r u c t e d b y a d a d i fg i fg e r e r e n e n t

r

t

r

d e r e r

f

u n i t i t s

 t

h i s i n t r

d

u c e s a u n i q u e D V N s p e c i a l i z e d f

r

a p p a r a r t i c t i c u l a r a r t a s t a s k

 t

h u s m u l t i p l e D V N s

f

d i fg e r e n t n e t w

r

k c

n

fj g u r a t i

n

s c a n b e r e a l i z e d i n a s a s i n g l e n e n e t w t w

r
r

k b y s h a r a r i n i n g u u n i t s t s , f

r

d i fg e r e n t t a s k s

SLIDE 10

1

A p A p p r

a

c h – R u R u l e l e s s f

r

c c

n

fj n fj g u g u r i n g n g D V N s N s



a s s u m e t h a t d a t a s e t s a r e c

l

l e c t e d s e q u e n t i a l l y , a l

n

g w i t h t h e i r t a s k I D n u m b e r s , a n d t h e d a t a s e t s w i t h a d j a c e n t t a s k I D n u m b e r s a r e f r

m

s i m i l a r d

m

a i n s

SLIDE 11

1 1

A p A p p r

a

c h – D D V N s L N s L

s

s s s f u n c n c t i t i

n

SLIDE 12

1 2

A p A p p r

a

c h – D D V N s L N s L

s

s s s f u n c n c t i t i

n

 u

n i t i i s l e a r n e d b y a g g r e g a t i n g m u l t i p l e g r a d i e n t s f r

m

t h e h i e r a r c h i c a l s t r u c t u r e s

f

d e e p v i r t u a l n e t w

r

k s f

r

a l l k t a s k s

SLIDE 13

1 3

A p A p p r

a

c h – D D V N s L N s L

s

s s s f u n c n c t i t i

n

 N

t

e t h a t , f

r

g i v e n , t h e d i fg e r e n c e i n fm u e n c e s

n

t h e a m

u

n t

f

t h e g r a d i e n t ( s i g i g n i fj fj c a n c e )

f

t h e u n i t i f

r

t h e t a s k j a s t h e g r a d i e n t s f r

m

m

r

e l e v e l s a c c u m u l a t e

 A

s t h e d i fg i fg e r e r e n e n c e i s l a r g e r , t h e s i g n i fj c a n c e

f

t h e u n i t w i l l b e h i g h e r e r f

r

t h e t a s k j

 t

h e n e t w

r

k i s t r a i n e d i n a w a y t h a t e a c h u n i t i s i t i s l l e a r n e d t

t
h

h a v a v e e d i fg fg e r e r e n t s t s i g i g n i fj i fj c a n a n c e f e f

r

a l l t a t a s k s k s

 n

t

e t h a t , t h e t

t

a l t a l a m a m

u
u

n t t

f

g r a d a d i e n e n t s t s

f

a u n i t

v

e r a l l t a s k s i s a b

u

t s a m a m e t

t

h

s

e

f
t

h e r u n i t s

 t

h i s p p r e v e n t s t s u n i t s f r

m

h a v i n g i r i r r e g e g u l a r s c a l e s e s

f
f

g g r a d i e n i e n t s t s

SLIDE 14

1 4

A p A p p r

a

c h – D D V N s f N s f

r

s e s e q u q u e n t i n t i a l l t a t a s k s s k s

 D

V N s c a n a l s

h

a n d l e s e q u e n t i a l t a s k s [ 2 4 ]

 a

s s u m e t h a t t h e

l

d t a s k s , f r

m

t h e 1 s t t

t

h e ( k − 1 )

t

h t a s k , h a v e b e e n l e a r n e d b e f

r

e h a n d , f

r

t h e c u r r e n t ( n e w ) t a s k k t h e l

s

s f u n c t i

n

i s :

 w

h e r e i s a d i s t i l l a t i

n

l

s

s b e t w e e n t h t h e

u

t p t p u t

f

a n e t w e t w

r
r

k ( w h

s

e c

r

r e s p

n

d i n g s t r u c t u r e i s d e t e r m i n e d b y ) a n d t h t h e

u

e

u

t p t p u t

f

t

f

t h t h e t a s e t a s k j k j f r

m

t h e

l

d n e t w

r

k w h e n a n e w i n p u t i s g i v e n

 d

i s t i l l a t i

n

l

s

s i s t

p

r e s e s e r e r v e t h t h e k n e k n

w

l e d g e

e
f

t h t h e

l

d t a s a s k s k s i n t h e c u r r e n t s e q u e n c e [ 2 4 ] ( d u e t

t

h e a b s e n c e

f

t h e

l

d d a t a s e t s )

[24] Zhizhong Li and Derek Hoiem. Learning without forgetting. TPAMI 2017.

SLIDE 15

1 5

E x p e r i m e m e n t s n t s

E

E x p e r i m e m e n t a l l s e s e t u t u p

 S

u S u p e r v i s e d l l e a r n i n g p p r

b
b

l e m e m s :

 m

u l t i

t

a s k l e a r n i n g ( j

i

n t l e a r n i n g ) [ 2 ]

 s

e q u e n t i a l l e a r n i n g [ 2 4 ]

 h

i e r a r c h i c a l c l a s s i fj c a t i

n

[ 3 4 ] ( c l a s s i f y i n g c

a

r s e

t
fj

n e c l a s s c a t e g

r

i e s )

 B

e n e n c h m a r a r k k d a t a s t a s e t s e t s :

 C

I F A R

1

a n d C I F A R

1

[ 2 ] , S T L

1

[ 4 ] , a n d T i n y

I

m a g e N e t

 B

a c a c k b k b

n

e m e m

d

e l s :

 WR

N

n
s

[ 3 6 ] a n d R e s N e t

n

[ 1 3 ]

SLIDE 16

1 6

E x p e r i m e m e n t s n t s

E

E x p e r i m e m e n t a l l s e s e t u t u p

 Ti

Tir e e s s c e n e n a r a r i

i
s

f f

r
r

j

i

n j

i

n t l t l e a r a r n i n i n g

 J

1 : t w

t

a s k s u s i n g t h e C I F A R

1

a n d C I F A R

1

 J

2 : f

u

r t a s k s

d

i v i d i n g t h e n u m b e r

f

c l a s s e s

f

T i n y

I

m a g e N e t

 i

n t

f
u

r s u b s e t s e v e n l y

 J

3 : t h r e e t a s k s

C

I F A R

1

, T i n y

I

m a g e N e t , a n d S T L

1

 H

i e r e r a r a r c h i c i c a l a l c c l a s s i fj fj c a t i

n

t i

n

( ( H 1 )

C

I F A R

1
c
n

t a i n s c

a

r s e c l a s s e s ( 2 c l a s s e s ) a n d fj n e c l a s s e s ( 1 c l a s s e s )

 T

w

s

c e n e n a r i

s

i

s

f

r

s e q u e n e n t i a t i a l l l e a r n i n i n g

 S

1 : t w

t

a s k s

d

i v i d i n g t h e n u m b e r

f

c l a s s e s

f

C I F A R

1

 i

n t

t

w

s

u b s e t s e v e n l y

 S

2 : t w

t

a s k s

C

I F A R

1

a n d C I F A R

1

SLIDE 17

1 7

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 J

i

n

i

n t l t l e a r n i n i n g : s : s c e n a r i

i
J

1

 c

m

p a r i n g w i t h t w

a

p p r

a

c h e s :

 (

1 ) P a c k N e t + ( a g r

u

p e d v a r i a n t

f

P a c k N e t [ 2 6 ] C V P R 2 1 8 )

 (

2 ) N e s t e d N e t ( w i t h c h a n n e l p r u n i n g ) [ 1 9 ] ( c a n p e r f

r

m e i t h e r m u l t i

t

a s k l e a r n i n g

r

m e m

r

y e ffj c i e n t l e a r n i n g )



e a c h s t a n d

a

l

n

e u n i t ( t

p

) d

n
t

c

m

p r

m

i s e m u c h

n

p e r f

r

m a n c e c

m

p a r e d t

t

h

s

e u s i n g a l l u n i t s ( b

tu
m

)

n

a v e r a g e

 P

a c k N e t + a n d N e s t e d N e t ’ s m a x i m u m p e r f

r

m a n c e l e v e r a g i n g t h e w h

l

e n e t w

r

k c a p a c i t y a r e p

r

e r t h a n D V N a p p r

a

c h

Table 1. Results of joint learning on CIFAR-10 (task 1) and CIFAR-100 (task 2)

SLIDE 18

1 8

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 J

i

n

i

n t l t l e a r n i n i n g : s : s c e n a r i

i
J

1

SLIDE 19

1 9

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 J

i

n

i

n t l t l e a r n i n i n g : s : s c e n a r i

i
J

2

Multi-task learning

Figure 5(a) Multi-task learning - J 2 : f

u

r t a s k s

d

i v i d i n g t h e n u m b e r

f

c l a s s e s

f

T i n y

I

m a g e N e t

 D

V N

u
u

t p t p e r f

r

m s m s t h e c

m

p e t i t

r

s u n d e r s s i m i i m i l a r m e m e m

r

m

r

y b b u d g e t s t s f

r

a l l t a s k s

 n

t

e , D V N p r

v

i d e s f

u
u

r e e v a l u a t i

n

i

n

s w i t h r e s p e c t t

d

i fg e r e n t p a r a m e m e t e t e r d d e n s i t y i t y r r a t i

t

i

s

f

r

e a c h t a s k , w h i l e

t
t

h e r m m e t h

h
d

s p r

d

u c e a n e v a l u a t i

n

w i t h a fj x e d b u d g e t

 t

h e b a b a s e l i n i n e s h

w

s u u n s a t i s t i s f y i n i n g r e s u l t s a n d e v e n r e q u i r e s 4 4 × × l a r g e r n e t w t w

r

k s t

t
r

a g e t h a n D V N

SLIDE 20

2

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 J

i

n

i

n t l t l e a r n i n i n g : s : s c e n a r i

i
J

2

M

e m

m
r

y e ffj ffj c i e i e n t t l e a r n i n i n g g

Figure 5(b) Memory efficient learning - J 2 : f

u

r t a s k s

d

i v i d i n g t h e n u m b e r

f

c l a s s e s

f

T i n y

I

m a g e N e t

 g

a i n e d s i g n i fj c a n t p e r f

r

m a n c e i m p r

v

e m e n t

v

e r N e s t e d N e t f

r

a l l t h e t a s k s

 D

V N p r

d

u c e s 4 × 4 i n f e r e n c e

u

t p u t s w i t h i n a s i n g l e t r a i n e d n e t w

r

k

 w

h i l e N e s t e d N e t r e q u i r e s f

u

r d i fg e r e n t t r a i n e d n e t w

r

k s t

p

e r f

r

m m e m

r

y e ffj c i e n t i n f e r e n c e f

r

t h e s a m e t a s k s , r e s p e c t i v e l y

SLIDE 21

2 1

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 J

i

n

i

n t l t l e a r n i n i n g : s : s c e n a r i

i
J

2

P

a r a m e m e t e t e r d d e n s i t y i t y a a n d s p e e d u p

SLIDE 22

2 2

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 J

i

n

i

n t l t l e a r n i n i n g : s : s c e n a r i

i
J

3

 D

V N p e r f

r

m s b e tu e r t h a n t h e c

m

p a r e d a p p r

a

c h e s

n

a v e r a g e u n d e r s i m i l a r p a r a m e t e r d e n s i t y r a t i

s

 t

h e n u m b e r s

f

p a r a m e t e r s a n d t h e i r i n f e r e n c e t i m e s

f
u

r D V N a r e :

 (

1 ) . 6 5 m s ( 7 . 5 M ) , ( 2 ) 1 . 2 m s ( 1 6 . 8 M ) , a n d ( 3 ) 1 . 5 1 m s ( 2 9 . 8 M ) , r e s p e c t i v e l y ,

 f

r

a s i n g l e i m a g e f r

m

S T L

1

Figure 6. Results on three different datasets (Tiny-ImageNet, CIFAR-100, and STL-10)

f different scales for joint learning

SLIDE 23

2 3

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 H

i e i e r a r c h i c i c a l c l a s s i fj c i fj c a t i

t

i

n

[ * [ * ]

 b

a s e l i n e r e s u l t s a r e p r

v

i d e d b y l e a r n i n g a n i n d i v i d u a l n e t w

r

k f

r

t h e n u m b e r

f

p a r a m e t e r s a n d t h e n u m b e r

f

c l a s s e s

 N

e s t e d N e t p r

v

i d e s t w

d

i fg e r e n t r e s u l t s a c c

r

d i n g t

t

h e n u m b e r

f

t a s k s

 O

v e r a l l , D V N a p p r

a

c h p e r f

r

m s b e tu e r t h a n

t

h e r c

m

p a r e d m e t h

d

s f

r

a l l c a s e s

 D

V N a n d N e s t e d N e t

u

t p e r f

r

m t h e b a s e l i n e p r

b

a b l y d u e t

t

h e i r p r

p

e r t y

f

s h a h a r i n g g p a r a m e m e t e t e r s b e b e t w t w e e n t h e t h e t a t a s k s a s t h e y a r e c l

s

e l y r e l a t e d t

e

a c h

t

h e r

Table 3. Results of the hierarchical classification on CIFAR-100 [ * ] C I F A R A R

1
c
c
n

t a i n i n s c

c
a

r s e c l a s s e s ( 2 c l a s s e s ) a n d fj fj n e c l a c l a s s e s ( 1 c l a c l a s s e s )

SLIDE 24

2 4

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 S

e q u e n t i a t i a l l e a r n i n i n g

s
s

c e n a r i

i
(

S 1 )

 S

c e n a r i

(

S 1 )

c
n

s i s t s

f

t w

s

e q u e n t i a l t a s k s b a s e d

n

C I F A R

1

, w h e r e t h e

l

d ( t a s k

 1

) a n d n e w ( t a s k 2 ) t a s k s c

n

s i s t

f

t h e s a m p l e s f r

m

t h e fj r s t a n d l a s t fj v e c l a s s e s

f

t h e d a t a s e t , r e s p e c t i v e l y

 N

t

a b l y , t h e r e s u l t s u s i n g s t a n d

a

l

n

e u n i t s a r e b e tu e r t h a n

t

h e r s

n

a v e r a g e

 F

e a t u r e E x t r a c t i

n

a n d D A

C

N N n e a r l y p r e s e r v e t h e p e r f

r

m a n c e f

r

t h e fj r s t t a s k b u t t h e i r p e r f

r

m a n c e s g i v e t h e u n s a t i s f a c t

r

y r e s u l t s f

r

t h e s e c

n

d t a s k

Table 4. Results of the sequential learning on the CIFAR-10 tasks. The proposed architecture contains two deep virtual networks each of which provides two different evaluations using a single unit (right column) and all the units (left column) for each task.

SLIDE 25

2 5

E x p e r i m e m e n t s n t s

R

e R e s u s u l t s l t s

 S

e q u e n t i a t i a l l e a r n i n i n g

s
s

c e n a r i

i
(

S 2 )

 s

c e n a r i

(

S 2 ) c

n

s i s t i n g

f

C I F A R

1

(

l

d , t a s k 1 ) a n d C I F A R

1

( n e w , t a s k 2 )

 D

V N r e s u l t u s i n g a l l u n i t s ( r i g h t c

l

u m n ) g i v e s t h e b e s t p e r f

r

m a n c e

n

a v e r a g e a m

n

g t h e c

m

p a r e d a p p r

a

c h e s

Table 5. Results of the sequential learning on the CIFAR-10 (task 1) and CIFAR-100 (task 2) datasets.

SLIDE 26

2 6

Tie Tie c r c r u x

f

t h t h i s p s p a p e r

 M

u M u l t i

t

i

t

a s t a s k a n d m e m e m

r
r

y e ffj y e ffj c i e n i e n t l t l e a r a r n i n g u s i n g a s i n i n g l e n e n e t w e t w

r

k

 i

. e . g i v e n d i fg e r e n t m e m

r

y b u d g e t s a n d a s e t

f

t a s k s , w e n e e d t

t

r a i n a s i n g l e n e t w

r

k w h i c h g i v e s m u l t i p l e i n f e r e n c e

u

t p u t s ( f

r

d i fg e r e n t m e m

r

y b u d g e t s ) f

r

e a c h t a s k

 fj

r s t w

r

k i n t r

d

u c i n g t h e c

n

c e p t

f

v i r t u t u a l a l n n e t w e t w

r
r

k s k s i n d e e p l e a r n i n g f

r

m u l t i

t

a s k l e a r n i n g

 e

ffj c a c y

f

t h e p r

p
s

e d m e t h

d

h a s b e e n d e m

n

s t r a t e d u n d e r v a r i

u

s m u l t i

t

a s k l e a r n i n g s c e n a r i

s

– j

i

n t l e a r n i n g , h i e r a r c h i c a l c l a s s i fj c a t i

n

a n d s e q u e n t i a l l e a r n i n g

SLIDE 27