Neural CRF Parsing Greg Durre2 and Dan Klein UC Berkeley - - PowerPoint PPT Presentation

neural crf parsing
SMART_READER_LITE
LIVE PREVIEW

Neural CRF Parsing Greg Durre2 and Dan Klein UC Berkeley - - PowerPoint PPT Presentation

Neural CRF Parsing Greg Durre2 and Dan Klein UC Berkeley Parsing with CKY Parsing with CKY He gave a long speech on foreign


slide-1
SLIDE 1

Neural ¡CRF ¡Parsing

Greg ¡Durre2 ¡and ¡Dan ¡Klein ¡

  • UC ¡Berkeley
slide-2
SLIDE 2

Parsing ¡with ¡CKY

slide-3
SLIDE 3

Parsing ¡with ¡CKY

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

slide-4
SLIDE 4

Parsing ¡with ¡CKY

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP

slide-5
SLIDE 5

Parsing ¡with ¡CKY

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

slide-6
SLIDE 6

Parsing ¡with ¡CKY

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

slide-7
SLIDE 7

Parsing ¡with ¡CKY

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

slide-8
SLIDE 8

Discrete ¡Structure

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

slide-9
SLIDE 9

Discrete ¡Structure

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

slide-10
SLIDE 10

Discrete ¡Structure

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score =

PP NP NP

Pr

NP

slide-11
SLIDE 11

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Socher ¡et ¡al. ¡(2013)]

ConNnuous ¡Structure

slide-12
SLIDE 12

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Socher ¡et ¡al. ¡(2013)]

ConNnuous ¡Structure

slide-13
SLIDE 13

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Socher ¡et ¡al. ¡(2013)]

Powerful ¡nonlinear ¡featurizaNon…

ConNnuous ¡Structure

slide-14
SLIDE 14

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Socher ¡et ¡al. ¡(2013)]

Powerful ¡nonlinear ¡featurizaNon…but ¡inference ¡is ¡now ¡intractable.

ConNnuous ¡Structure

slide-15
SLIDE 15

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)]

slide-16
SLIDE 16

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] 2 5 8

slide-17
SLIDE 17

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] 2 5 8

slide-18
SLIDE 18

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] FirstWord=a, ¡… 2 5 8

slide-19
SLIDE 19

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] FirstWord=a, ¡… 2 5 8

slide-20
SLIDE 20

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] FirstWord=a, ¡… 2 5 8

  • Discrete ¡structure ¡with ¡discrete ¡features
slide-21
SLIDE 21

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] FirstWord=a, ¡… 2 5 8

  • Discrete ¡structure ¡with ¡discrete ¡features
  • Efficient ¡inference ¡via ¡basic ¡CKY…
slide-22
SLIDE 22

CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

[Taskar ¡et ¡al. ¡(2004), ¡Finkel ¡et ¡al. ¡(2008), ¡Hall ¡et ¡al. ¡(2014)] FirstWord=a, ¡… 2 5 8

  • Discrete ¡structure ¡with ¡discrete ¡features
  • Efficient ¡inference ¡via ¡basic ¡CKY…but ¡the ¡model ¡is ¡typically ¡linear
slide-23
SLIDE 23

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

slide-24
SLIDE 24

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

slide-25
SLIDE 25

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

slide-26
SLIDE 26

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

slide-27
SLIDE 27

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

neural ¡network

slide-28
SLIDE 28

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

neural ¡network

slide-29
SLIDE 29

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

neural ¡network

  • Neural ¡networks ¡score ¡decisions ¡locally ¡

(Collobert ¡et ¡al., ¡2011)

slide-30
SLIDE 30

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

neural ¡network

  • Neural ¡networks ¡score ¡decisions ¡locally ¡

(Collobert ¡et ¡al., ¡2011)

  • Discrete ¡structure ¡with ¡con$nuous ¡features
slide-31
SLIDE 31

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

neural ¡network

  • Neural ¡networks ¡score ¡decisions ¡locally ¡

(Collobert ¡et ¡al., ¡2011)

  • Inference ¡is ¡sNll ¡efficient…
  • Discrete ¡structure ¡with ¡con$nuous ¡features
slide-32
SLIDE 32

Neural ¡CRF ¡Parsing

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

PP NP NP

score

2 5 8

a speech

  • n

policy

neural ¡network

  • Neural ¡networks ¡score ¡decisions ¡locally ¡

(Collobert ¡et ¡al., ¡2011)

  • Inference ¡is ¡sNll ¡efficient…and ¡we ¡get ¡nonlinear ¡featurizaNon!
  • Discrete ¡structure ¡with ¡con$nuous ¡features
slide-33
SLIDE 33

Model

slide-34
SLIDE 34

Basic ¡CRF ¡Model

[Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

NP PP NP

slide-35
SLIDE 35

Basic ¡CRF ¡Model

[Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

NP PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

slide-36
SLIDE 36

Basic ¡CRF ¡Model

[Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

NP PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-37
SLIDE 37

Basic ¡CRF ¡Model

[Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

w>f

NP PP NP

2 5 8

= NP PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-38
SLIDE 38

Basic ¡CRF ¡Model

[Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

w>f

NP PP NP

2 5 8

= NP PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-39
SLIDE 39

Basic ¡CRF ¡Model

FirstWord ¡= ¡a ∧ [Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

w>f

NP PP NP

2 5 8

= NP PP NP

NP PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-40
SLIDE 40

Basic ¡CRF ¡Model

FirstWord ¡= ¡a ∧ [Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

w>f

NP PP NP

2 5 8

= NP PP NP

NP PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-41
SLIDE 41

Basic ¡CRF ¡Model

FirstWord ¡= ¡a ∧ [Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

w>f

NP PP NP

2 5 8

= NP PP NP

NP PP NP

PrevWord ¡= ¡gave∧ NP

PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-42
SLIDE 42

Basic ¡CRF ¡Model

FirstWord ¡= ¡a ∧ [Hall, ¡Durre5, ¡Klein ¡(2014)]

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

w>f

NP PP NP

2 5 8

= NP PP NP

NP PP NP

PrevWord ¡= ¡gave∧ NP

PP NP

P(T|x) ∝ Y

r∈T

exp (score(r))

NP PP NP

2 5 8

score

slide-43
SLIDE 43

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

NP PP NP

2 5 8

score

slide-44
SLIDE 44

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave Surface ¡feature

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

NP PP NP

2 5 8

score

slide-45
SLIDE 45

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave Surface ¡feature Label ¡feature

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

NP PP NP

2 5 8

score

slide-46
SLIDE 46

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave First ¡= ¡a, Prev ¡= ¡gave,… Surface ¡feature Label ¡feature

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

s

NP PP NP

2 5 8

score

slide-47
SLIDE 47

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave First ¡= ¡a, Prev ¡= ¡gave,

NP …

… Surface ¡feature Label ¡feature

NP PP NP

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

`

s

NP PP NP

2 5 8

score

slide-48
SLIDE 48

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave First ¡= ¡a, Prev ¡= ¡gave,

NP …

… Surface ¡feature Label ¡feature

NP PP NP

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

`

s

Fi,j = si`j

NP PP NP

2 5 8

score

slide-49
SLIDE 49

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave First ¡= ¡a, Prev ¡= ¡gave,

NP …

= W

Surface ¡feature Label ¡feature

NP PP NP

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

`

s

Fi,j = si`j

NP PP NP

2 5 8

score

slide-50
SLIDE 50

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave First ¡= ¡a, Prev ¡= ¡gave,

NP …

= W

Surface ¡feature Label ¡feature

s

X X X

2 5 8 NP PP NP

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

`

s

Fi,j = si`j

NP PP NP

2 5 8

score

slide-51
SLIDE 51

Basic ¡CRF ¡Model

FirstWord ¡= ¡a PrevWord ¡= ¡gave First ¡= ¡a, Prev ¡= ¡gave,

NP …

= W

Surface ¡feature Label ¡feature

s

X X X

2 5 8 NP PP NP

NP PP NP

`>

∧ ∧

w>f

NP PP NP

2 5 8

=

NP PP NP NP PP NP

`

s

Fi,j = si`j

NP PP NP

2 5 8

score

slide-52
SLIDE 52

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

= W s

X X X

2 5 8

NP PP NP

`>

slide-53
SLIDE 53

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

= W s

X X X

2 5 8

NP PP NP

`>

slide-54
SLIDE 54

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

slide-55
SLIDE 55

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

v

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

slide-56
SLIDE 56

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

v

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

s

slide-57
SLIDE 57

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

v

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

s

  • ne-­‑layer ¡NN
slide-58
SLIDE 58

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

v

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

100-­‑dim ¡vectors ¡ (Bansal ¡et ¡al., ¡2014)

= W s

X X X

2 5 8

NP PP NP

`>

s

  • ne-­‑layer ¡NN
slide-59
SLIDE 59

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

v

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

100-­‑dim ¡vectors ¡ (Bansal ¡et ¡al., ¡2014) 200-­‑dim ¡vector

= W s

X X X

2 5 8

NP PP NP

`>

s

  • ne-­‑layer ¡NN
slide-60
SLIDE 60

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

v

s

  • ne-­‑layer ¡NN
slide-61
SLIDE 61

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

v

s

  • ne-­‑layer ¡NN
slide-62
SLIDE 62

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

= W s

X X X

2 5 8

NP PP NP

`>

v

s

  • ne-­‑layer ¡NN
slide-63
SLIDE 63

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

Neural

= W s

X X X

2 5 8

NP PP NP

`>

v

s

  • ne-­‑layer ¡NN
slide-64
SLIDE 64

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

Sparse Neural

= W s

X X X

2 5 8

NP PP NP

`>

s

v

s

  • ne-­‑layer ¡NN
slide-65
SLIDE 65

NP PP NP

2 5 8

score

Neural ¡CRF ¡Model

He ¡ ¡gave ¡ ¡a ¡ ¡long ¡ ¡speech ¡ ¡on ¡ ¡foreign ¡ ¡policy ¡ ¡.

1 2 3 4 5 6 7 8 9

Sparse Neural Neural+Sparse

= W s

X X X

2 5 8

NP PP NP

`>

s s

v

s

  • ne-­‑layer ¡NN
slide-66
SLIDE 66

Inference

slide-67
SLIDE 67

Inference

Just ¡CKY!

slide-68
SLIDE 68

Inference

… ¡with ¡coarse ¡pruning ¡and ¡caching ¡of ¡neural ¡net ¡opera^ons

Just ¡CKY!

(Goodman, ¡1997) (Chen ¡and ¡Manning, ¡2014)

slide-69
SLIDE 69

Inference

… ¡with ¡coarse ¡pruning ¡and ¡caching ¡of ¡neural ¡net ¡opera^ons

Just ¡CKY!

Roughly ¡2x ¡slower ¡than ¡with ¡sparse ¡features ¡alone (Goodman, ¡1997) (Chen ¡and ¡Manning, ¡2014)

slide-70
SLIDE 70

Learning

slide-71
SLIDE 71

Learning

Just ¡Maximum ¡Likelihood!

slide-72
SLIDE 72

Learning

Just ¡Maximum ¡Likelihood!

… ¡with ¡backpropaga^on ¡through ¡each ¡local ¡neural ¡network

slide-73
SLIDE 73

Learning

Op^miza^on: ¡Adadelta ¡(Zeiler, ¡2012) ¡worked ¡slightly ¡be5er ¡than ¡ Adagrad ¡(Duchi ¡et ¡al., ¡2011)

Just ¡Maximum ¡Likelihood!

… ¡with ¡backpropaga^on ¡through ¡each ¡local ¡neural ¡network

slide-74
SLIDE 74

Results

slide-75
SLIDE 75

87 88 89 90 91 92

90.1

Sparse

Results: ¡English ¡Treebank ¡(Dev)

Dev ¡set ¡F1 ¡all ¡lengths

slide-76
SLIDE 76

87 88 89 90 91 92

90.4 90.1

Sparse Neural

Results: ¡English ¡Treebank ¡(Dev)

Dev ¡set ¡F1 ¡all ¡lengths

slide-77
SLIDE 77

87 88 89 90 91 92

91.3 90.4 90.1

Sparse+ ¡ Neural Sparse Neural

Results: ¡English ¡Treebank ¡(Dev)

Dev ¡set ¡F1 ¡all ¡lengths

slide-78
SLIDE 78

87 88 89 90 91 92

90.2 91.3 90.4 90.1

Sparse+ ¡ Neural Sparse Neural Sparse+ ¡ Brown

Results: ¡English ¡Treebank ¡(Dev)

Dev ¡set ¡F1 ¡all ¡lengths

slide-79
SLIDE 79

87 88 89 90 91 92

90.2 91.3 90.4 90.1

Sparse+ ¡ Neural Sparse Neural Sparse+ ¡ Brown

Results: ¡English ¡Treebank ¡(Dev)

Dev ¡set ¡F1 ¡all ¡lengths

slide-80
SLIDE 80

Word ¡Vectors

87 88 89 90 91 92

90.4

Dev ¡set ¡F1 ¡all ¡lengths Bansal ¡et ¡al.

slide-81
SLIDE 81

Word ¡Vectors

87 88 89 90 91 92

90.4

Dev ¡set ¡F1 ¡all ¡lengths Bansal ¡et ¡al.

slide-82
SLIDE 82

Word ¡Vectors

87 88 89 90 91 92

89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths Collobert ¡and ¡ Weston Bansal ¡et ¡al.

slide-83
SLIDE 83

Word ¡Vectors

87 88 89 90 91 92

89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths Collobert ¡and ¡ Weston Dependency ¡ context 11-­‑word ¡ surface ¡context Bansal ¡et ¡al.

slide-84
SLIDE 84

Word ¡Vectors

87 88 89 90 91 92

89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths Collobert ¡and ¡ Weston

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)

Dependency ¡ context 11-­‑word ¡ surface ¡context Bansal ¡et ¡al.

slide-85
SLIDE 85

Word ¡Vectors

87 88 89 90 91 92

89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths Collobert ¡and ¡ Weston

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)

Bansal ¡et ¡al.

slide-86
SLIDE 86

Word ¡Vectors

87 88 89 90 91 92

89.0 89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)

Bansal ¡et ¡al. word2vec ¡

  • n ¡PTB

Collobert ¡and ¡ Weston

slide-87
SLIDE 87

Word ¡Vectors

87 88 89 90 91 92

89.0 89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)

Bansal ¡et ¡al. word2vec ¡

  • n ¡PTB

Collobert ¡and ¡ Weston

slide-88
SLIDE 88

Word ¡Vectors

87 88 89 90 91 92

89.0 89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)

Bansal ¡et ¡al. word2vec ¡

  • n ¡PTB

Collobert ¡and ¡ Weston 1M ¡tokens 30M ¡tokens

slide-89
SLIDE 89

Word ¡Vectors

87 88 89 90 91 92

89.0 89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)

Bansal ¡et ¡al. word2vec ¡

  • n ¡PTB

Collobert ¡and ¡ Weston

91.3

90.9 Sparse+ Sparse+

slide-90
SLIDE 90

Word ¡Vectors

87 88 89 90 91 92

89.0 89.6 90.4

Dev ¡set ¡F1 ¡all ¡lengths

  • Syntac^c ¡vectors ¡are ¡best ¡for ¡parsing ¡(Bansal ¡et ¡al., ¡2014; ¡Levy ¡and ¡Goldberg, ¡2014)
  • Don’t ¡need ¡huge ¡unlabeled ¡corpora ¡for ¡these ¡methods ¡to ¡be ¡effec^ve

Bansal ¡et ¡al. word2vec ¡

  • n ¡PTB

Collobert ¡and ¡ Weston

91.3

90.9 Sparse+ Sparse+

slide-91
SLIDE 91

87 88 89 90 91 92

91.1

Test ¡set ¡F1 ¡all ¡lengths Neural+ ¡ Sparse

Results: ¡English ¡Treebank ¡(Test)

slide-92
SLIDE 92

87 88 89 90 91 92

89.2 91.1

Test ¡set ¡F1 ¡all ¡lengths Sparse Neural+ ¡ Sparse

Results: ¡English ¡Treebank ¡(Test)

slide-93
SLIDE 93

87 88 89 90 91 92

90.1 89.2 91.1

Test ¡set ¡F1 ¡all ¡lengths Sparse Berkeley

Petrov+ ¡06

Neural+ ¡ Sparse

Results: ¡English ¡Treebank ¡(Test)

slide-94
SLIDE 94

87 88 89 90 91 92

91.1 90.1 89.2 91.1

Test ¡set ¡F1 ¡all ¡lengths Sparse Berkeley CCK

Petrov+ ¡06 Carreras+ ¡08

Neural+ ¡ Sparse

Results: ¡English ¡Treebank ¡(Test)

slide-95
SLIDE 95

87 88 89 90 91 92

91.3 91.1 90.1 89.2 91.1

Test ¡set ¡F1 ¡all ¡lengths Sparse Berkeley CCK ZPar

Petrov+ ¡06 Carreras+ ¡08 Zhu+ ¡13

Neural+ ¡ Sparse

Results: ¡English ¡Treebank ¡(Test)

slide-96
SLIDE 96

87 88 89 90 91 92

91.3 91.1 90.1 89.2 91.1

Test ¡set ¡F1 ¡all ¡lengths Sparse Berkeley CCK ZPar

Petrov+ ¡06 Carreras+ ¡08 Zhu+ ¡13

Neural+ ¡ Sparse

Results: ¡English ¡Treebank ¡(Test)

slide-97
SLIDE 97

87 88 89 90 91 92

90.4 91.3 91.1 90.1 89.2 91.1

Test ¡set ¡F1 ¡all ¡lengths Sparse Berkeley CVG CCK ZPar

Petrov+ ¡06 Socher+ ¡13 Carreras+ ¡08 Zhu+ ¡13

Neural+ ¡ Sparse (reranking ¡ ensemble)

Results: ¡English ¡Treebank ¡(Test)

slide-98
SLIDE 98

Related ¡Work

slide-99
SLIDE 99

Related ¡Work

  • Transi^on-­‑based ¡neural ¡parsers: ¡Henderson ¡(2003), ¡Chen ¡and ¡

Manning ¡(2014)

slide-100
SLIDE 100

Related ¡Work

  • Transi^on-­‑based ¡neural ¡parsers: ¡Henderson ¡(2003), ¡Chen ¡and ¡

Manning ¡(2014)

  • Local ¡decisions ¡only: ¡Belinkov ¡et ¡al. ¡(2014)
slide-101
SLIDE 101

Related ¡Work

  • Transi^on-­‑based ¡neural ¡parsers: ¡Henderson ¡(2003), ¡Chen ¡and ¡

Manning ¡(2014)

  • Local ¡decisions ¡only: ¡Belinkov ¡et ¡al. ¡(2014)
  • Sequence-­‑to-­‑sequence ¡LSTM: ¡Vinyals ¡et ¡al. ¡(2014)
slide-102
SLIDE 102

Results: ¡Other ¡Languages

slide-103
SLIDE 103

Results: ¡Other ¡Languages

  • Nine ¡morphologically-­‑rich ¡languages ¡from ¡the ¡SPMRL ¡shared ¡task
slide-104
SLIDE 104

Results: ¡Other ¡Languages

  • Word ¡vectors ¡trained ¡on ¡SPMRL ¡monolingual ¡data ¡with ¡word2vec ¡

(approximately ¡100M ¡tokens ¡per ¡language)

  • Nine ¡morphologically-­‑rich ¡languages ¡from ¡the ¡SPMRL ¡shared ¡task
slide-105
SLIDE 105

Results: ¡Other ¡Languages

Test ¡set ¡F1 ¡all ¡lengths

70 75 80 85 90 95

85.1 83.2

Hall ¡et ¡al. ¡(2014) Sparse+Neural

Average

slide-106
SLIDE 106

Results: ¡Other ¡Languages

Test ¡set ¡F1 ¡all ¡lengths

70 75 80 85 90 95

85.1 83.2

Hall ¡et ¡al. ¡(2014) Sparse+Neural

Average

slide-107
SLIDE 107

Results: ¡Other ¡Languages

Arabic Basque French German Hebrew Hungarian Korean Polish Swedish

Test ¡set ¡F1 ¡all ¡lengths

70 75 80 85 90 95

85.1 83.2

Hall ¡et ¡al. ¡(2014) Sparse+Neural

Average

slide-108
SLIDE 108

Results: ¡Other ¡Languages

Arabic Basque French German Hebrew Hungarian Korean Polish Swedish

Test ¡set ¡F1 ¡all ¡lengths

70 75 80 85 90 95

85.1 83.2

Hall ¡et ¡al. ¡(2014) Sparse+Neural

  • Works ¡well ¡even ¡on ¡smaller ¡treebanks

Average

slide-109
SLIDE 109

Conclusion

slide-110
SLIDE 110

Conclusion

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-111
SLIDE 111

Conclusion

s

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-112
SLIDE 112

Conclusion

Feedforward

He gave a long speech

  • n

foreign policy .

s

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-113
SLIDE 113

Conclusion

Convolu^onal

He gave a long speech

  • n

foreign policy .

s

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-114
SLIDE 114

Conclusion

LSTM

He gave a long speech

  • n

foreign policy .

s

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-115
SLIDE 115

Conclusion

LSTM

He gave a long speech

  • n

foreign policy .

s

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-116
SLIDE 116

Conclusion

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

slide-117
SLIDE 117

Conclusion

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

  • Inference ¡and ¡learning ¡are ¡unchanged ¡from ¡the ¡purely ¡discrete ¡model
slide-118
SLIDE 118

Conclusion

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

  • Inference ¡and ¡learning ¡are ¡unchanged ¡from ¡the ¡purely ¡discrete ¡model
  • High ¡performance ¡on ¡cons^tuency ¡parsing ¡for ¡a ¡range ¡of ¡languages
slide-119
SLIDE 119

Conclusion

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

  • Inference ¡and ¡learning ¡are ¡unchanged ¡from ¡the ¡purely ¡discrete ¡model
  • High ¡performance ¡on ¡cons^tuency ¡parsing ¡for ¡a ¡range ¡of ¡languages

nlp.cs.berkeley.edu/projects/neuralcrf.shtml

slide-120
SLIDE 120

Conclusion

  • Neural ¡nets ¡can ¡combine ¡with ¡CRFs ¡to ¡provide ¡con^nuous ¡features ¡

in ¡discrete ¡structured ¡models

  • Inference ¡and ¡learning ¡are ¡unchanged ¡from ¡the ¡purely ¡discrete ¡model
  • High ¡performance ¡on ¡cons^tuency ¡parsing ¡for ¡a ¡range ¡of ¡languages

Thank ¡you!

nlp.cs.berkeley.edu/projects/neuralcrf.shtml