Weakly-Supervised Learning with Cost-Augmented Contras;ve - - PowerPoint PPT Presentation

weakly supervised learning with cost augmented contras ve
SMART_READER_LITE
LIVE PREVIEW

Weakly-Supervised Learning with Cost-Augmented Contras;ve - - PowerPoint PPT Presentation

Weakly-Supervised Learning with Cost-Augmented Contras;ve Es;ma;on Kevin Gimpel Mohit Bansal 1 n New objec;ve for


slide-1
SLIDE 1

Weakly-­‑Supervised ¡Learning ¡with ¡ Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on ¡ Kevin ¡Gimpel ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mohit ¡Bansal ¡

1 ¡

slide-2
SLIDE 2

n New ¡objec;ve ¡for ¡weakly-­‑supervised ¡NLP, ¡generalizes ¡

contras;ve ¡es;ma;on ¡(Smith ¡& ¡Eisner, ¡2005) ¡

n Adds ¡two ¡cost ¡func;ons: ¡inputs ¡and ¡outputs ¡ n Improved ¡system ¡combina;on ¡for ¡POS ¡tagging ¡

¡

2 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on ¡

64.3 ¡ 51.7 ¡

  • avg. ¡across ¡5 ¡languages, ¡

PASCAL ¡2012 ¡POS ¡shared ¡task ¡

slide-3
SLIDE 3

3 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on ¡

64.3 ¡ 51.7 ¡

Posterior ¡Regulariza;on ¡(Graça ¡et ¡al., ¡2011) ¡

60.9 ¡ 50.1 ¡

  • avg. ¡across ¡5 ¡languages, ¡

PASCAL ¡2012 ¡POS ¡shared ¡task ¡

n New ¡objec;ve ¡for ¡weakly-­‑supervised ¡NLP, ¡generalizes ¡

contras;ve ¡es;ma;on ¡(Smith ¡& ¡Eisner, ¡2005) ¡

n Adds ¡two ¡cost ¡func;ons: ¡inputs ¡and ¡outputs ¡ n Improved ¡system ¡combina;on ¡for ¡POS ¡tagging ¡

¡

slide-4
SLIDE 4

EM ¡and ¡Contras;ve ¡Es;ma;on ¡ ¡ Modifica;on ¡1: ¡Input ¡Cost ¡ ¡ Modifica;on ¡2: ¡Output ¡Cost ¡ ¡

4 ¡

slide-5
SLIDE 5

Genera;ve ¡Log-­‑Linear ¡Models ¡

5 ¡

slide-6
SLIDE 6

Genera;ve ¡Log-­‑Linear ¡Models ¡

6 ¡

word ¡ sequence ¡ part-­‑of-­‑speech ¡ tag ¡sequence ¡

slide-7
SLIDE 7

Genera;ve ¡Log-­‑Linear ¡Models ¡

7 ¡

parameters ¡ feature ¡ vector ¡ word ¡ sequence ¡ part-­‑of-­‑speech ¡ tag ¡sequence ¡

slide-8
SLIDE 8

Genera;ve ¡Log-­‑Linear ¡Models ¡

8 ¡

slide-9
SLIDE 9

Unsupervised ¡Learning ¡for ¡Log-­‑Linear ¡Models ¡

9 ¡

slide-10
SLIDE 10

EM ¡

10 ¡

slide-11
SLIDE 11

EM ¡

11 ¡

slide-12
SLIDE 12

EM ¡

12 ¡

reward ¡all ¡y’s ¡for ¡observed ¡x ¡ penalize ¡all ¡y’s ¡for ¡ALL ¡x’s ¡

slide-13
SLIDE 13

13 ¡

Contras;ve ¡Es;ma;on ¡(CE) ¡

(Smith ¡& ¡Eisner, ¡2005) ¡

“corrup;on ¡neighborhood” ¡

slide-14
SLIDE 14

14 ¡

Contras;ve ¡Es;ma;on ¡(CE) ¡

(Smith ¡& ¡Eisner, ¡2005) ¡

slide-15
SLIDE 15

15 ¡

Contras;ve ¡Es;ma;on ¡(CE) ¡

(Smith ¡& ¡Eisner, ¡2005) ¡

reward ¡all ¡y’s ¡for ¡observed ¡x ¡ (same ¡as ¡EM) ¡

slide-16
SLIDE 16

16 ¡

Contras;ve ¡Es;ma;on ¡(CE) ¡

(Smith ¡& ¡Eisner, ¡2005) ¡

reward ¡all ¡y’s ¡for ¡observed ¡x ¡ (same ¡as ¡EM) ¡ penalize ¡all ¡y’s ¡for ¡x’s ¡in ¡ ¡ corrup;on ¡neighborhood ¡

slide-17
SLIDE 17

17 ¡

With ¡well-­‑designed ¡neighborhood, ¡CE ¡shown ¡effec;ve ¡for: ¡

part-­‑of-­‑speech ¡tagging ¡(Smith ¡& ¡Eisner, ¡2005a) ¡ dependency ¡parsing ¡(Smith ¡& ¡Eisner, ¡2005b) ¡ morphological ¡segmenta;on ¡(Poon ¡et ¡al., ¡2009) ¡ bilingual ¡part-­‑of-­‑speech ¡induc;on ¡(Chen ¡et ¡al., ¡2011) ¡ machine ¡transla;on ¡(Xiao ¡et ¡al., ¡2011) ¡

slide-18
SLIDE 18

Smith ¡& ¡Eisner ¡(2005) ¡

red ¡ leaves ¡ don’t ¡ hide ¡ blue ¡ jays ¡ don’t ¡ hide ¡ blue ¡ jays ¡

“Transpose1” ¡Neighborhood ¡

Sentence: ¡ ¡red ¡leaves ¡don’t ¡hide ¡blue ¡jays ¡ Neighborhood: ¡

slide-19
SLIDE 19

EM ¡and ¡Contras;ve ¡Es;ma;on ¡ ¡ Modifica;on ¡1: ¡Input ¡Cost ¡ ¡ Modifica;on ¡2: ¡Output ¡Cost ¡ ¡

19 ¡

slide-20
SLIDE 20

20 ¡

Contras;ve ¡Es;ma;on: ¡

all ¡x’s ¡in ¡corrup;on ¡neighborhood ¡ ¡ treated ¡equally! ¡

slide-21
SLIDE 21

red ¡ leaves ¡ don’t ¡ hide ¡ blue ¡ jays ¡ don’t ¡ hide ¡ blue ¡ jays ¡

Transpose1 ¡Neighborhood ¡

Sentence: ¡ ¡red ¡leaves ¡don’t ¡hide ¡blue ¡jays ¡ Neighborhood: ¡ Smith ¡& ¡Eisner ¡(2005) ¡

slide-22
SLIDE 22

red ¡ leaves ¡ don’t ¡ hide ¡ blue ¡ jays ¡ don’t ¡ hide ¡ blue ¡ jays ¡

Transpose1 ¡Neighborhood ¡

Sentence: ¡ ¡red ¡leaves ¡don’t ¡hide ¡blue ¡jays ¡ Neighborhood: ¡

neighborhood ¡always ¡contains ¡original ¡sentence ¡

Smith ¡& ¡Eisner ¡(2005) ¡

slide-23
SLIDE 23

red ¡ leaves ¡ don’t ¡ hide ¡ blue ¡ jays ¡ don’t ¡ hide ¡ blue ¡ jays ¡

Transpose1 ¡Neighborhood ¡

Sentence: ¡ ¡red ¡leaves ¡don’t ¡hide ¡blue ¡jays ¡ Neighborhood: ¡

some ¡corrup;ons ¡not ¡as ¡bad ¡as ¡others ¡

Smith ¡& ¡Eisner ¡(2005) ¡

slide-24
SLIDE 24

First ¡modifica;on: ¡ ¡ add ¡input ¡cost ¡func?on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡_ ¡

24 ¡

slide-25
SLIDE 25

First ¡modifica;on: ¡ ¡ add ¡input ¡cost ¡func?on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡_ ¡

25 ¡

measures ¡difference ¡ between ¡observed ¡and ¡ corrupted ¡sentences, ¡ ¡ ¡ ¡ ¡is ¡weight ¡

slide-26
SLIDE 26

Inspira;on: ¡Structured ¡Large-­‑Margin ¡Learning ¡

26 ¡

margin-­‑rescaled ¡structured ¡hinge ¡(Taskar ¡et ¡al., ¡2003): ¡ sohmax-­‑margin ¡(Povey ¡et ¡al., ¡2008; ¡Gimpel ¡& ¡Smith, ¡2010) ¡: ¡

slide-27
SLIDE 27

Inspira;on: ¡Structured ¡Large-­‑Margin ¡Learning ¡

27 ¡

margin-­‑rescaled ¡structured ¡hinge ¡(Taskar ¡et ¡al., ¡2003): ¡ sohmax-­‑margin ¡(Povey ¡et ¡al., ¡2008; ¡Gimpel ¡& ¡Smith, ¡2010) ¡: ¡

(soh)max-­‑margin: ¡cost ¡compares ¡two ¡outputs ¡ this ¡talk: ¡cost ¡compares ¡two ¡inputs ¡

slide-28
SLIDE 28

Input ¡Cost ¡Func;ons ¡

28 ¡

Match: ¡ ¡ count ¡unmatched ¡bigrams ¡in ¡corrupted ¡sentence ¡ Match ¡LM: ¡ ¡ weight ¡by ¡language ¡model ¡(nega;ve) ¡log-­‑probability ¡

slide-29
SLIDE 29

Experiments ¡

Unsupervised ¡part-­‑of-­‑speech ¡tagging, ¡12 ¡tags, ¡no ¡tag ¡dic;onaries ¡ ¡ Evalua;on: ¡many-­‑to-­‑1 ¡& ¡1-­‑to-­‑1 ¡accuracy ¡ ¡ 5 ¡languages ¡from ¡PASCAL ¡2012 ¡shared ¡task ¡(Gelling ¡et ¡al., ¡2012): ¡ ¡ ¡ ¡ ¡ ¡Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

29 ¡

slide-30
SLIDE 30

Neighborhoods ¡

Transpose1 ¡(Smith ¡& ¡Eisner, ¡2005) ¡ ¡ Shuffle10: ¡ ¡

  • riginal ¡sentence ¡+ ¡10 ¡random ¡permuta;ons ¡

¡ ¡ ¡

30 ¡

slide-31
SLIDE 31

Setup ¡

Features: ¡

¡ ¡ ¡ ¡tag-­‑tag ¡transi;ons ¡ ¡ ¡ ¡ ¡tag-­‑word ¡emissions ¡ ¡ ¡ ¡ ¡spelling ¡features ¡(Smith ¡& ¡Eisner, ¡2005) ¡ ¡ ¡ ¡ ¡tag-­‑cluster ¡emissions ¡(from ¡Brown ¡clustering ¡with ¡{12,40} ¡clusters) ¡

¡ LBFGS ¡for ¡100 ¡itera;ons, ¡random ¡ini;aliza;on ¡ L2 ¡regulariza;on ¡with ¡(untuned) ¡coefficient ¡0.0001 ¡

31 ¡

slide-32
SLIDE 32

32 ¡

input ¡cost ¡ many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Shuffle10 ¡

None ¡(CE ¡baseline) ¡ 51.3 ¡ ¡(+1.3) ¡ 39.7 ¡ ¡(+0.4) ¡ Match ¡ 53.3 ¡ ¡(+2.0) ¡ 40.5 ¡ ¡(+0.8) ¡ Match ¡LM ¡ 53.9 ¡ ¡(+2.6) ¡ 41.6 ¡ ¡(+1.9) ¡

Transpose1 ¡

None ¡(CE ¡baseline) ¡ 61.8 ¡ ¡ ¡(-­‑1.2) ¡ 47.2 ¡ ¡(+4.3) ¡ Match ¡ 63.1 ¡ ¡(+1.3) ¡ 47.6 ¡ ¡(+0.4) ¡ Match ¡LM ¡ 62.8 ¡ ¡(+1.0) ¡ 49.9 ¡ ¡(+2.7) ¡

  • avg. ¡across ¡5 ¡languages: ¡ ¡

Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-33
SLIDE 33

33 ¡

input ¡cost ¡ many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Shuffle10 ¡

None ¡(CE ¡baseline) ¡ 51.3 ¡ ¡(+1.3) ¡ 39.7 ¡ ¡(+0.4) ¡ Match ¡ 53.3 ¡ ¡(+2.0) ¡ 40.5 ¡ ¡(+0.8) ¡ Match ¡LM ¡ 53.9 ¡ ¡(+2.6) ¡ 41.6 ¡ ¡(+1.9) ¡

Transpose1 ¡

None ¡(CE ¡baseline) ¡ 61.8 ¡ ¡ ¡(-­‑1.2) ¡ 47.2 ¡ ¡(+4.3) ¡ Match ¡ 63.1 ¡ ¡(+1.3) ¡ 47.6 ¡ ¡(+0.4) ¡ Match ¡LM ¡ 62.8 ¡ ¡(+1.0) ¡ 49.9 ¡ ¡(+2.7) ¡

  • avg. ¡across ¡5 ¡languages: ¡ ¡

Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-34
SLIDE 34

34 ¡

input ¡cost ¡ many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Shuffle10 ¡

None ¡(CE ¡baseline) ¡ 51.3 ¡ ¡(+1.3) ¡ 39.7 ¡ ¡(+0.4) ¡ Match ¡ 53.3 ¡ ¡(+2.0) ¡ 40.5 ¡ ¡(+0.8) ¡ Match ¡LM ¡ 53.9 ¡ ¡(+2.6) ¡ 41.6 ¡ ¡(+1.9) ¡

Transpose1 ¡

None ¡(CE ¡baseline) ¡ 61.8 ¡ ¡ ¡(-­‑1.2) ¡ 47.2 ¡ ¡(+4.3) ¡ Match ¡ 63.1 ¡ ¡(+1.3) ¡ 47.6 ¡ ¡(+0.4) ¡ Match ¡LM ¡ 62.8 ¡ ¡(+1.0) ¡ 49.9 ¡ ¡(+2.7) ¡

  • avg. ¡across ¡5 ¡languages: ¡ ¡

Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-35
SLIDE 35

35 ¡

input ¡cost ¡ many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Shuffle10 ¡

None ¡(CE ¡baseline) ¡ 51.3 ¡ ¡(+1.3) ¡ 39.7 ¡ ¡(+0.4) ¡ Match ¡ 53.3 ¡ ¡(+2.0) ¡ 40.5 ¡ ¡(+0.8) ¡ Match ¡LM ¡ 53.9 ¡ ¡(+2.6) ¡ 41.6 ¡ ¡(+1.9) ¡

Transpose1 ¡

None ¡(CE ¡baseline) ¡ 61.8 ¡ ¡ ¡(-­‑1.2) ¡ 47.2 ¡ ¡(+4.3) ¡ Match ¡ 63.1 ¡ ¡(+1.3) ¡ 47.6 ¡ ¡(+0.4) ¡ Match ¡LM ¡ 62.8 ¡ ¡(+1.0) ¡ 49.9 ¡ ¡(+2.7) ¡

Using ¡language ¡model ¡probabili;es ¡helps ¡

slide-36
SLIDE 36

EM ¡and ¡Contras;ve ¡Es;ma;on ¡ ¡ Modifica;on ¡1: ¡Input ¡Cost ¡ ¡ Modifica;on ¡2: ¡Output ¡Cost ¡ ¡

36 ¡

slide-37
SLIDE 37

37 ¡

Contras;ve ¡Es;ma;on: ¡

slide-38
SLIDE 38

38 ¡

Contras;ve ¡Es;ma;on: ¡

we ¡sum ¡over ¡all ¡y’s ¡for ¡each ¡x ¡(observed ¡or ¡corrupted) ¡ how ¡can ¡we ¡encode ¡intui;ons ¡about ¡y? ¡

slide-39
SLIDE 39

Second ¡modifica;on: ¡ ¡ adding ¡an ¡output ¡cost ¡func?on ¡_ ¡

39 ¡

expresses ¡preferences ¡on ¡ ¡

  • utputs, ¡regardless ¡of ¡input ¡

¡

slide-40
SLIDE 40

Second ¡modifica;on: ¡ ¡ adding ¡an ¡output ¡cost ¡func?on ¡_ ¡

40 ¡

expresses ¡preferences ¡on ¡ ¡

  • utputs, ¡regardless ¡of ¡input ¡

¡ similar ¡to ¡``structural ¡bias’’ ¡(Smith ¡& ¡Eisner, ¡2006), ¡ posterior ¡regulariza;on ¡(Graça ¡et ¡al., ¡2010), ¡and ¡ universal ¡dependency ¡rules ¡(Naseem ¡et ¡al., ¡2010) ¡

slide-41
SLIDE 41

Inspira;on ¡

41 ¡

ramp ¡(Do ¡et ¡al., ¡2008): ¡

Some ¡objec;ves ¡for ¡supervised ¡learning ¡never ¡need ¡to ¡score ¡the ¡ true ¡output: ¡

supervision ¡ used ¡only ¡in ¡ cost ¡func;on ¡

slide-42
SLIDE 42

42 ¡

“Soh” ¡ramp ¡gain ¡(Gimpel, ¡2012): ¡ CE ¡with ¡output ¡cost ¡func;on ¡(this ¡talk): ¡

slide-43
SLIDE 43

43 ¡

“Soh” ¡ramp ¡gain ¡(Gimpel, ¡2012): ¡ CE ¡with ¡output ¡cost ¡func;on ¡(this ¡talk): ¡ true ¡y ¡ dropped ¡ from ¡cost ¡ func;on ¡ contras;ve ¡ neighborhood ¡used ¡ for ¡denominator ¡

slide-44
SLIDE 44

44 ¡

Universal ¡Tag ¡Priors ¡

We ¡counted ¡tags ¡in ¡11 ¡ treebanks ¡(for ¡languages ¡not ¡ used ¡in ¡our ¡experiments) ¡

slide-45
SLIDE 45

tag ¡ count ¡ cost ¡ noun ¡ 2.3M ¡ ¡ 0 ¡ punctua;on ¡ 1M ¡ ¡ 0.81 ¡ ¡ verb ¡ 1M ¡ ¡ 0.83 ¡ ¡ adposi;on ¡ 900K ¡ ¡ 0.95 ¡ ¡ adjec;ve ¡ ¡ 700K ¡ ¡ 1.21 ¡ ¡ determiner ¡ 600K ¡ ¡ 1.33 ¡ ¡ pronoun ¡ ¡ 500K ¡ ¡ 1.62 ¡ ¡ conjunc;on ¡ 400K ¡ ¡ 1.68 ¡ ¡ adverb ¡ 300K ¡ ¡ 1.96 ¡ ¡ verb ¡par;cle ¡ 179K ¡ ¡ 2.57 ¡ ¡ numeral ¡ 175K ¡ ¡ 2.59 ¡ X ¡(“other”) ¡ 50K ¡ ¡ 3.83 ¡

45 ¡

Universal ¡Tag ¡Priors ¡

We ¡counted ¡tags ¡in ¡11 ¡ treebanks ¡(for ¡languages ¡not ¡ used ¡in ¡our ¡experiments) ¡

slide-46
SLIDE 46

tag ¡bigram ¡ count ¡ cost ¡ noun ¡punctua;on ¡ 500K ¡ ¡ 0 ¡ determiner ¡noun ¡ 450K ¡ ¡ 1.04 ¡ ¡ noun ¡noun ¡ 410K ¡ ¡ 2.09 ¡ ¡ … ¡ numeral ¡adverb ¡ 1587 ¡ ¡ 57.63 ¡ ¡ determiner ¡conjunc;on ¡ 518 ¡ ¡ 68.82 ¡ ¡ determiner ¡par;cle ¡ 109 ¡ ¡ 84.41 ¡ ¡

46 ¡

slide-47
SLIDE 47

¡ ¡ ¡ ¡ Results ¡

47 ¡

slide-48
SLIDE 48

48 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

HMM, ¡EM ¡

50.9 ¡ 34.2 ¡

accuracies ¡averaged ¡across ¡5 ¡languages: ¡ ¡ Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-49
SLIDE 49

49 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

HMM, ¡EM ¡

50.9 ¡ 34.2 ¡

HMM, ¡stepwise ¡EM ¡(Liang ¡et ¡al., ¡2009) ¡

57.7 ¡ 41.1 ¡

accuracies ¡averaged ¡across ¡5 ¡languages: ¡ ¡ Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-50
SLIDE 50

50 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

HMM, ¡EM ¡

50.9 ¡ 34.2 ¡

HMM, ¡stepwise ¡EM ¡(Liang ¡et ¡al., ¡2009) ¡

57.7 ¡ 41.1 ¡

Brown ¡Clustering ¡

57.6 ¡ 45.5 ¡

mkcls ¡(Och, ¡1995) ¡

58.4 ¡ 45.8 ¡

accuracies ¡averaged ¡across ¡5 ¡languages: ¡ ¡ Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-51
SLIDE 51

51 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

HMM, ¡EM ¡

50.9 ¡ 34.2 ¡

HMM, ¡stepwise ¡EM ¡(Liang ¡et ¡al., ¡2009) ¡

57.7 ¡ 41.1 ¡

Brown ¡Clustering ¡

57.6 ¡ 45.5 ¡

mkcls ¡(Och, ¡1995) ¡

58.4 ¡ 45.8 ¡

Posterior ¡Regulariza;on ¡(Graça ¡et ¡al., ¡2011) ¡

60.9 ¡ 50.1 ¡

accuracies ¡averaged ¡across ¡5 ¡languages: ¡ ¡ Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-52
SLIDE 52

52 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

HMM, ¡EM ¡

50.9 ¡ 34.2 ¡

HMM, ¡stepwise ¡EM ¡(Liang ¡et ¡al., ¡2009) ¡

57.7 ¡ 41.1 ¡

Brown ¡Clustering ¡

57.6 ¡ 45.5 ¡

mkcls ¡(Och, ¡1995) ¡

58.4 ¡ 45.8 ¡

Posterior ¡Regulariza;on ¡(Graça ¡et ¡al., ¡2011) ¡

60.9 ¡ 50.1 ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

accuracies ¡averaged ¡across ¡5 ¡languages: ¡ ¡ Danish, ¡Dutch, ¡Portuguese, ¡Slovene, ¡Swedish ¡

slide-53
SLIDE 53

53 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Posterior ¡Regulariza;on ¡

60.9 ¡ 50.1 ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on: ¡ Cost-­‑Augmented ¡ Contras;ve ¡ Es;ma;on ¡ Match ¡LM ¡

62.8 ¡ 49.9 ¡

Universal ¡ ¡ ¡ ¡ ¡ ¡ ¡(CE) ¡

61.7 ¡ ¡(-­‑0.1) ¡ 51.3 ¡ ¡(+4.1) ¡

Match ¡LM ¡+ ¡Universal ¡ ¡ ¡ ¡ ¡ ¡(CE) ¡

60.6 ¡ ¡(-­‑1.2) ¡ 51.5 ¡ ¡(+4.3) ¡

Match ¡LM ¡+ ¡Universal ¡ ¡ ¡ ¡ ¡ ¡(LL) ¡

62.6 ¡ ¡(+0.8) ¡ 48.3 ¡ ¡(+1.1) ¡

slide-54
SLIDE 54

54 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Posterior ¡Regulariza;on ¡

60.9 ¡ 50.1 ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on: ¡ Cost-­‑Augmented ¡ Contras;ve ¡ Es;ma;on ¡ Match ¡LM ¡ ¡ ¡ ¡ ¡ ¡ ¡

62.8 ¡ 49.9 ¡

Universal ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

61.7 ¡ 51.3 ¡

Match ¡LM ¡+ ¡Universal ¡ ¡ ¡ ¡ ¡ ¡(CE) ¡

60.6 ¡ ¡(-­‑1.2) ¡ 51.5 ¡ ¡(+4.3) ¡

Match ¡LM ¡+ ¡Universal ¡ ¡ ¡ ¡ ¡ ¡(LL) ¡

62.6 ¡ ¡(+0.8) ¡ 48.3 ¡ ¡(+1.1) ¡

slide-55
SLIDE 55

55 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Posterior ¡Regulariza;on ¡

60.9 ¡ 50.1 ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on: ¡ Match ¡LM ¡ ¡ ¡ ¡ ¡ ¡ ¡

62.8 ¡ 49.9 ¡

Universal ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

61.7 ¡ 51.3 ¡

Match ¡LM ¡+ ¡Universal ¡

64.3 ¡ 51.7 ¡

slide-56
SLIDE 56

Conclusions ¡

n New ¡learning ¡criterion ¡for ¡weakly-­‑supervised ¡

learning, ¡generalizes ¡contras;ve ¡es;ma;on ¡

n Cost ¡func;ons ¡allow ¡modeler ¡to ¡direct ¡

learning ¡in ¡new ¡ways ¡

n Improves ¡over ¡strong ¡POS ¡tagging ¡baselines ¡

56 ¡

slide-57
SLIDE 57

¡ ¡ ¡ ¡ Thanks! ¡

57 ¡

slide-58
SLIDE 58

Unsupervised ¡Model ¡Selec;on ¡

  • 1. ¡Maximize ¡CE ¡objec;ve ¡on ¡held-­‑out ¡data ¡
  • 2. ¡Maximize ¡log-­‑likelihood ¡of ¡held-­‑out ¡data ¡

¡ ¡ ¡ ¡ ¡ ¡-­‑ ¡using ¡efficient ¡es;mator ¡of ¡Bengio ¡et ¡al. ¡(2013) ¡

  • 3. ¡Vo;ng: ¡

¡a. ¡naïve: ¡aher ¡making ¡predic;ons ¡with ¡each ¡model, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡return ¡tags ¡with ¡most ¡votes ¡ ¡b. ¡align: ¡solve ¡weighted ¡bipar;te ¡matching ¡problems ¡to ¡ ¡ ¡ ¡ ¡ ¡align ¡tag ¡iden;fiers ¡across ¡runs, ¡then ¡do ¡vo;ng ¡ ¡

58 ¡

slide-59
SLIDE 59

59 ¡

cost ¡ model ¡selec?on ¡ many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Shuffle10 ¡

Match ¡LM ¡ contras;ve ¡es;ma;on ¡ 53.2 ¡ ¡(+1.9) ¡ 40.2 ¡ ¡(+0.5) ¡ log-­‑likelihood ¡ 53.9 ¡ ¡(+2.6) ¡ 41.6 ¡ ¡(+1.9) ¡

Transpose1 ¡

Match ¡LM ¡ contras;ve ¡es;ma;on ¡ 62.2 ¡ ¡(+0.4) ¡ 47.5 ¡ ¡(+0.3) ¡ log-­‑likelihood ¡ ¡ 62.8 ¡ ¡(+1.0) ¡ 49.9 ¡ ¡(+2.7) ¡

Comparing ¡Model ¡Selec;on ¡Criteria ¡

slide-60
SLIDE 60

60 ¡

cost ¡ model ¡selec?on ¡ many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Shuffle10 ¡

Match ¡LM ¡ contras;ve ¡es;ma;on ¡ 53.2 ¡ ¡(+1.9) ¡ 40.2 ¡ ¡(+0.5) ¡ log-­‑likelihood ¡ 53.9 ¡ ¡(+2.6) ¡ 41.6 ¡ ¡(+1.9) ¡

Transpose1 ¡

Match ¡LM ¡ contras;ve ¡es;ma;on ¡ 62.2 ¡ ¡(+0.4) ¡ 47.5 ¡ ¡(+0.3) ¡ log-­‑likelihood ¡ ¡ 62.8 ¡ ¡(+1.0) ¡ 49.9 ¡ ¡(+2.7) ¡

Comparing ¡Model ¡Selec;on ¡Criteria ¡ Log-­‑likelihood ¡works ¡beuer ¡than ¡CE ¡

slide-61
SLIDE 61

61 ¡

many-­‑to-­‑1 ¡ ¡ accuracy ¡ 1-­‑to-­‑1 ¡ ¡ accuracy ¡

Posterior ¡Regulariza;on ¡

60.9 ¡ 50.1 ¡

Contras;ve ¡Es;ma;on ¡

61.8 ¡ 47.2 ¡

Cost-­‑Augmented ¡Contras;ve ¡Es;ma;on: ¡ Cost-­‑Augmented ¡ Contras;ve ¡ Es;ma;on ¡ Match ¡LM ¡ ¡ ¡ ¡ ¡ ¡ ¡

62.8 ¡ 49.9 ¡

Universal ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

61.7 ¡ 51.3 ¡

Match ¡LM ¡+ ¡Universal ¡ ¡ ¡ ¡(“naïve”) ¡

60.6 ¡ 51.4 ¡

Match ¡LM ¡+ ¡Universal ¡ ¡ ¡ ¡(“align”) ¡

64.3 ¡ 51.7 ¡

Aligned ¡vo;ng ¡works ¡beuer ¡than ¡naïve ¡vo;ng ¡