DM-Group Meeting Liangzhe Chen, Sep. 25 2014 Papers To - - PowerPoint PPT Presentation

dm group meeting
SMART_READER_LITE
LIVE PREVIEW

DM-Group Meeting Liangzhe Chen, Sep. 25 2014 Papers To - - PowerPoint PPT Presentation

DM-Group Meeting Liangzhe Chen, Sep. 25 2014 Papers To be Discussed Finding Progression Stages in Time-evolving Event Sequences WWW


slide-1
SLIDE 1

ì ¡

DM-­‑Group ¡Meeting ¡

Liangzhe ¡Chen, ¡Sep. ¡25 ¡2014 ¡

slide-2
SLIDE 2

Papers ¡To ¡be ¡Discussed ¡

ì Finding ¡Progression ¡Stages ¡in ¡Time-­‑evolving ¡Event ¡

Sequences ¡

ì WWW ¡2014, ¡by ¡Jaewon ¡Yang ¡et. ¡al. ¡

ì DiscriminaKng ¡Non-­‑NaKve ¡English ¡with ¡350 ¡Words ¡

ì NAACL-­‑HLT ¡2013, ¡by ¡John ¡Henderson ¡et. ¡al. ¡

ì DiscriminaKng ¡Gender ¡on ¡TwiQer ¡

ì ENMLP ¡2011, ¡by ¡John ¡D. ¡Burger ¡et. ¡al. ¡

ì CMI: ¡An ¡InformaKon-­‑TheoreKc ¡Contrast ¡Measure ¡for ¡

Enhancing ¡Subspace ¡Cluster ¡and ¡Outlier ¡DetecKon ¡

ì SDM ¡2013, ¡by ¡Hoang ¡Vu ¡Nguyen ¡et. ¡al. ¡

slide-3
SLIDE 3

1st ¡Paper ¡

ì Finding ¡Progression ¡Stages ¡in ¡Time-­‑evolving ¡Event ¡

Sequences ¡

ì WWW ¡2014 ¡ ì Jaewon ¡Ynag, ¡Julian ¡McAuley, ¡Jure ¡Leskovec, ¡Paea ¡

LePendu, ¡Nigam ¡Shah ¡

slide-4
SLIDE 4

Motivation ¡

ì Things ¡progress ¡over ¡Kme. ¡

ì PaKents’ ¡medical ¡history ¡shows ¡a ¡progression ¡over ¡

Kme ¡as ¡the ¡disease ¡is ¡developing. ¡

ì People’s ¡opinion ¡towards ¡new ¡things ¡change ¡over ¡

Kme ¡as ¡they ¡gain ¡more ¡knowledge. ¡

slide-5
SLIDE 5

What ¡is ¡ ¡a ¡progression ¡

ì Assuming ¡we ¡are ¡given ¡a ¡set ¡of ¡event ¡sequences, ¡

we ¡aim ¡to ¡infer ¡their ¡progression ¡stages ¡and ¡

  • classes. ¡
slide-6
SLIDE 6

Problem ¡Definition ¡

ì Given ¡a ¡set ¡of ¡event ¡sequences, ¡the ¡problem ¡of ¡

sequence ¡segmentaKon ¡and ¡classificaKon ¡is ¡to: ¡

ì Find ¡the ¡class ¡that ¡each ¡sequence ¡belongs ¡to. ¡ ì Assign ¡each ¡event ¡to ¡a ¡stage, ¡with ¡stage ¡assignments ¡

being ¡non-­‑decreasing ¡over ¡Kme. ¡

slide-7
SLIDE 7

Generative ¡Model ¡Description ¡

ì Given ¡class ¡ci, ¡stages ¡sij ¡for ¡sequence ¡xi ¡

slide-8
SLIDE 8

Infer ¡the ¡stages ¡

ì Maximize ¡the ¡log ¡likelihood ¡ ì Accent ¡strategy ¡to ¡solve ¡the ¡problem: ¡

ì Fix ¡ci, ¡sij, ¡update ¡Θ. ¡(skipped) ¡ ì Fix ¡Θ, ¡update ¡ci,sij. ¡ ì UnKl ¡convergence. ¡

slide-9
SLIDE 9

Updating ¡ci, ¡sij ¡

slide-10
SLIDE 10

Experiments: ¡Datasets ¡

ì

Product ¡review ¡(BeerAdvocate, ¡RateBeer): ¡

ì

Beer-­‑review ¡communiKes. ¡Construct ¡an ¡event ¡sequence ¡for ¡each ¡ user ¡from ¡the ¡list ¡of ¡beers ¡that ¡they ¡reviewed ¡in ¡chronological ¡

  • rder. ¡

ì

Textual ¡memes ¡(NIFTY): ¡

ì

Quoted ¡phrases ¡in ¡news ¡arKcals ¡and ¡blog ¡posts. ¡Construct ¡an ¡event ¡ sequence ¡as ¡a ¡chronological ¡list ¡of ¡the ¡online ¡media ¡sources ¡that ¡ menKoned ¡a ¡specific ¡phrase. ¡ ì

Medical ¡records ¡(Stanford ¡TranslaKonal ¡Research ¡Integrated ¡ Database ¡Environment ¡repository): ¡

ì

Create ¡tuples ¡of ¡(medical ¡term, ¡paKent, ¡Kmeoffset). ¡Construct ¡as ¡ event ¡sequence ¡to ¡be ¡the ¡list ¡of ¡medical ¡terms ¡of ¡a ¡user ¡with ¡a ¡ diagnosis ¡of ¡CKD. ¡ ì

Web ¡navigaKon ¡traces ¡(Wikispeedia): ¡

ì

Each ¡trace ¡in ¡the ¡game ¡is ¡a ¡sequence. ¡

slide-11
SLIDE 11

Experiments: ¡Events ¡

slide-12
SLIDE 12

Experiments: ¡Stages ¡

slide-13
SLIDE 13

Experiments: ¡Stages ¡

slide-14
SLIDE 14

2nd ¡& ¡3rd ¡Papers ¡

ì DiscriminaKng ¡Gender ¡on ¡TwiQer ¡

ì ENMLP ¡2011 ¡ ì John ¡D. ¡Burger, ¡John ¡Henderson, ¡George ¡Kim, ¡Guido ¡

Zarrella ¡

ì DiscriminaKng ¡Non-­‑NaKve ¡English ¡with ¡350 ¡Words ¡

ì NAACL-­‑HLT ¡2013 ¡ ì John ¡Henderson, ¡Guido ¡Zarrella, ¡Craig ¡Pfeifer, ¡John ¡D. ¡

Burger ¡

slide-15
SLIDE 15

Find ¡Gender ¡

ì Dataset ¡

ì 213 ¡million ¡tweets, ¡18.5 ¡million ¡users ¡collected ¡since ¡

  • 2009. ¡

ì Look ¡at ¡users’ ¡blog ¡link ¡to ¡label ¡the ¡dataset ¡

  • automaKcally. ¡Finally ¡get ¡184,000 ¡users ¡with ¡labels. ¡
slide-16
SLIDE 16

Find ¡Gender ¡

ì Feature ¡selecKon: ¡ ì Use ¡Winnow ¡to ¡classfy. ¡

slide-17
SLIDE 17

Find ¡Gender ¡

slide-18
SLIDE 18

Find ¡Gender ¡

slide-19
SLIDE 19

Find ¡Gender ¡

slide-20
SLIDE 20

Find ¡Native ¡Language ¡

ì Task: ¡

ì IdenKfy ¡an ¡author’s ¡naKve ¡language ¡based ¡on ¡an ¡

English ¡essay. ¡ ì Dataset: ¡

ì A ¡set ¡of ¡12,100 ¡TOEFL ¡examinaKons ¡by ¡ETS. ¡ ì A ¡variety ¡of ¡binary ¡features, ¡including ¡characterisKc ¡

features ¡like ¡average ¡word ¡length, ¡word ¡count; ¡ word-­‑based ¡n-­‑gram ¡features; ¡character-­‑based ¡n-­‑ gram ¡features; ¡part ¡of ¡speech ¡tag ¡n-­‑gram ¡features ¡

slide-21
SLIDE 21

Find ¡Native ¡Language ¡

ì Classifiers ¡used: ¡

ì Carnie ¡ ì SRI’s ¡Language ¡Modeling ¡Toolkit ¡ ì LIBLINEAR ¡(use ¡SVM ¡and ¡logisKc ¡regression ¡

configuraKons) ¡

slide-22
SLIDE 22

Find ¡Native ¡Language ¡

slide-23
SLIDE 23

Find ¡Native ¡Language ¡

slide-24
SLIDE 24

Find ¡Native ¡Language ¡

slide-25
SLIDE 25

4th ¡Paper ¡

ì CMI: ¡An ¡InformaKon-­‑TheoreKc ¡Contrast ¡Measure ¡

for ¡Enhancing ¡Subspace ¡Cluster ¡and ¡Outlier ¡ DetecKon ¡

ì SDM ¡2013 ¡ ì Hoang ¡Vu ¡Nguyen, ¡Emmanuel ¡Muller, ¡Jilles ¡Vreeken, ¡

Fabian ¡Keller, ¡Klemens ¡Bohm ¡

slide-26
SLIDE 26

Motivation ¡

ì In ¡many ¡real ¡world ¡applicaKons ¡data ¡is ¡collected ¡in ¡

mulK-­‑dimensional ¡spaces, ¡with ¡the ¡knowledge ¡ hidden ¡only ¡in ¡a ¡subsets ¡of ¡the ¡dimensions ¡ (subspace). ¡

ì Loss ¡of ¡contrast ¡in ¡the ¡whole ¡space. ¡

slide-27
SLIDE 27

Goal ¡

ì Find ¡subspaces ¡with ¡strong ¡mutual ¡dependency ¡in ¡

the ¡selected ¡dimension ¡set. ¡

slide-28
SLIDE 28

Definitions ¡

ì Mutual ¡Independence: ¡

ì P(x1,…,xd)=p(x1)…p(xd) ¡

ì M-­‑wise ¡Independence: ¡

ì Any ¡subset ¡{Xi1,…,Xim} ¡of ¡{X1,…,Xd} ¡is ¡mutually ¡

independent ¡ ì A ¡subspace ¡is ¡referred ¡to ¡as ¡uncorrelated ¡if ¡its ¡

dimensions ¡are ¡mutually ¡independent. ¡

slide-29
SLIDE 29

Contrast ¡Score ¡

ì Property ¡1: ¡dim(S1)=dim(S2), ¡if ¡S1 ¡is ¡more ¡correlated ¡

than ¡S2, ¡then ¡C(S1)>C(S2) ¡

ì Property ¡2: ¡C(S)=0 ¡iff ¡the ¡dimensions ¡of ¡S ¡are ¡

mutually ¡independent. ¡

ì Property ¡3: ¡If ¡S ¡is ¡m-­‑wise ¡independent ¡but ¡not ¡

mutually ¡independent, ¡then ¡C(S) ¡is ¡small ¡but ¡not ¡

  • zero. ¡
slide-30
SLIDE 30

Cumulative ¡mutual ¡information ¡

To ¡use ¡cumulaKve ¡distribuKons ¡in ¡CMI, ¡they ¡ introduce ¡cumulaKve ¡entropy, ¡which ¡are ¡based ¡on ¡ cumulaKve ¡distribuKons. ¡ ¡

slide-31
SLIDE 31

CE ¡

ì CumulaKve ¡entropy: ¡ ì CondiKonal ¡cumulaKve ¡entropy: ¡ ì CE ¡of ¡X ¡condiKoned ¡by ¡V: ¡

slide-32
SLIDE 32

CMI ¡

ì CMI(X1,…,Xd): ¡

slide-33
SLIDE 33

CMI ¡

slide-34
SLIDE 34

Choice ¡of ¡permutation ¡

ì CMI ¡changes ¡with ¡dimension ¡permutaKons ¡ ì Find ¡the ¡permutaKon ¡that ¡maximizes ¡the ¡contrast. ¡ ì Greedy ¡approximaKon ¡to ¡find ¡dimensions ¡one ¡by ¡

  • ne. ¡
slide-35
SLIDE 35

Experiments ¡

slide-36
SLIDE 36

Experiments ¡

slide-37
SLIDE 37

Experiments ¡

slide-38
SLIDE 38

Experiments ¡