Short Text Similarity with Word Embeddings Tom Kenter, Maarten de - - PowerPoint PPT Presentation

short text similarity with word embeddings
SMART_READER_LITE
LIVE PREVIEW

Short Text Similarity with Word Embeddings Tom Kenter, Maarten de - - PowerPoint PPT Presentation

Short Text Similarity with Word Embeddings Tom Kenter, Maarten de Rijke CIKM 2015 - October 2015 - Melbourne Task: predic-ng short text similarity Given two sentences, do they mean approximately


slide-1
SLIDE 1

Short Text Similarity with Word Embeddings

Tom Kenter, Maarten de Rijke

CIKM 2015 - October 2015 - Melbourne

slide-2
SLIDE 2

Task: ¡predic-ng ¡short ¡text ¡similarity ¡

Given ¡two ¡sentences, ¡do ¡they ¡mean ¡ approximately ¡the ¡same? ¡

Melbourne is a nice city Melbourne is a nice city The beautiful town of Melbourne Sydney is close to Melbourne

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

slide-3
SLIDE 3

Central ¡ques-on ¡of ¡the ¡paper ¡

Can ¡we ¡find ¡out ¡if ¡two ¡sentences ¡mean ¡the ¡ same ¡thing... ¡

¡

  • without ¡using ¡external ¡sources ¡of ¡explicit ¡

seman-c ¡knowledge ¡(like ¡WordNet)? ¡

¡

  • without ¡using ¡prior ¡linguis-c ¡informa-on ¡

(as ¡implemented ¡in, ¡e.g., ¡parsers)? ¡

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

slide-4
SLIDE 4

Answer ¡in ¡a ¡nutshell ¡

We ¡can! ¡ ¡

  • 1. Use ¡word ¡embeddings ¡for ¡a ¡word-­‑by-­‑word ¡

comparison ¡of ¡pairs ¡of ¡sentences ¡

  • 2. Derive ¡features ¡from ¡the ¡comparison ¡
  • 3. Train ¡SVM ¡classifier ¡
  • 4. Predict ¡similarity ¡for ¡new ¡unseen ¡sentence ¡

pairs ¡

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

slide-5
SLIDE 5

Key ¡features ¡

  • Arbitrary ¡number ¡of ¡word ¡embedding ¡

sets ¡

¡

  • Mul-ple ¡meta-­‑features ¡from ¡the ¡

comparison ¡of ¡the ¡short ¡text ¡pairs ¡

¡

  • No ¡external ¡seman-c ¡knowledge ¡and ¡

linguis-c ¡tools ¡like ¡parsers ¡

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

slide-6
SLIDE 6

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

From ¡word ¡level ¡seman-cs ¡to ¡ sentence ¡level ¡seman-cs ¡

slide-7
SLIDE 7

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

Mul-ple ¡embedding ¡spaces ¡

Out ¡of ¡the ¡box ¡

  • word2vec ¡
  • Mikolov, ¡et ¡al. ¡2013 ¡
  • Baroni, ¡et ¡al. ¡2014 ¡
  • GloVe ¡
  • 42B ¡– ¡Pennington, ¡et ¡al. ¡2013 ¡
  • 840B ¡– ¡Pennington, ¡et ¡al. ¡2013 ¡

Auxiliary ¡– ¡trained ¡on ¡INEX ¡dataset ¡

  • word2vec ¡
  • GloVe ¡
slide-8
SLIDE 8

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

Features ¡from ¡seman-c ¡graph ¡ ¡

  • bins ¡of ¡all ¡edges ¡
  • bins ¡of ¡max ¡edges ¡

Seman-c ¡graph ¡

slide-9
SLIDE 9

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

Saliency-­‑weighted ¡seman-c ¡graph ¡

IDF(w) ¡* ¡

Saliency ¡weigh-ng ¡func-on ¡

sem(w, ¡sshort) ¡* ¡(k1 ¡+ ¡1) ¡

¡

sem(w, ¡sshort) ¡+ ¡k1 ¡* ¡(1 ¡– ¡b ¡+ ¡b ¡* ¡(sshort ¡/ ¡avsl)) ¡

Features ¡from ¡ ¡seman-c ¡graph ¡ ¡

  • bins ¡of ¡all ¡edges ¡
  • bins ¡of ¡max ¡edges ¡
slide-10
SLIDE 10

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

Vector ¡means ¡

slide-11
SLIDE 11

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

slide-12
SLIDE 12

Results ¡on ¡MSR ¡Paraphrase ¡Corpus ¡

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

slide-13
SLIDE 13

Error ¡analysis: ¡lexical ¡overlap ¡

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 Lexical overlap (%) 50 100 150 200 250 300 350 Number of examples

TP TN FN FP

slide-14
SLIDE 14

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

Key ¡features ¡

  • Arbitrary ¡number ¡of ¡word ¡embedding ¡

sets ¡

¡

  • Mul-ple ¡meta-­‑features ¡from ¡the ¡

comparison ¡of ¡the ¡short ¡text ¡pairs ¡

¡

  • No ¡external ¡seman-c ¡knowledge ¡and ¡

linguis-c ¡tools ¡like ¡parsers ¡

slide-15
SLIDE 15

Thank ¡you! ¡ ¡ ¡

Short ¡Text ¡Similarity ¡with ¡Word ¡Embeddings ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Tom ¡Kenter, ¡Maarten ¡de ¡Rijke ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡CIKM ¡2015, ¡Melbourne, ¡Australia ¡ ¡

www.tomkenter.nl ¡ tom.kenter@uva.nl ¡ @TomKenter ¡