Using Crowdsourcing to Investigate Perception of Narrative - - PowerPoint PPT Presentation

using crowdsourcing to investigate perception of
SMART_READER_LITE
LIVE PREVIEW

Using Crowdsourcing to Investigate Perception of Narrative - - PowerPoint PPT Presentation

Using Crowdsourcing to Investigate Perception of Narrative Similarity Dong Nguyen , Dolf Trieschnigg and Marit Theune Some men sat around a Every afternoon a large fire. Nine cats came to black cat came to sit by sit near the fire, and


slide-1
SLIDE 1

Using Crowdsourcing to Investigate Perception of Narrative Similarity

Dong Nguyen, Dolf Trieschnigg and Mariët Theune

slide-2
SLIDE 2

Some men sat around a

  • fire. Nine cats came to

sit near the fire, and the men got nervous. One

  • f the men threw fire at

the cats with a fire

  • shovel. The next day,

nine women in the village lay in bed with burned buttocks. Every afternoon a large black cat came to sit by the fire in the kitchen. People knew about a witch in the neighborhood. One afternoon the cat came

  • again. A woman threw a

pan with hot oil at the cat’s neck. The next day, the neighbor wore a white scarf, she had burned her neck.

How similar are these stories? 1: no similarity … 5: (almost) the same

slide-3
SLIDE 3

(2) Not much except they are about a cat (4) Both narratives are about witches and black cats. Furthermore in both stories the cat gets injured and as a result the woman is also injured. The narratives look very much like each other, but the content differs. Therefore I give it 4 out of 5. (5) Both are the same: the narratives must demonstrate that witches are real. (5) Clearly two narratives of the same type: Hexentier verwundet: Frau zeigt am folgenden Tag Malzeichen. Whether it is with multiple cats, or one, it doesn’t matter. Moral: night cats are metamorphosed witches, and you don’t want them near you.

slide-4
SLIDE 4

(2) Not much except they are about a cat (4) Both narratives are about witches and black cats. Furthermore in both stories the cat gets injured and as a result the woman is also injured. The narratives look very much like each other, but the content differs. Therefore I give it 4 out of 5. (5) Both are the same: the narratives must demonstrate that witches are real. (5) Clearly two narratives of the same type: Hexentier verwundet: Frau zeigt am folgenden Tag Malzeichen. Whether it is with multiple cats, or one, it doesn’t matter. Moral: night cats are metamorphosed witches, and you don’t want them near you.

slide-5
SLIDE 5

(2) Not much except they are about a cat (4) Both narratives are about witches and black cats. Furthermore in both stories the cat gets injured and as a result the woman is also

  • injured. The narratives look very much like each other, but the content
  • differs. Therefore I give it 4 out of 5.

(5) Both are the same: the narratives must demonstrate that witches are real. (5) Clearly two narratives of the same type: Hexentier verwundet: Frau zeigt am folgenden Tag Malzeichen. Whether it is with multiple cats, or one, it doesn’t matter. Moral: night cats are metamorphosed witches, and you don’t want them near you.

slide-6
SLIDE 6

(2) Not much except they are about a cat (4) Both narratives are about witches and black cats. Furthermore in both stories the cat gets injured and as a result the woman is also injured. The narratives look very much like each other, but the content differs. Therefore I give it 4 out of 5. (5) Both are the same: the narratives must demonstrate that witches are real. (5) Clearly two narratives of the same type: Hexentier verwundet: Frau zeigt am folgenden Tag Malzeichen. Whether it is with multiple cats, or one, it doesn’t matter. Moral: night cats are metamorphosed witches, and you don’t want them near you.

slide-7
SLIDE 7

Data Collection

slide-8
SLIDE 8

Folktale database

  • Dutch Folktale Database (http://www.verhalenbank.nl)
  • Genres

– Fairy tales – Legends – Urban legends – Jokes

slide-9
SLIDE 9

Folktale background: Story types

Used by scholars to categorize similar folk narratives. A story type represents a collection of similar stories

  • ften with recurring plot,

motifs or themes.

For example: Little Red Riding Hood (ATU 0333)

slide-10
SLIDE 10

Data collection: overview

Non-experts à Crowdsourcing à Explicit similarity ratings Experts à Folktale researchers à Explicit similarity ratings, story types

slide-11
SLIDE 11

Pair selection

  • Same story type and same genre.

– low, mid, high cosine similarity

  • Same story type but different genre.

– low, mid, high cosine similarity

  • Same genre, but different story types.

– high cosine similarity In total: 1002 pairs ¡

slide-12
SLIDE 12

Pair judgements

Similarity

– Rate similarity between a pair of narratives from 1 (no similarity) to 5 ((almost) the same) – Provide free-text motivation – Gold labels

Understandability

– Rate understandability of the pair of narratives on a scale from 1 (not understandable) to 5 (well understandable)

slide-13
SLIDE 13

Crowdsourcing: setup

  • Targeting workers from the Netherlands.
  • HIT (Human Intelligence Task)

– 40 dollar cents per task. – 6 comparisons (1 gold + 5 new). Order was randomized within each HIT. – Survey questions – At least 3 judgements per pair

slide-14
SLIDE 14

Experts

  • Three senior folktale researchers
  • 40 narrative pairs, at least 2 pairs from

each condition

  • Same HIT as crowdworkers, but without

pairs with gold labels.

slide-15
SLIDE 15

Analysis

slide-16
SLIDE 16

Crowdworkers

  • Spammers: In total 923 HITs (150 workers). 619

HITs (80 workers) were kept after filtering spammers.

  • Workers mostly men (66%), spread across different

ages and education levels.

slide-17
SLIDE 17

Understandability

Understandability Frequency

1.5 2.5 3.5 4.5 100 300

slide-18
SLIDE 18

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

slide-19
SLIDE 19

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Higher cosine bin results in a higher average similarity judgement!

slide-20
SLIDE 20

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Higher cosine bin results in a higher average similarity judgement!

slide-21
SLIDE 21

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Higher cosine bin results in a higher average similarity judgement!

slide-22
SLIDE 22

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Higher cosine bin results in a higher average similarity judgement!

slide-23
SLIDE 23

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Higher cosine bin results in a higher average similarity judgement!

slide-24
SLIDE 24

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Higher cosine bin results in a higher average similarity judgement!

slide-25
SLIDE 25

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Pairs with different genres receive lower similarity judgements than pairs with the same genre

slide-26
SLIDE 26

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Pairs with different genres receive lower similarity judgements than pairs with the same genre

slide-27
SLIDE 27

Similarity ratings I

Urban ¡ legends ¡ ¡ Jokes ¡ ¡ Legends ¡ ¡ Fairy ¡tales ¡ ¡ All Same ¡story ¡type, ¡same ¡genre ¡ Low ¡cosine ¡ 2.900 ¡ 2.119 2.503 ¡ 2.343 ¡ 2.501 ¡ Mid ¡cosine ¡ 3.375 ¡ 2.743 ¡ 2.793 ¡ 3.150 ¡ 3.008 ¡ High ¡cosine ¡ 3.972 ¡ 3.550 ¡ 3.536 ¡ 3.806 ¡ 3.719 ¡ Different ¡story ¡type, ¡same ¡genre ¡ High ¡cosine ¡ 2.095 ¡ 2.174 ¡ 2.346 ¡ 2.106 ¡ 2.181 ¡ Same ¡story ¡type, ¡different ¡genre ¡ Low ¡cosine ¡ 2.226 ¡ Mid ¡cosine ¡ 2.721 ¡ High ¡cosine ¡ 3.504 ¡

Pairs with different genres receive lower similarity judgements than pairs with the same genre

slide-28
SLIDE 28

Similarity ratings II

Similarity rating Frequency

1 2 3 4 5 40 80 120

Similarity rating Frequency

1 2 3 4 5 40 80

Similarity rating Frequency

1 2 3 4 5 4 8 12

Similarity rating Frequency

1 2 3 4 5 1 2 3 4

Crowd ¡ Experts ¡ Same story type ¡ Different story type ¡

slide-29
SLIDE 29

Similarity ratings: agreement

Metric Crowd Expert Spearman correlation .556 .778 Pearson correlation .572 .796 Pairwise agreement .335 .423

Experts agree more with each

  • ther than non-experts
slide-30
SLIDE 30

Motivation analysis I

Dimensions

  • Characters
  • Plot
  • Genre
  • Theme
  • Setting
  • Style
  • Number of details
  • Recount facts
  • Structure
  • Story types
  • Motifs
  • Other
  • None

Annotate whether difference or similarity is mentioned ¡

slide-31
SLIDE 31

Motivation analysis II

  • Plot, characters, genre and theme are the most

mentioned by both experts and non-experts.

  • Experts: Story types (46%), motifs (6%), structure

(8%)

  • Non-experts: Recount true facts (1%), style (8%),

setting (4%).

  • Regression analysis: Plot, genre, theme most
  • important. Differences between style and number of

details associated with higher ratings.

slide-32
SLIDE 32

Automatic prediction

slide-33
SLIDE 33

Automatic prediction: setup

Goal

– Classification: low (<= 3) and high (>3) similarity. – Regression: the mean of the crowd judgements

Dataset

Set # ¡Pairs ¡ Mean Low High Train 498 ¡ 2.674 ¡ 344 ¡(69.08%) ¡ 154 ¡(30.92%) ¡ Test 400 2.683 ¡ 271 ¡(67.75%) ¡ 129 ¡(32.25%) ¡

slide-34
SLIDE 34

Automatic prediction: features

Lexical

– Cosine similarity – Jaccard index

Story Elements

– Plot – Theme (LDA) – Characters

Stylistic

– Absolute difference between average word length – Absolute difference between average sentence length – 1-3 ngram POS patterns (Jaccard)

Other

– Absolute length difference

Metadata (manual annotation)

– Same story type (boolean) – Keywords (Jaccard) – Same genre (boolean) – Named Entities (Jaccard)

slide-35
SLIDE 35

Automatic prediction: results

Metric ρ MSE F-score Lexical 0.431 0.759 0.590 Story elements 0.181 0.922 0.455 Stylistic 0.124 0.949 0.408 Metadata 0.494 0.746 0.614 Automatic 0.494 0.715 0.600 Automatic + metadata 0.592 0.598 0.657 Categories All

slide-36
SLIDE 36

Automatic prediction: results

Metric ρ MSE F-score Lexical 0.431 0.759 0.590 Story elements 0.181 0.922 0.455 Stylistic 0.124 0.949 0.408 Metadata 0.494 0.746 0.614 Automatic 0.494 0.715 0.600 Automatic + metadata 0.592 0.598 0.657 Categories All

slide-37
SLIDE 37

Automatic prediction: results

Metric ρ MSE F-score Lexical 0.431 0.759 0.590 Story elements 0.181 0.922 0.455 Stylistic 0.124 0.949 0.408 Metadata 0.494 0.746 0.614 Automatic 0.494 0.715 0.600 Automatic + metadata 0.592 0.598 0.657 Categories All

slide-38
SLIDE 38

Summary

  • Non-experts perceive narrative similarity

very differently compared to experts

– Many dimensions play a role – How similarity is calculated depends on goal and users of application – Story types not sufficient

  • Crowdsourcing can be used to obtain more

insight into a task.

slide-39
SLIDE 39

Thanks!