Integra(on of the Thesaurus for the Social Sciences - - PowerPoint PPT Presentation

integra on of the thesaurus for the social sciences
SMART_READER_LITE
LIVE PREVIEW

Integra(on of the Thesaurus for the Social Sciences - - PowerPoint PPT Presentation

Integra(on of the Thesaurus for the Social Sciences (TheSoz) in an Informa(on Extrac(on System Thierry Declerck, DFKI GmbH LaTeCH 2013, ACL Workshop,


slide-1
SLIDE 1

Integra(on ¡of ¡the ¡Thesaurus ¡for ¡the ¡ Social ¡Sciences ¡(TheSoz) ¡in ¡an ¡ Informa(on ¡Extrac(on ¡System ¡ ¡

Thierry ¡Declerck, ¡DFKI ¡GmbH ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-2
SLIDE 2

Context ¡

  • Various ¡projects ¡dealing ¡with ¡mulIlingual ¡

Ontology-­‑Based ¡InformaIon ¡ExtracIon ¡(OBIE) ¡ and ¡Cross-­‑Lingual ¡Access ¡to ¡SemanIc ¡

  • Repositories. ¡
  • For ¡example ¡Monnet ¡(finished ¡in ¡April ¡2013) ¡

and ¡TrendMiner ¡(unIl ¡Oct. ¡2014) ¡ ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-3
SLIDE 3

Monnet ¡Architecture ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

Lexicalization Service Information Extraction Service Localization Service Knowledge Access and Presentation Service en ¡ es ¡ de ¡ nl ¡

Corpus ¡ ¡Service ¡ Knowledge ¡Base ¡

  • ntology ¡

translator ¡ expert ¡

lemon ¡

slide-4
SLIDE 4

TrendMiner ¡Architecture ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-5
SLIDE 5

MulIlingual ¡Knowledge ¡Sources ¡

  • Examples ¡from ¡different ¡sources ¡and ¡types: ¡

– ¡ICB, ¡ ¡ – GICS, ¡ ¡ – XBRL, ¡ ¡ – RadLex, ¡ ¡ – FMA, ¡ ¡ – TheSoz, ¡ – DBPedia ¡(and ¡ ¡similar ¡FreeBase, ¡Schema.Org) ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-6
SLIDE 6

Industry ¡ClassificaIon ¡Benchmark ¡(ICB) ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

Subclasses ¡of ¡the ¡concept ¡5000 ¡with ¡English ¡label: ¡5000 ¡Consumer ¡Services ¡

Subclasses ¡of ¡the ¡concept ¡5000 ¡with ¡Spanish ¡label: ¡5000 ¡SERVICIOS ¡AL ¡CONSUMIDOR ¡

slide-7
SLIDE 7

A ¡similar ¡taxonomy, ¡GICS ¡(simplified) ¡ ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  • Showing ¡just ¡some ¡mulIlingual ¡labels ¡and ¡definiIons ¡

1010 ¡Energy ¡(Energía ¡/ ¡Energie ¡/…) ¡ – 101010 ¡Energy ¡Equipment ¡& ¡Services ¡(Equipos ¡y ¡Servicios ¡ de ¡Energía ¡/ ¡Energiezubehör ¡und ¡-­‑dienste ¡/…) ¡

  • 10101010 ¡ ¡Oil ¡& ¡Gas ¡Drilling ¡(Perforación ¡de ¡Pozos ¡

Petrolíferos ¡y ¡Gasíferos ¡/ ¡Erdöl-­‑ ¡& ¡Erdgasförderung ¡/ ¡) ¡ – Drilling ¡contractors ¡or ¡owners ¡of ¡drilling ¡rigs ¡that ¡ contract ¡their ¡services ¡for ¡drilling ¡wells ¡ – ContraIstas ¡de ¡perforación ¡o ¡propietarios ¡de ¡ torres ¡de ¡perforación ¡que ¡contratan ¡sus ¡servicios ¡ para ¡perforar ¡pozos. ¡ – Anbieter ¡von ¡Bohrdiensten ¡oder ¡Eigentümer ¡von ¡ Ölförder-­‑ ¡und ¡ ¡ ¡ ¡-­‑bohrausrüstungen, ¡die ¡ihre ¡ Bohrdienste ¡anbieten ¡

¡ ¡ ¡

slide-8
SLIDE 8

FAM ¡(FoundaIonal ¡Model ¡of ¡Anatomy) ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-9
SLIDE 9

Thesaurus ¡for ¡Social ¡Science:TheSoz ¡ (simplified) ¡

concept ¡id ¡"10034303“ ¡ ¡ ¡ ¡ ¡ ¡term ¡"10034303" ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡prefLabel ¡id ¡"10034303" ¡ ¡ ¡prefLabel ¡de ¡"Abbrecher" ¡ ¡ ¡prefLabel ¡en ¡"drop-­‑out" ¡ ¡ ¡prefLabel ¡fr ¡"drop-­‑out" ¡ ¡ ¡altLabel ¡id ¡"10034307" ¡ ¡ ¡ ¡altLabel ¡de ¡"Studienabbrecher" ¡ ¡ ¡altLabel ¡en ¡"university ¡drop-­‑out" ¡ ¡ ¡altLabel ¡fr ¡“étudiant ¡qui ¡abandonne ¡ses ¡études“ ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-10
SLIDE 10

TheSoz ¡(2) ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

¡notaIon ¡"3.2.00" ¡ ¡

¡ de ¡: ¡3.2.00 ¡Schule ¡und ¡Beruf ¡(berufliche ¡QualifikaIonselemente ¡im ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Bereich ¡der ¡schulischen ¡Ausbildung) ¡ ¡ en ¡: ¡3.2.00 ¡School ¡and ¡OccupaIon ¡(Elements ¡of ¡OccupaIonal ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡QualificaIon ¡in ¡School ¡EducaIon) ¡ ¡ fr ¡: ¡ ¡3.2.00 ¡École ¡et ¡profession ¡(éléments ¡de ¡qualificaIon ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡professionnelle ¡dans ¡le ¡domaine.. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡de ¡: ¡broader ¡notaIon ¡3.2 ¡ ¡:: ¡Beruf ¡und ¡QualifikaIon ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡en: ¡ ¡broader ¡notaIon ¡3.2 ¡ ¡:: ¡OccupaIon ¡and ¡QualificaIon ¡ ¡ fr ¡broader ¡notaIon ¡3.2 ¡ ¡:: ¡profession ¡et ¡qualificaIon ¡ ¡ de: ¡broader ¡notaIon ¡3 ¡ ¡:: ¡Interdiszipinäre ¡Anwendungsbereiche ¡der ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Sozialwissenschaqen ¡ ¡ en: ¡broader ¡notaIon ¡3 ¡:: ¡Interdisciplinary ¡ApplicaIon ¡Areas ¡of ¡Social ¡Sciences ¡ ¡ fr: ¡ ¡broader ¡notaIon ¡3 ¡:: ¡domaines ¡interdisciplinaires ¡d'applicaIon ¡des ¡sciences ¡ ¡ ¡ ¡ ¡

slide-11
SLIDE 11

Lexicalization of TheSoz labels

  • Represented ¡in ¡the ¡lemon ¡model ¡

:university_drop-­‑out ¡[lemon:wriuenRep ¡"university ¡drop-­‑out"@en] ¡ lemon:sense ¡[lemon:reference ¡ontology:TheSoz10034307]; ¡ lemon:decomposiIon ¡( ¡:university_comp ¡ :drop-­‑out_comp ¡) ¡; ¡ lemon:phraseRoot ¡[ ¡lemon:consItuent ¡:NP ¡; ¡ lemon:edge ¡[lemon:consItuent ¡:NP ¡; ¡ lemon:edge ¡[lemon:consItuent ¡:NN ¡; ¡ lemon:leaf ¡university_comp ¡] ¡; ¡ lemon:edge ¡[lemon:consItuent ¡:NN ¡; ¡ lemon:leaf ¡drop-­‑out_comp ¡] ¡]; ¡ ¡ ]. ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-12
SLIDE 12

Automatic Generation of IE grammars for the semantic annotation of text, according to TheSoz

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

1) ¡Using ¡the ¡Term ¡ID ¡of ¡TheSoz ¡as ¡names ¡ ¡ for ¡recogniIon ¡rules: ¡ term10034307 ¡= ¡ 2) ¡Using ¡the ¡corresponding ¡lexicalised ¡ ¡ labels ¡as ¡the ¡expressions ¡to ¡be ¡ ¡ recognized ¡by ¡the ¡IE ¡rule ¡(abstract ¡ representaIon): ¡ term10034307 ¡= ¡[lemma=„university“ ¡ ¡ cat=„N“] ¡[lemma=„drop-­‑out“ ¡cat=„N“] ¡; ¡ 3) ¡Adding ¡possible ¡term ¡variants ¡to ¡the ¡ rule): ¡ term10034307 ¡= ¡([lemma=„university“ ¡ cat=„N“] ¡[lemma=„drop-­‑out“ ¡cat=„N“] ¡ | ¡:var10034307) ¡; ¡ ¡ ¡ ¡ var10034307 ¡= ¡[lemma=„university“ ¡cat= „N“] ¡[lemma=„drop“ ¡cat=„V“] ¡[lemma= „out“ ¡cat=„P“] ¡; ¡

slide-13
SLIDE 13

Automa(c ¡Genera(on ¡of ¡IE ¡grammars ¡for ¡the ¡ seman(c ¡annota(on ¡of ¡text, ¡according ¡to ¡TheSoz ¡(2) ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

4) ¡Linking ¡the ¡linguisIcally ¡annotated ¡ prefLabel ¡and ¡the ¡altLabel(s) ¡to ¡the ¡ corresponding ¡Concept ¡ID: ¡ concept10034303 ¡= ¡(term10034303 ¡| ¡ term10034307); ¡ 5) ¡Defining ¡the ¡annotaIon ¡generaIon ¡procedure ¡of ¡rules: ¡ Successful ¡applicaIon ¡of ¡ ¡the ¡rule ¡ ¡concept10034303 ¡can ¡ generate ¡the ¡following ¡annotaIon: ¡ CLASS= ¡TheSoz_ID=“10034303” ¡ ¡ altLabel_ID=“10034307“ ¡ altLabel ¡=“universQy ¡drop-­‑out@en“ ¡ ¡ SuperClass=TheSoz_ID_3.2 ¡ ¡ SuperClassLabel ¡= ¡„OccupaQon ¡and ¡QualificaQon“ ¡ altLabel_TranslaQon ¡ ¡= ¡„Studienabbrecher@de“ ¡

  • etc. ¡
slide-14
SLIDE 14

Lessons ¡learned ¡

  • Labels ¡of ¡knowledge ¡sources ¡need ¡to ¡follow ¡

harmonized ¡principles ¡

– Compact ¡labelling ¡but ¡complete ¡informaIon ¡ – Same ¡informaIon ¡across ¡mulIlingual ¡labels ¡ – Add ¡as ¡many ¡term ¡variants ¡as ¡possible ¡ (augmenIng ¡the ¡coverage ¡of ¡IE) ¡

  • This ¡can ¡be ¡parIally ¡automaIcally ¡achieved ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-15
SLIDE 15

Future ¡Work ¡

  • PopulaIng ¡eHumaniIes ¡ontologies ¡
  • Bulding ¡a ¡poliIcal ¡ontology ¡
  • Publishing ¡eHumaniIes ¡data ¡in ¡the ¡Linked ¡(Open) ¡Data ¡

framework ¡Link ¡to ¡or ¡point ¡to ¡labels ¡of ¡related ¡resources, ¡ towards ¡a ¡label ¡net. ¡(social ¡sciences ¡and ¡psychology ¡or ¡ poliIcal ¡terminology) ¡and ¡an ¡extension ¡of ¡the ¡linguisIc ¡ linked ¡data ¡framework ¡ ¡

  • Linking ¡to ¡Dbpedia, ¡FreeBase, ¡Schema.Org ¡
  • Linking ¡to ¡and ¡populaIng ¡Opinion ¡Ontologies ¡(for ¡example ¡the ¡

MARL ¡schema, ¡also ¡in ¡use ¡in ¡the ¡EurosenIment ¡project) ¡

  • Linking ¡to ¡and ¡populaIng ¡EmoIon ¡Ontologies ¡ ¡
  • Linking ¡to ¡News ¡Thesaurus ¡(IPTC ¡available ¡in ¡SKOS) ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-16
SLIDE 16

Linked ¡Open ¡Data ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

slide-17
SLIDE 17

LinguisIc ¡Linked ¡Open ¡Data ¡

LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡