linking, cross-lingual entity linking) TAC 2011 Summarization Track - - PowerPoint PPT Presentation
linking, cross-lingual entity linking) TAC 2011 Summarization Track - - PowerPoint PPT Presentation
Overview of the TAC2011 Summarization (Guided, AESOP, MultiLing) RTE (within a corpus including novelty detection and ablation testing) Knowledge Base Population (monolingual entity linking, cross-lingual entity linking) TAC 2011 Summarization
TAC 2011 Summarization Track
Guided Summarization task multidocument summarization to create both an initial summary (100 words) update summary (100 words) guided by list of required aspects AESOP (Automatically Evaluating Summaries of Peers) automatic metrics for evaluation of summary quality human-crafted model summaries available source documents available Multiling Summarization Pilot
- Given ¡ ¡
– a ¡corpus ¡ – a ¡hypothesis ¡H ¡ – a ¡set ¡of ¡"candidate" ¡entailing ¡sentences ¡for ¡ that ¡H ¡retrieved ¡by ¡Lucene ¡from ¡the ¡corpus ¡ ¡
- RTE ¡systems ¡are ¡required ¡ ¡
– to ¡identify ¡all ¡the ¡sentences ¡among ¡the ¡ candidate ¡sentences ¡that ¡entail ¡a ¡given ¡ Hypothesis ¡
RTE-‑7 ¡Main ¡Task ¡Description ¡
NIST - November 14, 2011 RTE-7@TAC2011
RTE-‑7 ¡Novelty ¡Detection ¡Subtask ¡
Task: ¡
Judge ¡if ¡the ¡information ¡contained ¡in ¡each ¡H ¡(from ¡ Cluster ¡B) ¡is ¡novel ¡with ¡respect ¡to ¡the ¡information ¡ contained ¡in ¡the ¡set ¡of ¡(Cluster ¡A) ¡candidate ¡ entailing ¡sentences ¡ – If ¡a ¡given ¡H: ¡
- has ¡entailing ¡sentences ¡= ¡information ¡is ¡NOT ¡novel ¡ ¡
- has ¡not ¡entailing ¡sentences ¡= ¡information ¡ ¡is ¡novel ¡ ¡
NIST - November 14, 2011 RTE-7@TAC2011
Ablated ¡Resource ¡ # ¡ Ablation ¡ Tests ¡ Impact ¡on ¡Systems ¡ Positive ¡ Negative ¡
WordNet ¡ ¡ ¡ 8 ¡ 5 ¡(+9.81%) ¡ 3 ¡(-‑0.14%) ¡ Wikipedia ¡ 3 ¡ 2 ¡(+8.89%) ¡ 1 ¡(-‑2.64%) ¡ VerbOcean ¡ ¡ ¡ 1 ¡ 1 ¡(+5.93%) ¡
- ‑ ¡
DIRECT ¡ 1 ¡ 1 ¡(+0.94%) ¡
- ‑ ¡
Paraphrase ¡table ¡ 1 ¡
- ‑ ¡
1 ¡(-‑1.43%) ¡ CatVar ¡ ¡ ¡ 1 ¡ 1 ¡(+0.84%) ¡
- ‑ ¡
Acronym ¡Lists ¡ 1 ¡
- ‑ ¡
1 ¡(-‑0.16%) ¡
Ablation ¡Tests ¡-‑ ¡Resources ¡
NIST - November 14, 2011 RTE-7@TAC2011
<query id="EL000304"> <name>Jim Parsons</name> <docid>eng-NG-31-100578- 11879229</docid> </query>
NIL
n
Query type: persons, GPEs, organizations
Entity Linking: Create Wiki Entry?
Quer y Query Expansion Wiki hyperlink mining Source doc Coreference Resolution KB Node Candidate Generation KB Node Candidate Ranking Wiki KB +Texts unsupervised similarity computation supervised classification IR Answer IR Document Semantic Analysis Graph- based Source Collection Collaborative Clustering Mention Collaborators Hierarchical agglomerative Rules Statistical Model
What’s New and What Works
n
Statistical Name Variant Expansion (NUSchime)
q
“CCP” vs. “Communist Party of China”
q
“MINDEF” vs. “Ministry of Defence”
n
New Ranking Algorithms
q
e.g. ListNet (CUNY), Random Forests (THUNLP,DMIR_INESCID )
n
Query Classification
q
DMIR_INESCID, CUNY, MSRA
n
Go Beyond Single Query and Single KB Entry
q
Wikification (UIUC), Collaborative ranking (CUNY), Link all entities and inference (MS_MLI, CMCRC)
NIL Clustering Graph- based Topic Modeling Link to larger KB and map down Polysemy and synonymy Coref Name Match
Cross-lingual Entity Linking
Birth-place: Taiwan Pindong City
<query id="SF114">
<name>李安</name> <docid>XIN20030616.0130.0053</docid> </query>
Parent: Li Sheng Residence: Hua Lian Attended-School: NYU
What’s happening in 2012 (this November)
n
Summarization is taking a break; and looking for a new task
q
There is a huge amount of data/test collections to work with
n
RTE is taking a break and will reappear in 2013 with a new task joint with Semeval Student Response Analysis Task
n
Knowledge Base Population is continuing
q
English entity-linking (25 teams)
q
English slot-filling (11 teams full slot-filling; 1 team slot-filler validation)
q
Chinese entity-linking (4 teams)
q
Spanish entity-linking (4 teams)
q
Cold Start (4 teams) -- build an entire Knowledge Base from scratch