Roogle : An informa/on retrieval engine for Clinical Data - - PowerPoint PPT Presentation

roogle an informa on retrieval engine for clinical data
SMART_READER_LITE
LIVE PREVIEW

Roogle : An informa/on retrieval engine for Clinical Data - - PowerPoint PPT Presentation

Roogle : An informa/on retrieval engine for Clinical Data Warehouse Marc Cuggia 1 , Nicolas Garcelon 1 , Boris Campillo-Gimenez 1 ,Thomas Bernicot 1 ,


slide-1
SLIDE 1

Roogle ¡: ¡An ¡informa/on ¡retrieval ¡ engine ¡for ¡Clinical ¡Data ¡Warehouse ¡ ¡

Marc ¡Cuggia1, ¡Nicolas ¡Garcelon1, ¡Boris ¡Campillo-­‑Gimenez1,Thomas ¡Bernicot1, ¡ Jean-­‑François ¡Laurent2, ¡André ¡Happe3, ¡Régis ¡Duvauferrier1 ¡ ¡

1UMR ¡936 ¡Inserm, ¡Faculté ¡de ¡médicine ¡de ¡Rennes. ¡France ¡ 2CRLCC ¡Centre ¡Eugène ¡Marquis, ¡Rennes ¡-­‑ ¡France ¡ 3 ¡Intermède ¡– ¡Guignen ¡-­‑ ¡France ¡

¡

slide-2
SLIDE 2

Introduc/on ¡

  • Relevant ¡informa/on ¡for ¡scien/fic ¡research ¡
  • Relevant ¡informa/on ¡for ¡scien/fic ¡research ¡

are ¡s/ll ¡in ¡full ¡text ¡data ¡( are ¡s/ll ¡in ¡full ¡text ¡data ¡(eg ¡: ¡discharge ¡report, ¡ exam ¡report) ¡

  • Most ¡of ¡the ¡datawarehouses

¡are ¡based ¡on ¡ structured ¡data ¡ ⇒ ¡the ¡combined ¡exploita/on ¡of ¡metadata ¡and ¡

slide-3
SLIDE 3
  • bjec/ve ¡ ¡
  • We ¡have ¡already ¡evaluated ¡the ¡contribu/on ¡
  • We ¡have ¡already ¡evaluated ¡the ¡contribu/on ¡
  • f ¡“full ¡text” ¡in ¡an ¡exact ¡match ¡engine ¡
  • In ¡this ¡presenta/on ¡we ¡evaluate ¡the ¡

contribu/on ¡of ¡ ¡seman/c ¡enrichment ¡in ¡a ¡full ¡

Cuggia ¡M. ¡et ¡al., ¡A ¡full-­‑text ¡informa/on ¡retrieval ¡system ¡for ¡an ¡epidemiological ¡registry, ¡Studies ¡ Cuggia ¡M. ¡et ¡al., ¡A ¡full-­‑text ¡informa/on ¡retrieval ¡system ¡for ¡an ¡epidemiological ¡registry, ¡Studies ¡ in ¡Health ¡Technology ¡and ¡InformaKcs, ¡vol. ¡160, ¡n°. ¡1, ¡p. ¡491-­‑495, ¡2010 ¡ ¡

slide-4
SLIDE 4

EHRs ¡ CHU ¡RENNES ¡ ONCOLOGY ¡CENTER ¡

metadata

documents

Extract ¡

Transform ¡ Load ¡

Index ¡ Structured ¡ query ¡ Full ¡text ¡ query ¡ ETL Document and data repository stored in a star model database Indexing (Lucene) Retrievial information system

Search ¡

The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still

LIKE

Clinical ¡ reports ¡

ARCHITECTURE ¡

Seman/c ¡ enrichment ¡of ¡ free ¡text ¡ document ¡

  • Clinical ¡Data ¡: ¡2x106Docs ¡
  • Demographics ¡
  • Cancer ¡MDM ¡reports ¡
  • DRG ¡(diag. ¡& ¡procedures) ¡
  • Pathology ¡reports ¡
  • Radiology ¡reports ¡
  • Clinical ¡reports ¡
  • Emergency ¡reports ¡
  • Lab ¡test ¡

(ICD, ¡NCIT, ¡ADICAP, ¡CCAM…) ¡

Material ¡

LUCENE: ¡Hatcher, ¡E. ¡et ¡al, ¡Lucene ¡in ¡acKon, ¡Ac/on ¡series. ¡Manning ¡Publica/ons ¡Co., ¡Greenwich, ¡CT, ¡2004. ¡

slide-5
SLIDE 5

5 ¡

slide-6
SLIDE 6

Présenta/on ¡de ¡Nicolas ¡Garcelon ¡pour ¡ l'Ins/tut ¡Gustave ¡Roussy ¡-­‑ ¡27 ¡juin ¡2011 ¡ 6 ¡

slide-7
SLIDE 7

7 ¡

slide-8
SLIDE 8

8 ¡

slide-9
SLIDE 9

Method ¡

Medical ¡ record ¡

Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡

slide-10
SLIDE 10

Method ¡

Medical ¡ record ¡

Medical ¡concepts ¡

NOMINDEX ¡ extrac/on ¡

Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡

ADM ¡ knowledge ¡ database ¡

NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡Int ¡J ¡Med ¡Inform, ¡2003. ¡70(2-­‑3): ¡p. ¡255-­‑63. ¡

slide-11
SLIDE 11

Method ¡

Medical ¡ record ¡

Medical ¡concepts ¡ Concepts ¡+ ¡all ¡french ¡ synonyms ¡and ¡ hierarchical ¡ancestor ¡

NOMINDEX ¡ extrac/on ¡ UMLS ¡

Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡

ADM ¡ knowledge ¡ database ¡

NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡Int ¡J ¡Med ¡Inform, ¡2003. ¡70(2-­‑3): ¡p. ¡255-­‑63. ¡

slide-12
SLIDE 12

Method ¡

Biomedical ¡ Data ¡ WareHouse ¡

Search ¡tools ¡ and ¡datamining ¡ Medical ¡ record ¡

Medical ¡concepts ¡ Concepts ¡+ ¡all ¡french ¡ synonyms ¡and ¡ hierarchical ¡ancestor ¡

NOMINDEX ¡ extrac/on ¡ UMLS ¡ Full ¡text ¡ Lucene ¡Index ¡ Lucene ¡ indexing ¡

Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡

ADM ¡ knowledge ¡ database ¡

NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡Int ¡J ¡Med ¡Inform, ¡2003. ¡70(2-­‑3): ¡p. ¡255-­‑63. ¡

slide-13
SLIDE 13

Method ¡

Biomedical ¡ Data ¡ WareHouse ¡

Search ¡tools ¡ and ¡datamining ¡ Medical ¡ record ¡

Extrac/on ¡of ¡ structured ¡data ¡and ¡ semi ¡structured ¡data ¡ Medical ¡concepts ¡ Concepts ¡+ ¡all ¡french ¡ synonyms ¡and ¡ hierarchical ¡ancestor ¡

NOMINDEX ¡ extrac/on ¡ UMLS ¡ Full ¡text ¡ XML ¡parsing ¡ and ¡Regular ¡ expression ¡ Lucene ¡Index ¡ Lucene ¡ indexing ¡

Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡

ADM ¡ knowledge ¡ database ¡

NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡Int ¡J ¡Med ¡Inform, ¡2003. ¡70(2-­‑3): ¡p. ¡255-­‑63. ¡

NOMINDEX ¡extrac/on ¡

slide-14
SLIDE 14

parsed ¡with ¡a ¡French ¡concepts ¡extractor ¡extractor ¡(Nomindex) ¡ ¡ è ¡CUIs ¡(UMLS) ¡ Seman/c ¡expansion ¡for ¡annota/on ¡(synonyms ¡& ¡fathers) ¡

Cardiac ¡ Failure, ¡ Myocardial ¡ Failure, ¡ Heart ¡ Failure, ¡ LeM-­‑Sided, ¡ Heart ¡ Failure, ¡ LeM ¡ Sided, ¡ LeM-­‑Sided ¡ Heart ¡ Failure,LeM ¡ Sided ¡ Heart ¡ Failure, ¡ Heart ¡ Failure, ¡ Right-­‑Sided, ¡ CongesKve ¡ Heart ¡Failure, ¡Heart ¡Decompensa.on ¡

Fathers ¡: ¡Diseases ¡> ¡Cardiovascular ¡Diseases ¡>Heart ¡Diseases ¡

Metadata ¡annota/on ¡ Miss ¡Smith ¡has ¡a ¡history ¡of ¡coronary ¡artery ¡disease ¡and ¡an ¡ episode ¡ ¡of ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡in ¡ ¡ ¡ ¡ ¡in ¡ ¡2009 ¡ heart ¡failure ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Give ¡me ¡documents ¡ talking ¡about ¡Heart ¡ decompensa/on ¡

slide-15
SLIDE 15

Evalua/on ¡

  • Use ¡case ¡: ¡recruitment ¡in ¡prostate ¡cancer ¡clinical ¡trial ¡
  • Corpus ¡: ¡textual ¡part ¡of ¡mul/disciplinary ¡reports ¡
  • Design ¡: ¡ ¡

– 2 ¡types ¡of ¡query ¡: ¡

  • High ¡level ¡of ¡occurrence ¡: ¡“adenocarcinoma” ¡and ¡“prosta/c” ¡
  • Low ¡level ¡of ¡occurrence ¡: ¡“heart” ¡and ¡“failure” ¡

– Search ¡process ¡for ¡each ¡types ¡of ¡query ¡

Roogle ¡evalua/on ¡ Gold ¡Standard ¡by ¡human ¡medical ¡expert ¡ Without ¡seman/c ¡enrichment ¡ ¡ textual ¡search ¡with ¡clinical ¡interpreta/on ¡of ¡each ¡document ¡ With ¡seman/c ¡enrichment ¡ textual ¡search ¡with ¡clinical ¡interpreta/on ¡of ¡each ¡document ¡

slide-16
SLIDE 16

Results ¡on ¡258 ¡records ¡

¡high ¡term ¡prevalence ¡ ¡context ¡: ¡ ¡ “adenocarcinoma” ¡AND ¡“prosta/c” ¡

TP ¡ FP ¡ TN ¡ FN ¡ Recall ¡ (95% ¡CI) ¡ Precision ¡ F-­‑measure ¡ ¡(95% ¡CI) ¡

Non ¡seman/c ¡enrichment ¡/ ¡Human ¡clinical ¡interpreta/on ¡

141 ¡ 2 ¡ 45 ¡ 70 ¡ 0.67 ¡ [0.60-­‑0.73] ¡ 0.99 ¡ [0.97-­‑1.00] ¡ 0.80 ¡

Seman/c ¡enrichment ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡/ ¡Human ¡clinical ¡interpreta/on ¡ ¡

180 ¡ 3 ¡ 44 ¡ 31 ¡ 0.85 ¡ [0.81-­‑0.90] ¡ 0.98 ¡ [0.97-­‑1.00] ¡ 0.91 ¡

low ¡term ¡prevalence ¡context ¡: ¡ ¡ “heart” ¡AND ¡“failure” ¡

TP ¡ FP ¡ TN ¡ FN ¡ Recall ¡ (95% ¡CI) ¡ Precision ¡ F-­‑measure ¡ ¡(95% ¡CI) ¡

Non ¡seman/c ¡enrichment ¡/ ¡Human ¡clinical ¡interpreta/on ¡

0 ¡ 0 ¡ 250 ¡ 8 ¡ 0 ¡

  • ­‑ ¡
  • ­‑ ¡

Seman/c ¡enrichment ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡/ ¡Human ¡clinical ¡interpreta/on ¡ ¡

4 ¡ 3 ¡ 247 ¡ 4 ¡ 0.50 ¡ [0.15-­‑0.85] ¡ 0.57 ¡ [0.21-­‑0.94] ¡ 0.53 ¡

False ¡posi/ve ¡: ¡Family ¡history ¡ False ¡nega/ve ¡: ¡ pTNM classification : pT2c Nx Mx ¡

slide-17
SLIDE 17

Discussion ¡

  • Limit ¡: ¡ ¡
  • ­‑ Few ¡concepts ¡
  • ­‑ Only ¡one ¡person ¡to ¡evaluate ¡
  • ­‑ Domain ¡dependent ¡to ¡prosta/c ¡cancer ¡
  • Posi/ve ¡: ¡ ¡
  • ­‑ Good ¡recall ¡: ¡the ¡seman/c ¡enrichment ¡increased ¡the ¡

recall ¡from ¡67 ¡% ¡to ¡85 ¡% ¡

  • ­‑ Very ¡hight ¡precision ¡of ¡98 ¡% ¡
  • ­‑ Our ¡approach ¡is ¡based ¡on ¡a ¡french ¡terminological ¡

database ¡

slide-18
SLIDE 18

Discussion ¡

  • Seman/c ¡enrichment ¡on ¡documents ¡in ¡order ¡to ¡preserve ¡

complex ¡LUCENE ¡query ¡structure ¡

  • But, ¡Lucene’s ¡maintenance ¡is ¡/me ¡consuming, ¡it ¡is ¡
  • unstable. ¡

⇒ Explora/on ¡of ¡“Oracle ¡Text” ¡: ¡Same ¡func/onali/es ¡of ¡ Lucene ¡

  • The ¡next ¡step ¡is ¡to ¡improve ¡informa/on ¡retrieval ¡aspects: ¡

– Time ¡ – Nega/on ¡ – Contextualiza/on ¡ – Value ¡assignment ¡ ⇒ French ¡na/onal ¡project ¡: ¡RAVEL ¡ ¡

¡

slide-19
SLIDE 19

Thank ¡you ¡for ¡your ¡aqen/on ¡ ¡ nicolas.garcelon@chu-­‑rennes.fr ¡