Predic'ng ALS Progression with Bayesian Addi've Regression - - PowerPoint PPT Presentation

predic ng als progression with bayesian addi ve
SMART_READER_LITE
LIVE PREVIEW

Predic'ng ALS Progression with Bayesian Addi've Regression - - PowerPoint PPT Presentation

Predic'ng ALS Progression with Bayesian Addi've Regression Trees Lilly Fang and Lester Mackey November 13, 2012 RECOMB Conference on Regulatory and Systems


slide-1
SLIDE 1

Predic'ng ¡ALS ¡Progression ¡with ¡ Bayesian ¡Addi've ¡Regression ¡Trees ¡

RECOMB ¡Conference ¡on ¡Regulatory ¡and ¡Systems ¡Genomics ¡

Lilly ¡Fang ¡and ¡Lester ¡Mackey ¡

November ¡13, ¡2012 ¡

slide-2
SLIDE 2

The ¡ALS ¡Predic'on ¡Prize ¡

§ Challenge: ¡Predict ¡progression ¡of ¡ALS ¡over ¡'me ¡

  • Dis'nguish ¡fast ¡from ¡slow ¡progressors ¡

§ Measure: ¡ALS ¡Func'onal ¡Ra'ng ¡Scale ¡(ALSFRS) ¡

  • Score ¡ranges ¡from ¡0-­‑40 ¡
  • Based ¡on ¡10 ¡ques'ons ¡(Speech, ¡Dressing, ¡Handwri'ng, ¡…) ¡
  • Rate ¡of ¡progression ¡= ¡slope ¡of ¡ALSFRS ¡score ¡

§ The ¡Data ¡

  • 918 ¡training ¡+ ¡279 ¡test ¡pa'ents ¡

§ 12 ¡months ¡of ¡data ¡(demographic, ¡ALSFRS, ¡vital ¡sta's'cs, ¡lab ¡tests) ¡ § Time ¡series: ¡roughly ¡monthly ¡measurements ¡

  • 625 ¡valida'on ¡pa'ents ¡

§ Given ¡first ¡3 ¡months ¡of ¡data ¡

§ Goal: ¡Predict ¡future ¡ALSFRS ¡slopes ¡for ¡valida'on ¡pa'ents ¡

  • Error ¡metric: ¡Root ¡mean ¡squared ¡devia'on ¡(RMSD) ¡
slide-3
SLIDE 3

Outline ¡

§ Featuriza6on ¡

  • Sta'c ¡Data ¡
  • Temporal ¡Data ¡

§ Modeling ¡and ¡Inference ¡

  • Bayesian ¡Addi've ¡Regression ¡Trees ¡

§ Evalua6on ¡

  • BART ¡Performance ¡
  • Feature ¡Selec'on ¡
  • Model ¡Comparison ¡
slide-4
SLIDE 4

Featuriza'on ¡

§ Goal: ¡Compact ¡numeric ¡representa'on ¡of ¡each ¡pa'ent ¡

  • Features ¡will ¡serve ¡as ¡covariates ¡in ¡a ¡regression ¡model ¡
  • Most ¡extracted ¡features ¡will ¡be ¡irrelevant ¡
  • Rely ¡on ¡model ¡selec'on ¡/ ¡methods ¡robust ¡to ¡irrelevant ¡features ¡

¡

¡

slide-5
SLIDE 5

Featuriza'on ¡

§ Sta6c ¡Data ¡

¡

ALS ¡History ¡ ¡Time ¡from ¡onset, ¡ ¡Site ¡of ¡onset ¡ ¡ Family ¡History ¡Mother, ¡Father, ¡Grandmother, ¡Uncle… ¡ ¡ …………………… ¡ ¡ …………………… ¡ ¡

49 ¡ ¡

Categorical ¡variables ¡encoded ¡as ¡binary ¡indicators ¡

¡ Demographics ¡ ¡Age, ¡ ¡Race, ¡ ¡Sex ¡ ¡

§ Goal: ¡Compact ¡numeric ¡representa'on ¡of ¡each ¡pa'ent ¡

  • Features ¡will ¡serve ¡as ¡covariates ¡in ¡a ¡regression ¡model ¡
  • Most ¡extracted ¡features ¡will ¡be ¡irrelevant ¡
  • Rely ¡on ¡model ¡selec'on ¡/ ¡methods ¡robust ¡to ¡irrelevant ¡features ¡
slide-6
SLIDE 6

Featuriza'on ¡

§ Time ¡Series ¡Data ¡

  • Repeated ¡measurements ¡of ¡variables ¡over ¡'me ¡

§ ALSFRS ¡ques'on ¡scores ¡ § Alterna've ¡ALS ¡measures ¡(forced ¡and ¡slow ¡vital ¡capacity) ¡ § Vital ¡signs ¡(weight, ¡height, ¡blood ¡pressure, ¡respiratory ¡rate) ¡ § Lab ¡tests ¡(blood ¡chemistry, ¡hematology, ¡urinalysis) ¡

  • Number ¡and ¡frequency ¡of ¡measurements ¡vary ¡across ¡

pa'ents ¡

§ Goal: ¡Compact ¡numeric ¡representa'on ¡of ¡each ¡pa'ent ¡

  • Features ¡will ¡serve ¡as ¡covariates ¡in ¡a ¡regression ¡model ¡
  • Most ¡extracted ¡features ¡will ¡be ¡irrelevant ¡
  • Rely ¡on ¡model ¡selec'on ¡/ ¡methods ¡robust ¡to ¡irrelevant ¡features ¡
slide-7
SLIDE 7

Featuriza'on ¡

§ Time ¡Series ¡Data ¡

  • Compute ¡summary ¡sta's'cs ¡from ¡each ¡'me ¡series ¡

§ Mean ¡value, ¡standard ¡devia'on, ¡slope, ¡last ¡recorded ¡value, ¡ maximum ¡value… ¡

  • Compute ¡pairwise ¡slopes ¡(difference ¡quo'ents ¡

between ¡adjacent ¡measurements) ¡

§ Induces ¡a ¡deriva've ¡'me ¡series ¡ § Extract ¡same ¡summary ¡sta's'cs ¡ ¡

§ Goal: ¡Compact ¡numeric ¡representa'on ¡of ¡each ¡pa'ent ¡

  • Features ¡will ¡serve ¡as ¡covariates ¡in ¡a ¡regression ¡model ¡
  • Most ¡extracted ¡features ¡will ¡be ¡irrelevant ¡
  • Rely ¡on ¡model ¡selec'on ¡/ ¡methods ¡robust ¡to ¡irrelevant ¡features ¡
slide-8
SLIDE 8

Featurizing ¡Time ¡Series ¡Data ¡

36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡

slide-9
SLIDE 9

Featurizing ¡Time ¡Series ¡Data ¡

36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡

Features ¡extracted ¡

  • Mean ¡= ¡38.75 ¡
  • SD ¡= ¡0.816 ¡
  • Max ¡= ¡40 ¡
  • Min ¡= ¡37 ¡
  • Last ¡= ¡37 ¡
  • etc. ¡

¡

slide-10
SLIDE 10

Featurizing ¡Time ¡Series ¡Data ¡

36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡

Features ¡extracted ¡

  • Mean ¡= ¡38.75 ¡
  • SD ¡= ¡0.816 ¡
  • Max ¡= ¡40 ¡
  • Min ¡= ¡37 ¡
  • Last ¡= ¡37 ¡
  • Slope ¡= ¡-­‑1 ¡
  • etc. ¡

¡

slide-11
SLIDE 11

Featurizing ¡Time ¡Series ¡Data ¡

36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡ slope ¡ ¡ ¡-­‑1 ¡ slope ¡ ¡ ¡0 ¡ slope ¡ ¡ ¡-­‑2 ¡

slide-12
SLIDE 12

Featurizing ¡Time ¡Series ¡Data ¡

  • ­‑2.5 ¡
  • ­‑2 ¡
  • ­‑1.5 ¡
  • ­‑1 ¡
  • ­‑0.5 ¡

0 ¡ 36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡ ALSFRS ¡ ¡ Slope ¡ slope ¡ ¡ ¡-­‑1 ¡ slope ¡ ¡ ¡0 ¡ slope ¡ ¡ ¡-­‑2 ¡

Deriva6ve ¡6me ¡series ¡

slide-13
SLIDE 13

Featurizing ¡Time ¡Series ¡Data ¡

  • ­‑2.5 ¡
  • ­‑2 ¡
  • ­‑1.5 ¡
  • ­‑1 ¡
  • ­‑0.5 ¡

0 ¡ 36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡ ALSFRS ¡ ¡ Slope ¡ slope ¡ ¡ ¡0 ¡ slope ¡ ¡ ¡-­‑1 ¡ slope ¡ ¡ ¡-­‑2 ¡

Deriva6ve ¡6me ¡series ¡

slide-14
SLIDE 14

Featurizing ¡Time ¡Series ¡Data ¡

  • ­‑2.5 ¡
  • ­‑2 ¡
  • ­‑1.5 ¡
  • ­‑1 ¡
  • ­‑0.5 ¡

0 ¡ 36 ¡ 37 ¡ 38 ¡ 39 ¡ 40 ¡ 0 ¡ 0.5 ¡ 1 ¡ 1.5 ¡ 2 ¡ 2.5 ¡ 3 ¡ 3.5 ¡ ALSFRS ¡ ¡ Score ¡ Months ¡ ALSFRS ¡ ¡ Slope ¡ Features ¡ extracted ¡ Mean ¡= ¡-­‑1 ¡ SD ¡= ¡1 ¡ Max ¡= ¡0 ¡ Min ¡= ¡-­‑2 ¡ Last ¡= ¡-­‑2 ¡ Slope ¡= ¡-­‑0.5 ¡

  • etc. ¡

¡

Deriva6ve ¡6me ¡series ¡

slide-15
SLIDE 15

Featurizing ¡Time ¡Series ¡Data ¡

§ 435 ¡temporal ¡features ¡extracted ¡ § Problem: ¡Missing ¡data ¡

  • Average ¡pa'ent ¡missing ¡10% ¡of ¡features ¡
  • One ¡pa'ent ¡missing ¡55% ¡of ¡features! ¡
  • Missing ¡values ¡imputed ¡using ¡median ¡heuris'c ¡

§ Problem: ¡Outliers ¡

  • Nonsense ¡values: ¡Number ¡of ¡liters ¡recorded ¡as ¡MDMD ¡
  • Units ¡incorrectly ¡recorded ¡⇒ ¡Wrong ¡conversions ¡
  • Extreme ¡values ¡

§ Treated ¡as ¡missing ¡if ¡> ¡4 ¡standard ¡devia'ons ¡from ¡mean ¡ ¡

slide-16
SLIDE 16

Modeling ¡and ¡Inference ¡

§ Regression ¡model ¡ Future ¡ALSFRS ¡Slope ¡= ¡f(features) ¡+ ¡noise ¡

¡

§ Goal: ¡infer ¡f ¡from ¡data ¡

  • Bayesian: ¡Place ¡a ¡prior ¡on ¡f, ¡infer ¡its ¡posterior ¡
  • Bonus: ¡Uncertainty ¡es'mates ¡for ¡each ¡predic'on ¡

§ What ¡prior? ¡

  • Flexible ¡and ¡nonparametric ¡ ¡

§ Avoid ¡restric've ¡assump'ons ¡about ¡func'onal ¡form ¡

  • Favor ¡simple, ¡sparse ¡models ¡

§ Avoid ¡overfijng ¡to ¡irrelevant ¡features ¡

Unknown ¡regression ¡func'on ¡

slide-17
SLIDE 17

Bayesian ¡Addi've ¡Regression ¡Trees* ¡

§ f(features) ¡= ¡sum ¡of ¡“simple” ¡decision ¡trees ¡

  • Simplicity ¡= ¡tree ¡depends ¡on ¡few ¡features ¡

§ Irrelevant ¡features ¡seldom ¡selected ¡

  • Similar ¡to ¡frequen'st ¡ensemble ¡methods ¡

§ Boosted ¡decision ¡trees, ¡random ¡forests ¡

*Chipman, ¡George, ¡and ¡McCulloch ¡(2010) ¡

Days ¡since ¡

  • nset ¡> ¡705 ¡
  • ­‑0.5 ¡
  • ­‑0.83 ¡

Past ¡ALSFRS ¡ slope ¡> ¡-­‑0.6 ¡ 0.06 ¡

  • ­‑0.08 ¡

+ ¡ + ¡

… ¡

… ¡

slide-18
SLIDE 18

BART ¡Inference ¡

§ Es6ma6ng ¡f: ¡Markov ¡Chain ¡Monte ¡Carlo ¡ ¡

  • R ¡package ¡‘bart’ ¡available ¡on ¡CRAN ¡
  • 10,000 ¡posterior ¡samples: ¡ ¡
  • 10 ¡minutes ¡on ¡MacBook ¡Pro ¡(2.5 ¡GHz ¡CPU, ¡4GB ¡RAM) ¡

§ Predic6on: ¡Posterior ¡mean ¡

  • Average ¡of ¡ ¡

§ Variance ¡reduc6on ¡

  • Average ¡predic'ons ¡of ¡10 ¡BART ¡models ¡

^ ¡

f1 ¡, ¡f2 ¡, ¡f3 ¡, ¡f4 ¡, ¡… ¡

¡ ^ ¡ ^ ¡ ^ ¡

… ¡ … …

^ ¡

fi ¡= ¡

… ¡ … …+ ¡ … ¡ … …+ ¡ … ¡

100 ¡trees ¡

^ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡^ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡^ ¡ ¡ ¡

f1(features), ¡f2(features), ¡f3(features), ¡… ¡

¡

slide-19
SLIDE 19

Accuracy ¡of ¡BART ¡Inference ¡

2000 4000 6000 8000 10000 0.510 0.520 0.530 0.540 Number of BART Samples Validation RMSD

10000 ¡samples: ¡0.5109 ¡ 2000 ¡samples: ¡0.5144 ¡ 1 ¡sample: ¡0.5459 ¡ 100 ¡samples: ¡0.5234 ¡

slide-20
SLIDE 20

BART ¡Feature ¡Selec'on ¡

¡

§ Many ¡pairwise ¡ slope ¡features ¡ § Lab ¡data ¡ excluded ¡

Top Ten Features Ordered by BART Usage

Average usage 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Mean ALSFRS Min Turning Score Last ALSFRS Last Weight Slope Last FVC Slope Mean Weight Slope Last Systolic Blood Pressure Slope ALSFRS Slope Max Dressing Score Onset Delta

All 484 Features Ordered by Usage

Average usage 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

slide-21
SLIDE 21

BART ¡on ¡Feature ¡Subsets ¡

5 10 15 20 25 0.515 0.520 0.525 0.530 Effect of Adding Each Feature in Order of BART Usage Features Added in Order of Usage Validation RMSD Onset.Delta max.dressing alsfrs.score.slope last.slope.bp.systolic mean.slope.weight last.slope.fvc.liters last.alsfrs.score last.speech last.handwriting meansquares.speech

1 ¡feature: ¡0.5291 ¡ 3 ¡features: ¡0.5246 ¡ 21 ¡features: ¡0.5113 ¡ 6 ¡features: ¡0.5190 ¡ 14 ¡features: ¡0.5157 ¡

slide-22
SLIDE 22

Model ¡ ¡ Our ¡RMSD ¡ (Test) ¡ Our ¡RMSD ¡ (Valida6on) ¡ Compe6tor ¡ RMSD ¡ Lasso ¡Regression ¡ ¡ 0.5006 ¡ 0.5287 ¡

  • ­‑ ¡

Random ¡Forests ¡ 0.5052 ¡ 0.5120 ¡ 0.52-­‑0.53 ¡ BART ¡ 0.4860 ¡ 0.5109 ¡

  • ­‑ ¡

Model ¡ ¡ Our ¡RMSD ¡ (Test) ¡ Our ¡RMSD ¡ (Valida6on) ¡ Compe6tor ¡ RMSD ¡ Lasso ¡Regression ¡ ¡ 0.5006 ¡ 0.5287 ¡

  • ­‑ ¡

BART ¡ 0.4860 ¡ 0.5109 ¡

  • ­‑ ¡

Model ¡ ¡ Our ¡RMSD ¡ (Test) ¡ Our ¡RMSD ¡ (Valida6on) ¡ Compe6tor ¡ RMSD ¡ BART ¡ 0.4860 ¡ 0.5109 ¡

  • ­‑ ¡

Model ¡Comparison ¡

Model ¡ ¡ Our ¡RMSD ¡ (Test) ¡ Our ¡RMSD ¡ (Valida6on) ¡ Compe6tor ¡ RMSD ¡ Lasso ¡Regression ¡ ¡ 0.5006 ¡ 0.5287 ¡

  • ­‑ ¡

Random ¡Forests ¡ 0.5052 ¡ 0.5120 ¡ 0.52-­‑0.53 ¡ Boosted ¡Trees ¡ ¡ 0.4940 ¡ 0.5118 ¡

  • ­‑ ¡

BART ¡ 0.4860 ¡ 0.5109 ¡

  • ­‑ ¡

How ¡do ¡other ¡models ¡perform ¡using ¡our ¡feature ¡set? ¡

§ Addi6ve ¡decision ¡tree ¡models ¡especially ¡effec've ¡ § Featuriza6on ¡is ¡a ¡main ¡differen'ator ¡of ¡compe'tors ¡

slide-23
SLIDE 23

The ¡End ¡ ¡

¡ ¡ ¡

Ques'ons? ¡

slide-24
SLIDE 24

Onset ¡Delta ¡vs. ¡Target ¡

  • 2000
  • 1500
  • 1000
  • 500
  • 3
  • 2
  • 1

1

Onset.Delta versus ALSFRS Slope on Train and Test Data

Onset.Delta Future ALSFRS Slope

slide-25
SLIDE 25

Past ¡ALSFRS ¡Slope ¡vs. ¡Target ¡

  • 10
  • 8
  • 6
  • 4
  • 2

2 4

  • 3
  • 2
  • 1

1

alsfrs.score.slope versus ALSFRS Slope on Train and Test Data

alsfrs.score.slope Future ALSFRS Slope

slide-26
SLIDE 26

Last ¡Systolic ¡BP ¡Slope ¡vs. ¡Target ¡

  • 50

50

  • 3
  • 2
  • 1

1

last.slope.bp.systolic versus ALSFRS Slope on Train and Test Data

last.slope.bp.systolic Future ALSFRS Slope

slide-27
SLIDE 27

Max ¡Dressing ¡Score ¡vs. ¡Target ¡

1 2 3 4

  • 3
  • 2
  • 1

1

max.dressing versus ALSFRS Slope on Train and Test Data

max.dressing Future ALSFRS Slope

slide-28
SLIDE 28

Mean ¡Weight ¡Slope ¡vs. ¡Target ¡

  • 5

5

  • 3
  • 2
  • 1

1

mean.slope.weight versus ALSFRS Slope on Train and Test Data

mean.slope.weight Future ALSFRS Slope