breakthrough science on gpu clusters

Breakthrough Science on GPU clusters John Taylor , Tomasz - PowerPoint PPT Presentation

Breakthrough Science on GPU clusters John Taylor , Tomasz Bednarz, Steve McMahon - CSIRO March 2015 CSS Darwin About CSIRO Cairns Atherton


  1. Breakthrough ¡Science ¡on ¡GPU ¡clusters ¡ John ¡Taylor ¡, ¡Tomasz ¡Bednarz, ¡Steve ¡McMahon ¡-­‑ ¡ ¡CSIRO ¡ ¡ March ¡2015 ¡ CSS ¡

  2. Darwin ¡ About ¡CSIRO ¡ Cairns ¡ Atherton ¡ People ¡ 5000 ¡ Townsville ¡ 2 ¡sites ¡ Alice ¡Springs ¡ LocaPons ¡ 58 ¡ Rockhampton ¡ Bribie ¡ ¡ Flagships ¡ 9 ¡ Island ¡ Murchison ¡ Toowoomba ¡ Brisbane ¡ GaIon ¡ 6 ¡sites ¡ ¡ Myall ¡Vale ¡ Geraldton ¡ ¡ Armidale ¡ Narrabri ¡ ¡ 2 ¡sites ¡ 2 ¡sites ¡ Budget ¡ $1.3B+ ¡ Mopra ¡ Newcastle ¡ Parkes ¡ Perth ¡ Adelaide ¡ Irymple ¡ Griffith ¡ Sydney ¡ ¡ 5 ¡sites ¡ 3 ¡sites ¡ 2 ¡sites ¡ Canberra ¡ ¡ 7 ¡sites ¡ Wodonga ¡ Werribee ¡ 2 ¡sites ¡ Belmont ¡ Melbourne ¡ 5 ¡sites ¡ ¡ Geelong ¡ 62% ¡of ¡our ¡people ¡hold ¡ Hobart ¡ Sandy ¡Bay ¡ In ¡partnership ¡with ¡ Top ¡1% ¡of ¡global ¡research ¡ university ¡degrees ¡ ¡ universi@es, ¡we ¡ ¡ ins@tu@ons ¡in ¡14 ¡of ¡22 ¡research ¡ 2000 ¡ doctorates ¡ ¡ ¡ develop ¡ 650 ¡ fields ¡ ¡ ¡ Top ¡0.1% ¡ in ¡4 ¡research ¡fields ¡ ¡ 500 ¡ masters ¡ postgraduate ¡ research ¡students ¡

  3. 2009: ¡CSIRO ¡Bragg ¡Cluster ¡ Launch, ¡first ¡of ¡its ¡kind ¡in ¡AU ¡ 2013: ¡Bragg ¡upgrade ¡-­‑ ¡384 ¡ November ¡2014: ¡ Kepler ¡K20M ¡GPUs ¡ #154 ¡TOP500 ¡List ¡ #11 ¡Green500 ¡List ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  4. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡and ¡Green500 ¡Rankings ¡ 350 ¡ 300 ¡ 250 ¡ 200 ¡ 150 ¡ TOP500 ¡Rank ¡ 100 ¡ Green500 ¡rank ¡ 50 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  5. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡Performance ¡ 500 ¡ 400 ¡ 300 ¡ Rmax ¡(TFlops) ¡ 200 ¡ Rpeak ¡(Tflops) ¡ 100 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  6. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡Performance ¡-­‑ ¡Efficiency ¡ 0.9 ¡ 0.8 ¡ 0.7 ¡ 0.6 ¡ 0.5 ¡ 0.4 ¡ 0.3 ¡ Rmax/Rpeak ¡ 0.2 ¡ 0.1 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  7. CSIRO ¡Bragg ¡GPU ¡Cluster ¡– ¡The ¡Future ¡ TOP500 ¡Performance ¡ 1200 ¡ ESTIMATES ¡ 1000 ¡ 800 ¡ 600 ¡ Rmax ¡(TFlops) ¡ 400 ¡ Rpeak ¡(Tflops) ¡ 200 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  8. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ ¡ Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡ 500 ¡ 400 ¡ 300 ¡ CPU ¡(Tflops) ¡ 200 ¡ GPU ¡(Tflops) ¡ 100 ¡ CPU+GPU ¡(TFlops) ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  9. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ ¡ Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡ RaPo ¡of ¡GPU/CPU ¡Flops ¡ 15 ¡ 10 ¡ 2xCPU ¡ ra@o ¡ 5 ¡ 0 ¡ 2010/11 ¡2011/6 ¡2011/11 ¡2012/6 ¡2012/11 ¡2013/6 ¡2013/11 ¡2014/6 ¡2014/11 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  10. More ¡compute ¡power ¡means ¡ ¡ Greater ¡accuracy ¡ Larger ¡problem ¡domains ¡ Shorter ¡compute ¡Pmes ¡ ¡ ¡ Large ¡problem/parameter ¡ spaces ¡can ¡be ¡explored ¡ ¡ ¡ More ¡breakthrough ¡science ¡done ¡ ¡

  11. CSS ¡Capability ¡Development ¡Placorms ¡ CSIRO ¡Computa@onal ¡& ¡Simula@on ¡Sciences ¡ Imaging Model Data Computational Data Constrained Processing Fusion & Material Design Materials Modelling & Visualisation Spatial Modelling • Developing ¡core, ¡domain ¡specific, ¡computa@onal ¡capability ¡ • Developing ¡generic ¡computa@onal ¡tools ¡to ¡aid ¡domain ¡work ¡across ¡CSIRO ¡ • Deploying ¡GPU ¡capability/tools ¡back ¡into ¡Flagships ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  12. Principles ¡of ¡X-­‑ray ¡Computed ¡Tomography ¡(CT) ¡ • Typical ¡experimental ¡ ¡ set-­‑up ¡involves ¡an ¡X-­‑ray ¡ Detector ¡ source, ¡a ¡sample ¡on ¡a ¡ Object ¡ rota@on ¡stage ¡and ¡a ¡2D ¡ X-­‑ray ¡source ¡ posi@on-­‑sensi@ve ¡detector ¡ • Images ¡of ¡the ¡sample ¡are ¡ collected ¡at ¡many ¡different ¡ rota@on ¡angles ¡spanning ¡180 ¡ or ¡360 ¡degrees ¡ • Acquired ¡images ¡are ¡ processed ¡in ¡a ¡computer ¡to ¡ produce ¡a ¡3D ¡representa@on ¡ of ¡the ¡internal ¡structure ¡of ¡ the ¡sample ¡

  13. Insect CT scan, rendered using Drishti ( http://anusf.anu.edu.au/Vizlab/drishti/ ) by Sherry Mayo (CSIRO)

  14. ¡CSIRO ¡X-­‑TRACT ¡synchrotron ¡map ¡

  15. Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ Available ¡now ¡ à à ¡www.cloudimaging.net.au ¡ ¡ + ¡ + ¡ HCA-­‑Vision ¡ MILXView ¡ X-­‑TRACT ¡ Workflows ¡in ¡acPon ¡ Create ¡and ¡Share ¡your ¡imaging ¡workflows ¡with ¡ other ¡scien@sts. ¡ Connect ¡various ¡imaging ¡func@ons ¡to ¡create ¡more ¡ complex ¡imaging ¡algorithms. ¡ Visualise ¡the ¡results. ¡ Reuse ¡the ¡workflows ¡on ¡different ¡datasets. ¡ Adjust ¡the ¡parameters ¡whenever ¡required. ¡ Open ¡for ¡Australian ¡scien@sts. ¡ Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ ¡| ¡ ¡Contact: ¡Tomasz ¡Bednarz ¡ ¡

  16. RadiaPon ¡therapy ¡applicaPons ¡ Modern ¡radia@on ¡therapy ¡is ¡to ¡a ¡large ¡extent ¡a ¡computa@onal ¡discipline ¡and ¡can ¡greatly ¡benefit ¡from ¡use ¡of ¡task-­‑ ¡ and ¡data-­‑parallelism. ¡Some ¡applica@ons ¡were ¡demonstrated ¡on ¡GPUs ¡already: ¡ CT ¡reconstruc@ons ¡ • Image ¡registra@ons ¡ • Treatment ¡planning ¡ • Dose ¡computa@ons ¡ (e.g. ¡X ¡Gu, ¡U ¡Jelen ¡et ¡al ¡2011 ¡PMB ¡56) ¡ • Need ¡for ¡speed: ¡imaging ¡and ¡treatment ¡verifica@on ¡can ¡be ¡used ¡as ¡feedback ¡to ¡improve ¡the ¡treatment ¡(adap@ve ¡ radiotherapy), ¡currently ¡offline ¡(mostly ¡popula@on-­‑based), ¡one ¡day ¡online. ¡ Par@cle ¡(proton/carbon ¡ion) ¡therapy ¡with ¡raster ¡scanning ¡@ ¡University ¡of ¡Marburg: ¡ most ¡precise ¡external ¡beam ¡technique ¡(only ¡5 ¡centers ¡worldwide: ¡3 ¡ac@ve, ¡2 ¡to ¡start) ¡ • increased ¡precision ¡= ¡increased ¡need ¡for ¡verifica@on ¡(more ¡computa@ons) ¡ • longer ¡computa@onal ¡@mes ¡(small ¡head ¡case: ¡1 ¡hour ¡on ¡single-­‑thread) ¡ • Collabora@ve ¡project ¡between ¡CSIRO ¡and ¡University ¡of ¡Marburg ¡ ¡ Ammazzalorso, ¡Bednarz, ¡Jelen ¡

  17. Plan ¡robustness ¡in ¡radiaPon ¡therapy ¡ Automa@c ¡discovery ¡of ¡robust ¡beam ¡setups. ¡ Results ¡(mean ¡and ¡sd ¡for ¡a ¡single ¡beam): ¡ 4-­‑core ¡Intel ¡Xeon ¡W3530 ¡2.8GHz ¡12GB ¡RAM ¡+ ¡NVIDIA ¡Tesla ¡C2050 ¡3GB ¡RAM ¡ • 10 ¡skull ¡base ¡cases, ¡42 ¡beams ¡direc@ons ¡(10 ¡runs ¡each ¡for ¡@ming ¡stats) ¡ • 4k-­‑40k ¡pencils ¡of ¡120-­‑350 ¡samples, ¡2 ¡mm ¡analysis ¡radius ¡(0.5 ¡mm ¡step) ¡ • Single-­‑precision ¡floa@ng-­‑point ¡opera@ons ¡only ¡(sufficient ¡precision) ¡ • P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Pool mean(sd) ms Native 21299 9891 6258 15768 4342 10888 10117 5464 8155 11388 10357 (1 thread) (6628) (2837) (1485) (4959) (1136) (3179) (2849) (1470) (2195) (3936) (5941) GPU 219 122 88 148 61 160 151 52 109 126 124 OpenCL (109) (51) (38) (56) (24) (65) (64) (22) (46) (61) (75) 119 x 98 x 87 x 123 x 83 x 81 x 82 x 124 x 90 x 106 x 99 x Gain (36) (34) (30) (36) (25) (24) (30) (42) (31) (29) (36) CPU 6498 2552 1898 4810 1324 3280 3051 1396 2481 2935 3022 OpenCL (1996) (615) (438) (1495) (331) (944) (841) (310) (649) (818) (1798) 3.3 x 3.8 x 3.3 x 3.3 x 3.3 x 3.3 x 3.3 x 3.9 x 3.3 x 3.8 x 3.5 x Gain (0.0) (0.4) (0.0) (0.0) (0.0) (0.0) (0.0) (0.4) (0.0) (0.4) (0.3) F. Ammazzalorso (Uni-Marburg), T. Bednarz (CSIRO) and U. Jelen (Uni-Marburg) - Accepted for journal publication in IOP JPCS (upcoming)

Recommend


More recommend


Explore More Topics

Stay informed with curated content and fresh updates.