Blue Waters Experiences, Observations and Projections for GPU use in - - PowerPoint PPT Presentation

blue waters experiences observations and projections for
SMART_READER_LITE
LIVE PREVIEW

Blue Waters Experiences, Observations and Projections for GPU use in - - PowerPoint PPT Presentation

Blue Waters Experiences, Observations and Projections for GPU use in Open, Scientific, Extreme Scale Research Systems NVIDIA GTC Conference August 2016 Professor William Kramer National Center for Supercomputing Applications, University of


slide-1
SLIDE 1

Blue Waters Experiences, Observations and Projections for GPU use in Open, Scientific, Extreme Scale Research Systems

NVIDIA GTC Conference– August 2016

Professor William Kramer

National Center for Supercomputing Applications, University of Illinois http://bluewaters.ncsa.illinois.edu

slide-2
SLIDE 2

Blue Waters Goals

  • Deploy a computing system capable of sustaining more than one

petaflops or more for a broad range of applications

  • Cray system achieves this goal using a well defined metrics
  • Enable the Science Teams to take full advantage of the sustained

petascale computing system

  • Blue Waters Team has established strong partnership with Science Teams, helping them to

improve the performance and scalability of their applications

  • Enhance the operation and use of the sustained petascale system
  • Blue Waters Team is developing tools, libraries and other system software to aid in operation of

the system and to help scientists and engineers make effective use of the system

  • Provide a world-class computing environment for the petascale

computing system

  • The NPCF is a modern, energy-efficient data center with a rich WAN environment (100-400

Gbps) and data archive (>300 PB)

  • Exploit advances in innovative computing technology
  • Proposal anticipated the rise of heterogeneous computing and planned to help the computational

community transition to new modes for computational and data-driven science and engineering

GTC Conference - April 2015

slide-3
SLIDE 3

Blue Waters – A Complete Project

  • Petascale Applications Collaboration Team Support
  • Petascale Application Petascale Application Improvement Discovery Program (PAID)
  • Petascale Application Co-Design
  • Major Project Points of Contact
  • Outstanding Partner and Production Support (Consulting, Flexible System

Management, Storage Innovation, Cyber-protection, WAN)

  • Value Added Software
  • ICS, RAIT, Globus Online/HPSS, Compiler Improvements, …
  • Value added hardware and software (HPSS, archive HW, LAN/WAN Networking, etc.)
  • Partnerships
  • Great Lakes Consortium for Petascale Computing
  • Joint Laboratory for Extreme Scale Computing (JLESC)
  • Blue Waters Computational and Data Analysis System
  • Processors, Memory, Interconnect, On-line Storage, System Software, Programming

Environment

  • National Petascale Computing Facility

GTC Conference - April 2015

slide-4
SLIDE 4

The Blue Waters Project

  • Comprehensive development, deployment and service phases

with co-design and other aspects

  • The Blue Waters system is a top ranked system in all aspects
  • f its capabilities.
  • Diverse Science teams are able to make excellent use of

those capabilities due to the system’s flexibility and emphasis

  • n sustained performance.
  • 45% larger than any system Cray has ever built
  • Peak Performance and delivered cycles are approximately the same as the

aggregate of all the NSF XSEDE resources.

  • Ranks in the top 5 systems in the world in peak performance – despite being over

two years old

  • Largest memory capacity (1.66 PetaBytes) of any HPC system in the world! One of

the fastest file systems (>1 TB/s) in the world!

  • Largest nearline tape system (>250 PB) in the world
  • Fastest external network capability (370-470 Gb/s) of any open science site.

GTC Conference - April 2015

slide-5
SLIDE 5

Y X Z ¡

H T 3 H T 3

Node ¡Characteris1cs ¡

Number ¡of ¡Cores ¡ AMD ¡Interlagos ¡6200 ¡Core ¡ Module ¡Processors ¡ 2 ¡sockets, ¡2 ¡Core ¡ Modules ¡ 4 ¡AMD ¡Processor ¡chips ¡ 16 ¡FP ¡Bulldozer ¡Core ¡ ¡ 32 ¡Integer ¡Cores ¡ Peak ¡Performance ¡ 313 ¡Gflops/sec ¡ Memory ¡Size ¡ 4 ¡GB ¡per ¡core-­‑m ¡ 64 ¡GB ¡per ¡node ¡ Memory ¡Bandwidth(Peak) ¡ 102.4 ¡GB/sec ¡

Cray XE6 Blade and Node

GTC Conference - April 2015

slide-6
SLIDE 6

Cray XK7 Compute Node

Y ¡ X ¡ Z ¡

H T 3 H T 3

PCIe Gen2

XK7 ¡Compute ¡Node ¡ Characteris1cs ¡

AMD ¡Series ¡6200 ¡(Interlagos) ¡Core ¡ Module ¡ NVIDIA ¡Kepler ¡ ¡K20X ¡ Host ¡Memory ¡-­‑ ¡32GB ¡ 1600 ¡MHz ¡DDR3 ¡ NVIDIA ¡X2090 ¡Memory ¡ 6GB ¡GDDR5 ¡capacity ¡ Gemini ¡High ¡Speed ¡Interconnect ¡

GTC Conference - April 2015

slide-7
SLIDE 7

Cray XE6/XK7 - 276 Cabinets

XE6 ¡Compute ¡Nodes ¡-­‑ ¡5,688 ¡Blades ¡– ¡22,640 ¡Nodes ¡– ¡ ¡ ¡ 362,240 ¡FP ¡(bulldozer) ¡Cores ¡– ¡724,480 ¡Integer ¡Cores ¡ 4 ¡GB ¡per ¡FP ¡core ¡

DSL ¡ 48 ¡Nodes ¡

Resource ¡ ¡ Manager ¡(MOM) ¡ 64 ¡Nodes ¡

H2O ¡Login ¡ ¡ 4 ¡Nodes ¡ Import/Export ¡ Nodes ¡ Management ¡Node ¡

esServers Cabinets

HPSS ¡Data ¡Mover ¡ Nodes ¡

XK7 ¡ ¡GPU ¡Nodes ¡ 1,056 ¡Blades ¡– ¡4,224 ¡Nodes ¡ 33,792 ¡FP ¡Cores ¡-­‑ ¡11,354,112 ¡cuda ¡cores ¡ ¡ ¡ ¡– ¡4,224 ¡K20X ¡GPUs, ¡4 ¡GB ¡per ¡FP ¡core ¡

Sonexion ¡ 25+ ¡usable ¡PB ¡online ¡storage ¡ 36 ¡racks ¡

BOOT ¡ 2 ¡Nodes ¡ SDB ¡ 2 ¡Nodes ¡ Network ¡GW ¡ 8 ¡Nodes ¡ Reserved ¡ 74 ¡Nodes ¡ LNET ¡Routers ¡ 582 ¡Nodes ¡

InfiniBand ¡fabric ¡

Boot RAID

Boot Cabinet

SMW ¡ ¡

10/40/100 ¡Gb ¡ Ethernet ¡Switch ¡

Gemini Fabric (HSN)

RSIP ¡ 12Nodes ¡

NCSAnet ¡

Near-­‑Line ¡Storage ¡ 300+ ¡usable ¡PB ¡

Supporbng ¡systems: ¡LDAP, ¡RSA, ¡Portal, ¡JIRA, ¡Globus ¡CA, ¡ Bro, ¡test ¡systems, ¡Accounts/Allocabons, ¡CVS, ¡Wiki ¡

Cyber ¡Protecbon ¡IDPS ¡

NPCF

GTC Conference - April 2015

SCUBA

slide-8
SLIDE 8

National Petascale Computing Facility

GTC Conference - April 2015

  • Only Facility in the world of this

scale on an Academic Campus

  • Capable of sustained 24 MW today
  • Expandable in space, power and

cooling [50,000 ft2 (4,645+ m2) machine

room gallery and sustained 100 MW]

  • Modern Data Center
  • 90,000+ ft2 (8,360+ m2) total
  • 30,000 ft2 (2,790+ m2) raised floor

20,000 ft2 (1,860+ m2) machine room gallery

  • Energy Efficiency
  • LEED certified Gold
  • Power Utilization Efficiency, PUE = 1.1–1.2
  • Staff participating in Energy Efficient HPC

working group and

slide-9
SLIDE 9

July 2014-June 2015 Usage by Discipline

GTC Conference - April 2015

Astronomy ¡and ¡ Astrophysics ¡ 26.7% ¡ Atmospheric ¡and ¡ Climate ¡Sciences ¡ 5.6% ¡ Biochemistry ¡ 0.01% ¡ Biology ¡and ¡ Biophysics ¡ 19.5% ¡ Chemistry ¡ 5.5% ¡ Computer ¡Science ¡ 0.7% ¡ Earth ¡ Sciences ¡ 1.2% ¡ Engineering ¡ 1.1% ¡ Fluid ¡ Systems ¡ 0.8% ¡ Geophysics ¡ 1.6% ¡ Humanibes ¡ 0.01% ¡ Materials ¡Science ¡ 4.1% ¡ Mechanical ¡and ¡ Dynamic ¡Systems ¡ 0.02% ¡ Nuclear ¡Physics ¡ 0.5% ¡ Ocean ¡Sciences ¡ 0.01% ¡ Parbcle ¡(& ¡Nuclear) ¡ Physics ¡ 27.6% ¡ Physics ¡ 4.7% ¡ Social ¡Sciences ¡ 0.2% ¡ STEM ¡Educabon ¡ 0.1% ¡ Visualizabon ¡ 0.001% ¡

Actual ¡Usage ¡by ¡Discipline ¡

slide-10
SLIDE 10

GTC Conference - April 2015

ALABAMA

University of Alabama University of Alabama, Huntsville

ARIZONA

University of Arizona

CALIFORNIA

California Institute of Technology California Polytechnic State University, San Luis Obispo City of Hope Hoover Institution Lawrence Berkeley National Laboratory Lawrence Livermore National Laboratory Lockheed Martin Advanced Technology Center Mellanox Technologies Nvidia Corporation San Diego State University San Diego Supercomputer Center Seagate Technology LLC Stanford University University of California, Berkeley University of California, Davis University of California, Irvine University of California, Los Angeles University of California, San Diego University of California, San Francisco University of California, Santa Barbara University of California, Santa Cruz University of Southern California Xyratex

COLORADO

Allinea Colorado School of Mines Colorado State University National Center for Atmospheric Research University Corporation for Atmospheric Research

CONNECTICUT

Yale University

FLORIDA

University of Florida

GEORGIA

Georgia Institute of Technology

IOWA

Iowa State University

ILLINOIS

Argonne National Laboratory Caterpillar, Inc. Illinois Institute of Technology IllinoisRocstar TeraGrid The HDF Group University of Chicago University of Illinois at Chicago University of Illinois at Urbana- Champaign University of Southern Denmark Western Illinois University

INDIANA

Earlham College Indiana University Purdue University University of Notre Dame

KENTUCKY

Centre College University of Kentucky

LOUISIANA

Louisiana State University

MASSACHUSETTS

Harvard University

MARYLAND

Center for Ocean-Land-Atmosphere Studies Institute of Global Environment and Society Johns Hopkins University ParaTools, Inc. University of Maryland University of Maryland, College Park

MICHIGAN

Central Michigan University Michigan State University University of Michigan

MINNESOTA

Fond du Lac Tribal and Community College Mayo Clinic University of Minnesota University of Minnesota, Twin Cities

MISSOURI

University of Missouri, Kansas City

MISSISSIPPI

Mississippi State University

NORTH CAROLINA

North Carolina State University at Raleigh Shodor Education Foundation, Inc. University of North Carolina, Chapel Hill University of North Carolina, Charlotte

NEW HAMPSHIRE

University of New Hampshire

NEW JERSEY

Princeton Plasma Physics Laboratory Princeton University Richard Stockton College of New Jersey Rutgers, the State University of New Jersey

NEW MEXICO

Los Alamos National Laboratory New Mexico State University Sandia National Laboratories

NEVADA

University of Nevada-Las Vegas

NEW YORK

Brookhaven National Laboratory Cornell University IBM Kitware, Inc. Memorial Sloan Kettering Cancer Center Rochester Institute of Technology SUNY at Stony Brook

OHIO

Bluffton University Ohio State University Ohio Supercomputer Center Procter & Gamble Co

OKLAHOMA

University of Tulsa

OREGON

University of Oregon

PENNSYLVANIA

Carnegie Mellon University Drexel University Pennsylvania State University Pittsburgh Supercomputing Center Slippery Rock University Spiralgen, Inc. Temple University University of Pittsburgh

RHODE ISLAND

Dassault Systems Simulia Corp

SOUTH CAROLINA

Wofford College

SOUTH DAKOTA

South Dakota State University

TENNESSEE

National Institute for Computational Sciences Oak Ridge National Laboratory University of Memphis University of Tennessee, Knoxville University of Tennessee, Oak Ridge

TEXAS

Southern Methodist University University of Houston-Clear Lake University of Texas at Austin University of Texas at El Paso University of Texas Medical Branch at Galveston

UTAH

Adaptive Computing, Inc. Brigham Young University University of Utah

VIRGINIA

Aerospace Corporation College of William and Mary Jefferson Laboratory Old Dominion University University of Mary Washington University of Virginia Virginia Polytechnic Institute and State University

WASHINGTON

Cray, Inc. University of Washington

WEST VIRGINIA

West Virginia University

WYOMING

University of Wyoming

NCSA BLUE WATERS’ REACH

PUERTO RICO

University of Puerto Rico, Mayaguez

INTERNATIONAL

University of Victoria, Canada University of Sherbrooke, Canada Perimeter Institute for Theoretical Physics, Canada Czech Technical University in Prague, Czech Republic University of Copenhagen, Denmark Cambridge University, England Institute for Research in Computer Science and Automation, France Max Planck Institute for Solar System Research, Germany Max Planck Institute for Astrophysics, Germany Heidelberg Institute for Theoretical Studies, Germany University of L’Aquila, Italy National Institute for Astrophysics, Italy Novocraft Technologies, Malaysia University of Oslo, Norway Multidisciplinary Center for Astrophysics, Portugal University of Edinburgh, Scotland University of Granada, Spain Barcelona Supercomputing Center, Spain Swiss National Supercomputing Centre, Switzerland ETH Zurich, Switzerland

slide-11
SLIDE 11

Karimbadi - Understanding of Collisionless Plasmas Enabled through Petascale Kinetic Simulations

  • Challenge Goal
  • Better understand Earth’s space

environment and its interaction with the Sun

  • Global fully kinetic and hybrid

simulations to understand the response

  • f the magnetosphere to external solar

perturbations.

  • Such simulations are critical for

development of accurate space weather forecasting capabilities.

  • Major results to date:
  • Global fully kinetic simulations of

magnetic reconnection

  • First large-scale 3D simulations of

decaying collisionless plasma turbulence

  • 3D global hybrid simulations

addressing coupling between shock physics & magnetosheath turbulence

GTC Conference - April 2015 Fully kinetic simulation (all species kinetic; code: VPIC) ~up to 1010 cells ~up to 4x1012 particles ~120 TB of memory ~107 CPU-HRS ~up to 500,000 cores Large scale hybrid kinetic simulation: (kinetic ions + fluid electrons; codes: H3D, HYPERES) ~up to 1.7x1010 cells ~up to 2x1012 particles ~130 TB of memory Slide courtesy of H Karimardi MSMP ¡ CADENS ¡

slide-12
SLIDE 12

Woodward - Turbulent Stellar Hydrodynamics

GTC Conference - April 2015

Challenge Goal

  • Understanding the origin of the (heavy)

elements in the developing universe that are strongly affected by hydrogen ingestion events

Impacts with Success Next Generation Challenges

  • Multiple convection zones and burning

zones

  • First Principles opaque radiation
  • Discovered a previously unknown global oscillation
  • f shell hydrogen ingestion (GOSH).
  • “Blue Waters has changed entirely our concept of

what is practical and what important research it is sensible to undertake.”

Usage/Approach

  • 3-D Grids of 1,5363 cells
  • 443,232 core equivalents
  • Cut calculation time for a year to a week
  • On-system visualization saved months of analysis

time

Blue Waters is unique in the NSF computing infrastructure, enabling large and detailed simulations allowing for the discovery of a global oscillation of shell hydrogen ingestion.

MSMP ¡

slide-13
SLIDE 13

Impact of integrated system reduces data movement

Computabonal ¡fluid ¡dynamics ¡volume ¡renderer ¡used ¡by ¡“Petascale ¡Simulabon ¡of ¡ Turbulent ¡Stellar ¡Hydrodynamics” ¡science ¡team ¡(PI ¡Paul ¡R. ¡Woodward) ¡

Visualization created on Blue Waters:

  • 10,5603 grid inertial confinement fusion (ICF)

calculation (26 TB)

  • 13,688 frames at 2048x1080 pixels
  • 711 frame stereo movie (2 views) at

4096x2160 pixels

  • Total ¡rendering ¡bme: ¡24 ¡hours ¡
  • Esbmated ¡bme ¡to ¡just ¡ship ¡

data ¡to ¡team’s ¡remote ¡site ¡ where ¡they ¡had ¡been ¡doing ¡ visualizabon ¡(no ¡rendering): ¡ 15 ¡days ¡

  • 20-­‑30x ¡improvement ¡in ¡1me ¡

to ¡insight ¡

GTC Conference

  • April 2015
slide-14
SLIDE 14

Jordan - Earthquake System Science

GTC Conference - April 2015

Challenge Goals

Develop 3D physics-based earthquake simulations for the urban regions of California that are more accurate than the empirical NSHMP standard

Impact Next Generation Challenges

  • Higher Frequency to model single level

structures

  • Expanded areas
  • Higher Fidelity
  • Building Codes
  • Seismic Retrofit of 400+ dams and other

infrastructure

  • Disaster Response

Usage/Approach

  • Accurate 3D model with the 1D model illustrates the importance of

complex geological structures in governing the amplitudes of strong ground motions.

  • Reducing the total CyberShake makespan from ~61 days to ~14

days.

  • Hazard maps for 2% probability of exceedance in 50 years from the

CyberShake 14.2 study are shown in Figure 1.

“Using the well-balanced system capabilities of Blue Waters to complete CyberShake calculations within weeks rather than months.”

MSMP ¡

slide-15
SLIDE 15

Schulten - The Computational Microscope

“We were challenged with describing an extremely large

  • structure. … at the very moment when Blue Waters was
  • available. Five years ago, this breakthrough simulation of

the HIV virus wouldn’t have happened.”

GTC Conference - April 2015

  • Challenge Goals
  • First ever atomic-level structure of a native, mature HIV capsid to help scientists understand

better how the HIV capsid infects the host cells and could lead to new HIV therapies.

  • The first all-atom model of a cellular organelle. – the Chromatophore which allow the

bacteria to absorb sunlight and turn it into chemical fuel that drives many processes in the

  • cell. The chromatophore is composed of about 200 proteins and carries out about 20

processes.

  • Usage/Accomplishments
  • Explored the interactions of the full HIV capsid with small molecules for potential drug

therapy, Together with experimental collaborators, were able to describe the action of cyclophilin A on the capsid to help scientists understand better how the HIV capsid infects the host cells

  • Complete Chromatophore simulation at the full organelle structure
  • Blue Waters Help
  • Enabled graphics driver support on XK nodes that supported work that lead to SC'14

Visualization and Data Analytics Showcase award winner.

  • Performance, Compiler and runtime tuning
  • Topology study using shapes to identify ideal node allocation.

MSMP ¡

slide-16
SLIDE 16

A Observational Opportunity

  • Blue Waters charges node*hours regardless of XE or XK nodes
  • Application teams are free to decide what nodes are most productive

(give them the most work for the least charge)

  • Both have about the same utilization
  • The effort to convert from XE to XK nodes takes work so the work has

to be worthwhile in terms of science output and the teams workflows

  • Almost all codes are complex and community/open based codes
  • Some codes have large communities of contributors – others modest
  • All project approved and justified by their production science/research

goals – not for porting goals

GTC Conference - April 2015

slide-17
SLIDE 17

XK Usage Comparison over 1 year

GTC Conference - April 2015

Usage ¡Sept-­‑Nov ¡2014 ¡ Usage ¡Sept-­‑Nov ¡2015 ¡ Acbve ¡Science ¡Teams ¡ 79 ¡ 111 ¡ Teams ¡running ¡>1 ¡XK ¡ job ¡ 26 ¡ 37 ¡ Teams ¡using ¡> ¡5 ¡ node*hours ¡ 23 ¡ 32 ¡ Average ¡XK ¡job ¡size ¡ Acbve ¡Major ¡PRAC ¡ Projects ¡ 25 ¡ 35 ¡ Major ¡PRAC ¡Teams ¡ running ¡>1 ¡XK ¡job ¡ 10 ¡ 12 ¡ Major ¡PRAC ¡Teams ¡ using ¡> ¡5 ¡node*hours ¡ 9 ¡ 12 ¡

slide-18
SLIDE 18

2014 XK Scale

GTC Conference - April 2015

0" 200" 400" 600" 800" 1000" 1200"

0" 20" 40" 60" 80" 100" 120" 140" 1" 10" 100" 1000" 10000" 100000"

Accumulated*Actual*Usage*in*Integer*Core*Hours* Millions* Accumulated*Actual*Usage*in*Node*Hours* Millions* Number*of*nodes*in*Job*

Accululated*Actual*XE*Node*U<liza<on*by*Job*Size*

360 nodes

slide-19
SLIDE 19

Major PRAC Team Usage - 2014

GTC Conference - April 2015

¡-­‑ ¡ ¡ ¡ ¡ ¡2,000,000.0 ¡ ¡ ¡4,000,000.0 ¡ ¡ ¡6,000,000.0 ¡ ¡ ¡8,000,000.0 ¡ ¡ ¡10,000,000.0 ¡ ¡ ¡12,000,000.0 ¡ ¡ ¡14,000,000.0 ¡ ¡ ¡16,000,000.0 ¡ ¡ Bernholc ¡ ¡ ¡ ¡ ¡ Burrows ¡ ¡ ¡ ¡ ¡ ¡ Campanelli ¡ ¡ ¡ Cheatham ¡ ¡ ¡ ¡ ¡ Di ¡Maoeo ¡ ¡ ¡ ¡ Elghobashi ¡ ¡ ¡ Jordan ¡ ¡ ¡ ¡ ¡ ¡ ¡ Karimabadi ¡ ¡ ¡ Klimeck ¡ ¡ ¡ ¡ ¡ ¡ Lusk ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Mori ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Nagamine ¡ ¡ ¡ ¡ ¡ O'Shea ¡ ¡ ¡ ¡ ¡ ¡ ¡ Pande ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Pogorelov ¡ ¡ ¡ ¡ Quinn ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Reed ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Schulten_PRAC ¡ Stein ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Sugar ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Voth ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Woodward ¡ ¡ ¡ ¡ ¡ Woosley ¡ ¡ ¡ ¡ ¡ ¡ Wuebbles ¡ ¡ ¡ ¡ ¡ Yeung ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Node ¡Hours ¡ Team ¡PI ¡

Major ¡PRAC ¡Team ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2014 ¡

Team ¡XK ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2014 ¡ PRAC ¡Team ¡XE ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2014 ¡

slide-20
SLIDE 20

Major PRAC Team Usage - 2014

GTC Conference - April 2015

¡-­‑ ¡ ¡ ¡ ¡ ¡500,000.0 ¡ ¡ ¡1,000,000.0 ¡ ¡ ¡1,500,000.0 ¡ ¡ ¡2,000,000.0 ¡ ¡ ¡2,500,000.0 ¡ ¡ ¡3,000,000.0 ¡ ¡ Bernholc ¡ ¡ ¡ ¡ ¡ Burrows ¡ ¡ ¡ ¡ ¡ ¡ Campanelli ¡ ¡ ¡ Cheatham ¡ ¡ ¡ ¡ ¡ Di ¡Maoeo ¡ ¡ ¡ ¡ Elghobashi ¡ ¡ ¡ Jordan ¡ ¡ ¡ ¡ ¡ ¡ ¡ Karimabadi ¡ ¡ ¡ Klimeck ¡ ¡ ¡ ¡ ¡ ¡ Lusk ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Mori ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Nagamine ¡ ¡ ¡ ¡ ¡ O'Shea ¡ ¡ ¡ ¡ ¡ ¡ ¡ Pande ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Pogorelov ¡ ¡ ¡ ¡ Quinn ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Reed ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Schulten_PRAC ¡ Stein ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Sugar ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Voth ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Woodward ¡ ¡ ¡ ¡ ¡ Woosley ¡ ¡ ¡ ¡ ¡ ¡ Wuebbles ¡ ¡ ¡ ¡ ¡ Yeung ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Node ¡Hours ¡ Team ¡PI ¡

Major ¡PRAC ¡Team ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2014 ¡

Team ¡XK ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2014 ¡ PRAC ¡Team ¡XE ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2014 ¡

slide-21
SLIDE 21

Major PRAC Team Usage - 2015

GTC Conference - April 2015

¡-­‑ ¡ ¡ ¡ ¡ ¡500,000.0 ¡ ¡ ¡1,000,000.0 ¡ ¡ ¡1,500,000.0 ¡ ¡ ¡2,000,000.0 ¡ ¡ ¡2,500,000.0 ¡ ¡ ¡3,000,000.0 ¡ ¡ Node ¡Hours ¡ Team ¡PI ¡

Major ¡PRAC ¡Team ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2015 ¡

PRAC ¡Team ¡XK ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2015 ¡ PRAC ¡Team ¡XE ¡Usage ¡-­‑ ¡Sept-­‑Nov ¡2015 ¡

slide-22
SLIDE 22

Why Are More Not Using GPUs

  • Combining GPUs and Parallelism very complex –

e.g. load balancing, topology

  • Code improvements typical are done in the life

cycle of a grad student or post doc

  • Most are science discipline focused
  • Most teams do not want a proprietary solution
  • Teams are waiting to see what evolves as best

method

  • CUDA, OpenGL, OpenACC, OpenMP…
  • Many teams are still benefiting from scale out

GTC Conference - April 2015

slide-23
SLIDE 23

Reaction Blue Waters PAID Program

  • Petascale Application Improvement Discovery
  • Targets the introduction of new approaches
  • Advanced optimization
  • Best practices
  • Improvement Method Enablers
  • Have deep knowledge in a particular software area
  • Work with PRAC teams to enhance their application codes
  • Vendor expert support

GTC Conference - April 2015

slide-24
SLIDE 24

GTC Conference - April 2015

Improvement ¡Method ¡Enabler ¡ Science ¡Team ¡ Automabc ¡Topology ¡aware ¡Task ¡Mapping ¡(Bhatele) ¡ Yeung ¡ HDF5 ¡(Folk) ¡ Globus ¡Online ¡(Foster) ¡ SPIRAL ¡FFT ¡(Franchet) ¡ Yeung ¡ Parallel ¡I/O ¡Performance ¡(Gropp) ¡ ¡ DiMaoeo, ¡Liu, ¡Sugar ¡ Model ¡based ¡code ¡refactoring ¡and ¡auto ¡tuning ¡ (Hall) ¡ ¡ Cheatham ¡ Effecbve ¡use ¡of ¡Accelerators/Highly ¡Parallel ¡ Heterogeneous ¡Units ¡(Hwu ¡et. ¡al) ¡ Jordan, ¡Quinn, ¡Woodward ¡ Topology ¡Aware ¡/ ¡Communicabon ¡Paoern ¡ Detecbon ¡(Kale) ¡ Schulten, ¡Woodward, ¡Nobel, ¡Yeung ¡ Scalability ¡and ¡Load ¡Balancing ¡(Kale) ¡ ¡Quinn, ¡Schulten, ¡Woodward, ¡Nobel ¡ Best ¡Pracbce ¡Idenbficabon, ¡Disseminabon ¡and ¡ Implementabon ¡(Tang) ¡ Pogorelov, ¡Draayer ¡

slide-25
SLIDE 25

PRACs with multiple IMEs

GTC Conference - April 2015

NAMD Schulten Topology Aware / Communication Pattern Detection (Kale) Scalability and Load Balancing (Kale) Improving Performance of the New AMR Multifluid PPM Gas Dynamics Code on Blue Waters Woodward Topology Aware / Communication Pattern Detection (Kale) Scalability and Load Balancing (Kale) Effective use of Accelerators/Highly Parallel Heterogeneous Units (Hwu) Load Balancing for HARM3d Noble Topology Aware / Communication Pattern Detection (Kale) Scalability and Load Balancing (Kale) ChaNGa GPU Scaling Quinn Scalability and Load Balancing (Kale) Effective use of Accelerators/Highly Parallel Heterogeneous Units (Hwu) Petascale computation of turbulence using a hybrid pseudo-spectral and compact finite difference approach Yeung Topology Aware / Communication Pattern Detection (Kale) Automatic Topology- Aware Task Mapping (Bhatele) Spiral FFT (Franchetti)

slide-26
SLIDE 26

Blue Waters – PAID GPU Project

  • Participants –
  • IME Accelerator Team, Wen-Mei Hwu, Principal Investigator
  • John L. Larson, Team Leader
  • Carl Pearson
  • Liwen Chang
  • Mert Hidayetoglu
  • Simon Garcia de Gonzalo
  • Peng Wang ( NVIDIA )
  • NVIDIA
  • Cray

GTC Conference - April 2015

slide-27
SLIDE 27

GTC Conference - April 2015

Full mapping to IMEs and BW projects

  • Schulten: Load balancing and topology in NAMD
  • Kale , Topology Aware
  • Kale , Scalability and Load Balance
  • Woodward: AMR and GPUs, AMR Scaling and Topology
  • Kale , Topology Aware
  • Kale , Scalability and Load Balance
  • Hwu , use of Accelerators
  • Noble: Harm3d Load Balancing
  • Kale , Topology Aware
  • Kale , Scalability and Load Balance
  • Cheatham: MD Trajectory perf. optimization
  • Hall , Model based code refactoring and auto tuning
  • DiMatteo: I/O optimization of BlueTides
  • Gropp , Parallel I/O performance
  • Liu: Improve IO scalability of CitcomS
  • Gropp , Parallel I/O performance
  • Sugar: Improved LQCD App IO performance
  • Gropp , Parallel I/O performance
  • Quinn: Scaling and Accelerating ChaNGa
  • Kale , Scalability and Load Balance
  • Hwu , use of Accelerators
  • Jordan: AWP-ODC GPU and IO Accel.
  • Hwu , use of Accelerators
  • Pogorelov: Prog. Models of MS-FLUKSS
  • Tang , PIC code best practices
  • Draayer: Accel. Nuclear density computing
  • Tang , PIC code best practices
  • Yeung: Petascale comp. of turbulence
  • Kale , Topology Aware
  • Bhatele , Automatic Topology-Aware
  • Franchetti , Spiral FFT
slide-28
SLIDE 28

PRAC Quinn, ChaNGa GPU Scaling IMEs Kale, Scalability and Load Balancing Hwu, Effective use of Accelerators/Highly Parallel Heterogeneous Units Obtaining good performance at scale with the N- body code ChaNGa:

  • 1. Serial optimization of GPU code
  • 2. Improved intra-node communication as well as

data and GPU sharing.

  • 3. Optimizing the multiple timestep case. With very

clustered simulations, not all particles need their forces evaluated every timestep

  • 4. Automatic load balancing and interaction between

Charm++ and GPU with respect to GPU utilization.

GTC Conference - April 2015

Scales to .5M CPU cores

  • n BW

Preliminary GPU implementation

slide-29
SLIDE 29

PRAC Woodward, Improving Performance of the New AMR Multifluid PPM Gas Dynamics Code on Blue Waters IMEs Kale , Topology Aware / Communication Pattern Detection, Scalability and Load Balancing Hwu, Effective use of Accelerators/Highly Parallel Heterogeneous Units Will develop new PPM code targeted at star problems

  • n Blue Waters and future machines. Up to 75% load

imbalance as well as topology-awareness to be addressed with the help of IME. GPU implementation should improve performance two-

  • fold. Will integrate OpenACC, Cuda and CHARM++

components.

GTC Conference - April 2015

Expect 8,000 to 27,000 bricks distributed over, typically, 3000 (GPU) nodes

slide-30
SLIDE 30

SCEC PRAC Project: Extending the Spatiotemporal Scales of Physics Based Seismic Hazard Analysis

  • Science team lead: Thomas Jordan (PRAC PI) and Yifeng Cui

(yfcui@sdsc.edu)

  • Science Team: Alex Breuer, Scott Callaghan, Philip Maechling, Kim

Olsen, Dmitry Pekurovsky, Daniel Roten Objecbves ¡for ¡Collaborabon ¡with ¡IME ¡Team ¡

  • Provide ¡support ¡to ¡port ¡SORD ¡to ¡Blue ¡Waters ¡
  • Assess ¡AWP-­‑ODC-­‑GPU ¡and ¡idenbfy ¡performance ¡boolenecks ¡
  • Enhance ¡accuracy ¡by ¡integrabng ¡the ¡advanced ¡algorithms ¡
  • Parallel ¡file ¡wribng ¡portability ¡
  • Enable ¡4-­‑Hz ¡ShakeOut ¡simulabon ¡on ¡Blue ¡Waters ¡

GTC Conference - April 2015

slide-31
SLIDE 31

Summary Statement

  • In just three years, Blue Waters has accelerated

discovery by a decade

  • Blue Waters support about $500M of funded

research annually

  • NSF, NIH, NASA, DOE, DOD, commercial
  • Blue Waters is a catalyst and a research tool for

next generation systems and applications

  • Impacts on workforce development, education,

software, and other areas not discussed today.

GTC Conference - April 2015

slide-32
SLIDE 32

This research is part of the Blue Waters sustained- petascale computing project, which is supported by the National Science Foundation (awards OCI-0725070 and ACI-1238993) and the state of

  • Illinois. Blue Waters is a joint effort of the University
  • f Illinois at Urbana-Champaign and its National

Center for Supercomputing Applications.

GTC Conference - April 2015