Zhengji Zhao1), Doug Petesch2), David Knaak2), and Tina Declerck1)
- 1) NERSC
2) Cray, Inc
Cray User Group Meting
May 7, 2014
I/O Performance
- n Cray XC30
I/O Performance on Cray XC30 Zhengji Zhao 1) , Doug Petesch 2) , - - PowerPoint PPT Presentation
I/O Performance on Cray XC30 Zhengji Zhao 1) , Doug Petesch 2) , David Knaak 2) , and Tina Declerck 1) 1) NERSC 2) Cray, Inc Cray User Group Meting May 7, 2014 Acknowledgement Mark Swan at Cray for the
2) Cray, Inc
May 7, 2014
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Up ¡is ¡good ¡
0.00% ¡ 20.00% ¡ 40.00% ¡ 60.00% ¡ 80.00% ¡ 100.00% ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ PosixFpP ¡10k ¡ MPI-‑IO ¡10k ¡ PosixFpP ¡1m1 ¡ MPI-‑IO ¡1m1 ¡ PosixFpP ¡1m2 ¡ MPI-‑IO ¡1m2 ¡
Percentage ¡+/-‑ ¡Rela5ve ¡to ¡8/23 ¡Acceptance ¡Results ¡ Benchmark ¡Ttests ¡
FS1 ¡ FS2 ¡ FS3 ¡
great ¡scalability ¡
system, ¡configured ¡as ¡2:2:3 ¡for ¡capacity ¡ and ¡bandwidth ¡ ¡
via ¡DVS ¡
visualiza5on ¡and ¡analy5cs ¡ ¡ ¡
efficiency ¡ ¡
Size ¡(PB) ¡
(GB/s) ¡
SSUs ¡
OSSs ¡
Cores ¡used ¡ 768 ¡ 768 ¡ 1152 ¡ 2304 ¡ 2304 ¡ 4608 ¡ 2304 ¡ 2304 ¡ 4608 ¡ Nodes ¡used ¡ 32 ¡ 32 ¡ 48 ¡ 96 ¡ 96 ¡ 144 ¡ 96 ¡ 96 ¡ 144 ¡
3.1 ¡ 3.1 ¡ 4.6 ¡ 9.2 ¡ 9.2 ¡ 13.8 ¡ 9.2 ¡ 9.2 ¡ 13.8 ¡
768 ¡ 768 ¡ 1152 ¡ 1 ¡ 1 ¡ IOBUF_PARAMS ¡ ¡ count=2:size=32m:direct ¡count=1:size=1000000: ¡ ¡ ¡ ¡ ¡ ¡ ¡prefetch=0 ¡ ¡IOBUF ¡was ¡not ¡used ¡ ¡ MPIIO ¡Hints ¡ ¡ ¡cb_romio_read=disable ¡ ¡ cb_romio_write=disable ¡ ¡cb_romio_read=enable ¡ ¡ cb_romio_write=enable ¡ ¡ Lustre ¡Striping ¡ ¡lfs ¡setstripe ¡-‑s ¡1m ¡-‑c ¡1 ¡ ¡ ¡lfs ¡setstripe ¡-‑s ¡1m ¡-‑c ¡-‑1 ¡ lfs ¡setstripe ¡-‑s ¡4m ¡-‑c ¡-‑1 ¡ ¡
0 ¡ 10000 ¡ 20000 ¡ 30000 ¡ 40000 ¡ 50000 ¡ 60000 ¡ 70000 ¡ 80000 ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ Write ¡ Read ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ PosixFpP ¡10k ¡ PosixFpP ¡1m1 ¡ PosixFpP ¡1m2 ¡ MPIIO ¡10k ¡ MPIIO ¡1m1 ¡ MPIIO ¡1m2 ¡
Bandwidth ¡(MB/s) ¡ IOR ¡tests ¡
Dedicated ¡runs ¡on ¡Aug. ¡23, ¡2013 ¡ FS1-‑write ¡ FS1-‑read ¡ FS2-‑write ¡ FS2-‑read ¡ FS3-‑write ¡ FS3-‑read ¡
0 ¡ 5 ¡ 10 ¡ 15 ¡ 20 ¡ 25 ¡ 30 ¡ 35 ¡ 40 ¡ 45 ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ MPI-‑IO ¡10k ¡ MPI-‑IO ¡1m1 ¡ PosixFpP ¡1m2 ¡ COV ¡(%) ¡ IOR ¡Tests ¡ FS1 ¡ FS2 ¡ FS3 ¡
0 ¡ 1000 ¡ 2000 ¡ 3000 ¡ 4000 ¡ 5000 ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ MPI-‑IO ¡10k ¡ MPI-‑IO ¡1m1 ¡ PosixFpP ¡1m2 ¡ Bandwidth ¡(MB/s/SSU) ¡ IOR ¡Tests ¡ I/O ¡Bandwidths ¡per ¡SSU ¡on ¡three ¡Lustre ¡File ¡Systems ¡on ¡Edison ¡ (Average ¡of ¡3 ¡dedicated ¡runs ¡on ¡8/23/2013) ¡ ¡ FS1 ¡ FS2 ¡ FS3 ¡
FS1 ¡ FS2 ¡ FS3 ¡ CLE/Lustre ¡upgrades ¡ Aug ¡1, ¡2013 ¡ 72 ¡OSTs ¡ 72 ¡OSTs ¡ 144 ¡OSTs ¡ 5.0.UP03/2.3.0 ¡ Dec ¡6, ¡2013 ¡ 5.1.UP00/2.4.0 ¡ Dec ¡16,2013 ¡ 96 ¡OSTs ¡ Jan ¡17, ¡2014 ¡ 96 ¡OSTs ¡ Mar ¡11, ¡2014 ¡ 5.1.UP01/2.4.1 ¡
July ¡10, ¡2013 ¡ Nov ¡27, ¡2013 ¡ Dec ¡16, ¡2013 ¡ Apr ¡24, ¡2014 ¡ ¡ CDT ¡ 1.06 ¡ 1.10 ¡ 1.11 ¡ 1.15 ¡
0.00% ¡ 20.00% ¡ 40.00% ¡ 60.00% ¡ 80.00% ¡ write ¡ read ¡ write ¡ read ¡ write ¡ read ¡ MPI-‑IO ¡10k ¡ MPI-‑IO ¡1m1 ¡ PosixFpP ¡1m2 ¡
Percentage ¡+/-‑ ¡Rela5ve ¡to ¡8/23 ¡results ¡ IOR ¡Tests ¡
FS1 ¡ FS2 ¡ FS3 ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Up ¡is ¡good ¡
0 ¡ 200 ¡ 400 ¡ 600 ¡ 800 ¡ 1000 ¡ 1200 ¡ 1400 ¡ 1600 ¡ 1800 ¡ 2000 ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ FS1 ¡ FS2 ¡ FS3 ¡ 8/23/13 ¡ 12/15 ¡and ¡12/17/13 ¡ 12/30/13 ¡ Read ¡rates ¡(MB/s/SSU) ¡ File ¡system/Run ¡Date ¡
MPI-‑IO ¡10 ¡tests ¡with ¡two ¡binaries ¡built ¡on ¡7/19/13 ¡and ¡12/15/13 ¡ ¡
Run ¡with ¡the ¡binary ¡built ¡on ¡ 12/15 ¡ Run ¡with ¡the ¡binary ¡built ¡on ¡ 7/19 ¡ Runs ¡with ¡the ¡binary ¡built ¡on ¡ 12/15 ¡ Runs ¡with ¡the ¡binary ¡built ¡on ¡ 7/19 ¡
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Up ¡is ¡good ¡
0 ¡ 200 ¡ 400 ¡ 600 ¡ 800 ¡ 1000 ¡ 1200 ¡ 1400 ¡ 1600 ¡ 1800 ¡
write ¡ read ¡ re-‑read ¡ write ¡ read ¡ re-‑read ¡ write ¡ read ¡ re-‑read ¡ FS1 ¡ FS2 ¡ FS3 ¡
Bandwidth ¡(MB/s/SSU) ¡ Benchmark ¡Tests ¡
MPI-‑IO ¡10k ¡performance ¡change ¡over ¡5me ¡
8/23/13 ¡ 12/15/13 ¡ 12/17/13 ¡ 12/30/13 ¡ 3/26/14 ¡
!
! The ¡read ¡rate ¡of ¡the ¡MPI-‑IO ¡10k ¡read-‑aher-‑write ¡test ¡declines ¡steeply, ¡while ¡it ¡ keeps ¡constant ¡in ¡the ¡read-‑only ¡test ¡aher ¡an ¡iniXal ¡drop ¡
! !
Instrumented ¡IOR ¡I/O ¡rates ¡ LMT ¡data ¡
Node ¡47 ¡ Node ¡48 ¡
Readcache_max_filesize=infinite ¡ Readcache_max_filesize=1M ¡
0 ¡ 20 ¡ 40 ¡ 60 ¡ 80 ¡ 100 ¡ 120 ¡ 140 ¡ 160 ¡ write ¡ read ¡ read-‑only ¡ FS2 ¡ Bandwidth ¡(MB/s/SSU) ¡ MPI-‑IO ¡10k ¡Test ¡ readcache_max_file size=1M ¡ readcache_max_file size=infinite ¡
readcache_max_file size=infinite ¡
! !
0.2 0.4 0.6 0.8 1 1.2 1.4 50 100 150 200 250 read time numbe of read call with iobuf, rec=32M, count=2, stripe 1 wout iobuf, stripe 8
0.05 0.1 0.15 0.2 0.25 0.3 10 20 30 40 50 read time numbe of read call with iobuf, rec=32M, count=2, stripe 1 wout iobuf, stripe 8
(a) ¡ Write ¡and ¡then ¡read ¡ ¡ (d) ¡ Read ¡the ¡exisXng ¡file ¡ (c) ¡ Write ¡and ¡then ¡read ¡but ¡ clearing ¡the ¡Lustre ¡caches ¡ between ¡write ¡and ¡read ¡ ¡ (b) ¡ Read ¡the ¡exisXng ¡file ¡
These ¡were ¡two ¡runs ¡on ¡FS3 ¡with ¡and ¡without ¡clearing ¡Lustre ¡Caches ¡(non-‑dedicated). ¡ Although ¡there ¡was ¡noised, ¡the ¡read ¡profile ¡change ¡in ¡(a) ¡and ¡(c) ¡was ¡obvious. ¡ ¡