LOW-COMMUNICATION FFT WITH FAST MULTIPOLE METHOD Cris Cecka, Senior - - PowerPoint PPT Presentation

▶

Nov 04, 2023 190 likes •532 views

May 8-11, 2017 | Silicon Valley LOW-COMMUNICATION FFT WITH FAST MULTIPOLE METHOD Cris Cecka, Senior Research Scientist. May 11, 2017 THE FAST FOURIER TRANSFORM Operation Count: 4 N log 2 N 6 N + 8 2 SPLIT-RADIX FFT Algorithm 3

SLIDE 1

May 8-11, 2017 | Silicon Valley

Cris Cecka, Senior Research Scientist. May 11, 2017

LOW-COMMUNICATION FFT WITH FAST MULTIPOLE METHOD

SLIDE 2

THE FAST FOURIER TRANSFORM

Operation Count: 4N log2 N − 6N + 8

SLIDE 3

SPLIT-RADIX FFT

Algorithm

SLIDE 4

SPLIT-RADIX FFT

Profile

SLIDE 5

FMM-FFT

Edelman et al. 1999

SLIDE 6

STRUCTURED DENSE MATRICES AND FMM

SVD:
Low-Rank:
Hierarchically LR:
H-Semi-Separable:
H2-Matrix/FMM

A = U D V ∗

K = U ˜ Kr×r V ∗ KIJ = UI ˜ KIJ V ∗

KIJ = UI ˜ U˜

I ˜

K˜

I ˜ J ˜

V ∗

˜ J V ∗ J

SLIDE 7

FMM-FFT

Algorithm

MM,P = diag(IM, C1, . . . , CP −1) [Cp]mn = ρp h cot ⇣ π M ⇣ n − m + p P ⌘⌘ + ı i

} 2D M × P FFT

SLIDE 8

COT FMM

One dimensional
Uniform — integers are source/target
Periodic
Distributed
Size M-by-M
P of them!
Interleaved

[Cp]mn = ρp h cot ⇣ π M ⇣ n − m + p P ⌘⌘ + ı i

SLIDE 9

FMM OPERATORS

Each operator is an (implicit) matrix.

M/2L Q Q Q S2M M2M M2M M2L M2L L2L L2L L2L L2T L2T S2T

S: “Source”
T: “Target”
M: “Multipole”
L: “Local”

S2T M2L B=2 3 L=4

SLIDE 10

PARAMETERS OF THE FMM-FFT

FFT
FMM
Rank
Base level
Leaf box size
Leaf level

N = M P Q B

L = log2(M/ML) (N, P, ML, Q, B)

SLIDE 11

DISTRIBUTED FMM

All2All Gather All2All Gather Halo 2b Halo 2b Halo 1b Halo 2b Halo 2b Halo 1b

SLIDE 12

INTERPOLATIVE FMM

Same operators across all boxes
Same operators across all levels
Almost same operators across all FMMs

zj = cos ✓(2j + 1)π 2Q ◆ `i(z) = Y

0k<Q k6=i

z − zk zi − zk

S2M M2M M2L L2L L2T

Cij = `m(tI

i ) `q(z ˜ I m) C(z ˜ I q , z ˜ J r ) `r(z ˜ J n ) `n(sJ i )

SLIDE 13

TENSOR REPRESENTATIONS

Input:
Output:

Aijk` := A[i + j ∗ ldA<1> + k ∗ ldA<2> + ` ∗ ldA<3>],

Sn ≡ Spm ≡ Spmb Tn ≡ Tpm ≡ Tpmb

SLIDE 14

S2M/L2T

S2Mqm = `q(sm)

sm = −1 + 2m + 1 ML

Computed with single BatchedGEMM

(p−1)qb = S2Mqm Spmb

SLIDE 15

BATCHED MATRIX-MATRIX MULTIPLY

cublas<T>gemmStridedBatched in cuBLAS 8.0

SLIDE 16

S2M/L2T

Tpmb = L2Tmq Lpqb = ⇒ Tpm[b] = Lpq[b] S2Mqm

Mpqb = S2Mqm Spmb = ⇒ Mpq[b] = Spm[b] S2M T

SLIDE 17

M2M/L2L

M2M ±

qk = `q

✓zk ± 1 2 ◆

pqb = M2Mqk M`+1 pk(2b)

Computed with single BatchedGEMM

L`+1

pq(2b) = L2Lqk L` pkb + L`+1 pq(2b)

SLIDE 18

S2T/M2L

Also Level-3 Linear Algebra computations, but no BLAS primitives.
CUSTOM KERNELS

Tpib = S2Tp(j−i) Spjb

S2Tpk = ( cot π

N (p + Pk)

p > 0

δk0 p = 0

pib = M2L` pijs M` pj(b+s)

M2L`

pijs = cot

⇣ π 2` (zj 2 − zi 2 + s) + π N (p + 1) ⌘

SLIDE 19

INTERPOLATIVE FMM

P(4ML-1) QML QML 2Q2 2Q2 4(L-B)PQ2

Storage Operator Compute

2PMQ 2PMQ 3P2LML2 4(2L-2B)PQ2 4(2L-2B)PQ2 3(2L-2B)PQ2

SLIDE 20

ALGORITHM

SLIDE 21

PROFILE

SLIDE 22

FMM-FFT PROFILE

S2M M2M Halo S2T M2L

}

L2L L2T

2D FFT

SLIDE 23

2xK40c FMM-FFT

SLIDE 24

2xP100 FMM-FFT

SLIDE 25

8xP100 FMM-FFT

SLIDE 26

FMM BREAKDOWN

T=ComplexDouble, A=2xP100
B-GEMM and S2T dominate
Small N
Latency — Use 1 Level
Large N
Compute

Components

SLIDE 27

EFFICIENCY

>95% BatchedGEMM
60% S2T/M2L
>90% FMM-FFT

SLIDE 28

PARAMETER DEPENDENCE — ML

Trade #levels for S2T comp
Flop count not enough
Increase the intensity
Tune performance for ML=64
T=Z, A=2xP100, N=227, P=256, B=3, Q=16

Points per box per FMM

SLIDE 29

PARAMETER DEPENDENCE — P

Flops/Intensity approx constant
Trade #levels for #FMMs
Large P good
Fill up B-GEMM
More square 2D FFT
T=Z, A=2xP100, N=227, ML=64, B=3, Q=16

Number of FMMs

SLIDE 30

PARAMETER DEPENDENCE — B

Not very significant
Scale to 128 GPUs w/o complications
T=Z, A=2xP100, N=227, P=256, ML=64, Q=16

Base Level

SLIDE 31

PARAMETER DEPENDENCE — Q

Weak performance dependence
Accuracy tuning
T=Z, A=2xP100, N=227, P=256, ML=64, B=3

Quadrature Order

SLIDE 32

FUTURE

Integration into CUFFT
Application to 2D/3D FFTs?
Convolutions
NUFFT

, Sparse FFT

Volta predictions and measurements
Mixed precision (e.g. FP16 far-field) to use Tensor Core?
Persistent Matrix Batched GEMM (cuBLAS optimization)
Staged Persistent Matrix Batched GEMM (cooperative groups, RNNs)

SLIDE 33

CONCLUSION

FMM-FFT trades 2/3 communication in 1D FFT for P FMMs
Viable on highest comp:comm architecture available
Detailed implementation that relies heavily on existing primitives
Primitives >95% efficient
Two custom dense kernels >60% efficient
Entire FMM-FFT >90% efficient
Tunable accuracy-performance tradeoff
Compute model accurately predicts performance

SLIDE 34

May 8-11, 2017 | Silicon Valley

} 2D M × P FFT

}

THANK YOU