Keeping your Cloud Footprint in Check Coburn Watson @coburnw Cloud - - PowerPoint PPT Presentation

keeping your cloud footprint in check
SMART_READER_LITE
LIVE PREVIEW

Keeping your Cloud Footprint in Check Coburn Watson @coburnw Cloud - - PowerPoint PPT Presentation

Keeping your Cloud Footprint in Check Coburn Watson @coburnw Cloud Performance and Reliability @ Ne6lix Reduce TTD and TTR Build innova<ve performance analysis tooling


slide-1
SLIDE 1

Keeping your Cloud Footprint in Check

Coburn Watson

slide-2
SLIDE 2
slide-3
SLIDE 3

@coburnw

  • Cloud ¡Performance ¡and ¡Reliability ¡@ ¡Ne6lix ¡

– Reduce ¡TTD ¡and ¡TTR ¡ – Build ¡innova<ve ¡performance ¡analysis ¡tooling ¡ – Op<mize ¡usage ¡of ¡AWS ¡Cloud ¡ – Steer ¡global ¡user ¡traffic ¡and ¡support ¡failover ¡ – Inject ¡Chaos ¡into ¡produc<on ¡environment ¡ – Drive ¡opera<onal ¡best ¡prac<ce ¡adop<on ¡ ¡

slide-4
SLIDE 4
  • 67M+ ¡Subscribers ¡
  • > ¡50 ¡countries ¡
  • > ¡3 ¡billion ¡hours ¡of ¡video ¡streamed ¡monthly ¡
  • Huge ¡cloud ¡footprint ¡
  • Homegrown ¡CDN ¡
  • Strong ¡Originals ¡slate ¡
slide-5
SLIDE 5
  • Strong ¡focus ¡on ¡open ¡source ¡efforts ¡
  • hTps://ne6lix.github.io/ ¡

Atlas ¡

slide-6
SLIDE 6

Our ¡Priori<es ¡

slide-7
SLIDE 7

(me) ¡

Innova<on ¡

Reliability ¡

Efficiency ¡

slide-8
SLIDE 8

Cost ¡of ¡Innova<on ¡ and ¡Reliability ¡

slide-9
SLIDE 9

Maximize Innovation

  • Capacity ¡On-­‑Demand ¡
  • Commit-­‑to-­‑Cloud ¡in ¡minutes ¡
  • Single ¡Produc<on ¡Account ¡(~ ¡350 ¡µservices) ¡
  • Burst ¡into ¡on-­‑demand, ¡cover ¡with ¡reserva<on ¡purchases ¡
slide-10
SLIDE 10

Cost of Reliability

  • Red-­‑Black ¡push ¡model ¡
  • Over-­‑provision ¡for ¡redundancy ¡in ¡AWS ¡Region ¡
  • Global ¡redundancy ¡through ¡failover ¡ ¡
  • Purchase ¡“Heavy” ¡AWS ¡EC2reserva<ons ¡to ¡secure ¡capacity ¡
slide-11
SLIDE 11

Efficiency ¡

slide-12
SLIDE 12

Efficiency Goals

  • Have ¡them ¡and ¡track ¡them! ¡
slide-13
SLIDE 13

Monitoring Costs

  • ICE: ¡Open ¡Source ¡AWS ¡Cost ¡Monitoring ¡U<lity ¡
  • Internal ¡Cost ¡Repor<ng ¡pushed ¡to ¡first-­‑level ¡managers ¡
slide-14
SLIDE 14

Maximize Sharing

  • Single ¡Produc<on ¡Account ¡
  • Fewer/Larger ¡Pools ¡
  • Maximize ¡Shared ¡Capacity ¡

> ¡75% ¡in ¡only ¡8 ¡EC2 ¡Instance ¡Types ¡

slide-15
SLIDE 15

Encourage Borrowing

  • All ¡accounts ¡are ¡linked ¡at ¡a ¡billing ¡level ¡
  • Large ¡troughs ¡of ¡unused ¡capacity ¡exist ¡(Autoscaling) ¡
  • Interrup<ble ¡workloads ¡for ¡internal ¡“Spot” ¡
slide-16
SLIDE 16

Optimization

  • Direct ¡Consulta<on ¡for ¡“Big ¡Fish” ¡
  • Tooling ¡for ¡Everyone ¡

1 ¡

  • Develop ¡

2 ¡

  • Deploy ¡
  • Scale ¡

3 ¡

  • Op<mize ¡(if ¡needed) ¡

New ¡Services ¡or ¡Features ¡ Ongoing ¡Service ¡Development ¡

1 ¡

  • Develop ¡

2 ¡

  • Canary ¡

3 ¡

  • Op<mize ¡(if ¡needed) ¡
  • Deploy ¡
slide-17
SLIDE 17

Improving Stack Observability

  • Too ¡big ¡for ¡commercial ¡tools ¡
  • Patch ¡key ¡middleware ¡where ¡necessary ¡

Mixed-­‑Mode ¡JVM ¡CPU ¡Flame ¡Graph ¡ Transac<on ¡Tracing ¡with ¡Resource ¡Demand ¡

slide-18
SLIDE 18

Monitor Capacity Shortfalls

  • Constrain ¡On-­‑Demand ¡charges ¡
  • Iden<fy/alert ¡on ¡significant ¡capacity ¡provisioning ¡events ¡
slide-19
SLIDE 19

Data Points

  • Internal ¡Borrowing ¡
  • Encoding ¡consumed ¡135k ¡cross-­‑account ¡EC2 ¡Instance ¡

hours ¡June ¡2015 ¡(> ¡~ ¡$200k/monthly ¡savings) ¡ ¡

  • Data ¡Pla6orm ¡(Hadoop, ¡etc.) ¡saves ¡> ¡$1MM/year ¡
slide-20
SLIDE 20

Summary

  • Target ¡your ¡Innova<on:Efficiency ¡ra<o ¡

¡

  • Push ¡cost ¡context ¡to ¡the ¡team ¡level ¡

¡

  • Embrace ¡the ¡elas<city ¡of ¡the ¡Cloud ¡

¡

slide-21
SLIDE 21
slide-22
SLIDE 22

Thanks !