Convolutional ¡Neural ¡ Networks
(Application ¡in ¡Object ¡and ¡Scene ¡Recognition)
Harsh ¡Agrawal (Sept ¡8th, ¡2015) ECE: ¡6504, ¡Deep ¡Learning ¡For ¡Perception
Convolutional Neural Networks (Application in Object and - - PowerPoint PPT Presentation
Convolutional Neural Networks (Application in Object and Scene Recognition) Harsh Agrawal (Sept 8 th , 2015) ECE: 6504, Deep Learning For Perception Contents Y. LeCun, L.
Harsh ¡Agrawal (Sept ¡8th, ¡2015) ECE: ¡6504, ¡Deep ¡Learning ¡For ¡Perception
Based ¡Learning ¡Applied ¡to ¡Document ¡Recognition, ¡ Proceedings ¡of ¡the ¡IEEE, ¡86(11):2278-‑2324, ¡November ¡ 1998
ImageNet Classification ¡with ¡Deep ¡Convolutional ¡ Neural ¡Networks, ¡NIPS ¡2012
Torralba, ¡Aude ¡Oliva, ¡Learning ¡Deep ¡Features ¡for ¡Scene ¡ Recognition ¡using ¡Places ¡Database, ¡NIPS ¡2014
Antonio ¡Torralba, ¡Object ¡Detectors ¡Emerge ¡In ¡Deep ¡ Scene ¡CNNs, ¡ICLR ¡2015
center ¡of ¡the ¡receptive ¡field ¡of ¡the ¡highest ¡level ¡feature ¡ detectors) ¡
Black ¡=1.175 ¡(Mean ¡of ¡pixels ¡= ¡0, ¡Std of ¡pixels ¡=1)
non ¡overlapping ¡receptive ¡fields ¡in ¡C1 ¡Layer ¡
at ¡identical ¡locations ¡in ¡S2
receptive ¡field ¡at ¡C3 ¡
S4
connections ¡(Fully ¡connected)
trainable ¡parameters ¡and ¡connections. ¡
image ¡
resolution ¡images. ¡
labeled ¡by ¡Amazon ¡ Mechanical ¡Turk. ¡
http://image-‑net.org Picture ¡Credits: ¡Andrej ¡Karpathy
5 ¡Convolutional ¡Layers 3 ¡Fully ¡Connected ¡Layers 1000 ¡way softmax Slide ¡Credits: ¡CS231B, ¡Stanford ¡University
224 224 3 11 11 48 55 55 5 5 5 5 4 8 128 128 27 27 192 13 13 192 192 192 13 13 128 128 13 13 2048 2048 2048 2048 1000 13 13 13 13 13 13 27 27 5 5 3 3 3 3 3 3
+ ¡1 ¡bias
224 224 3 11 11 48 55 55 5 5 5 5 4 8 128 128 27 27 192 13 13 192 192 192 13 13 128 128 13 13 2048 2048 2048 2048 1000 13 13 13 13 13 13 27 27 5 5 3 3 3 3 3 3
224 1000 224 3 11 11 48 55 55 5 5 5 5 4 8 128 128 27 27 192 13 13 192 192 192 13 13 128 128 13 13 2048 2048 2048 2048 13 13 13 13 13 13 27 27 5 5 3 3 3 3 3 3
Intra ¡GPU ¡Connections Inter ¡GPU ¡Connections GPU ¡#1 GPU ¡#2
Top-‑1 ¡and ¡Top-‑5 ¡error ¡rates ¡decreases ¡by ¡1.7% ¡ and ¡1.2% ¡respectively, ¡comparing ¡to ¡the ¡net ¡ trained ¡with ¡one ¡GPU ¡and ¡half ¡neurons
Local ¡Contrast ¡Norm. Max ¡Pooling Convolution ¡Layer + ¡ReLU Fully ¡Connected ¡ Layer
(𝑦)
Linear ¡Units ¡(ReLU)
(0, 𝑦)
ReLU Tanh With ¡a ¡four ¡layer ¡CNN, ¡ ReLUreaches ¡25% ¡ error ¡rate ¡six ¡times ¡ faster ¡than ¡Tanh on ¡ CIFAR-‑10
rates ¡by ¡1.4% ¡and ¡1.2% ¡respectively.
Response normalized activity Activity ¡of ¡a ¡neuron ¡computed ¡by ¡applying kernel ¡i position ¡(x,y) ¡and ¡then ¡applying ¡the ReLUnonlinearity. k, ¡n, ¡⍺, ¡β ¡are ¡ hyper-‑parameters ¡ which ¡are ¡ determined ¡using ¡ validation ¡set. The ¡paper ¡had: ¡ k=2, ¡n=5, ¡⍺=10-‑4, ¡ β=-‑.75 ¡ Slide ¡Credits: ¡CS231B, ¡Stanford ¡University
Momentum ¡( ¡damping ¡parameter) Learning ¡rate Gradient ¡of ¡Loss ¡w.r.t weight. (Averaged ¡over ¡batch) Weight ¡decay
patches ¡from ¡the ¡256 ¡X ¡256 ¡images. ¡
training ¡examples ¡are ¡highly ¡inter-‑dependent.
center ¡patch) ¡and ¡their ¡horizontal ¡patches ¡are ¡used.
Slide ¡Credits: ¡CS231B, ¡Stanford ¡University
training ¡set.
Pi and ¡𝝁i are ¡the ¡ith eigenvector ¡and ¡eigenvalue ¡
𝜷i is ¡the ¡random ¡variable. Slide ¡Credits: ¡CS231B, ¡Stanford ¡University
Credits: ¡Geoffrey ¡E. ¡Hinton, ¡NIPS ¡2012
hidden ¡layer. ¡
example, ¡we ¡randomly ¡omit ¡each ¡ hidden ¡unit ¡with ¡probability ¡0.5.
from ¡28 different ¡units.
Credits: ¡Geoffrey ¡E. ¡Hinton, ¡NIPS ¡2012
Credits: ¡Geoffrey ¡E. ¡Hinton, ¡NIPS ¡2012 Figure ¡Credit: ¡Srivastava ¡et ¡al.
geometric ¡mean ¡of ¡the ¡predictions ¡of ¡all ¡models.
its ¡fast. ¡
Credits: ¡Geoffrey ¡E. ¡Hinton, ¡NIPS ¡2012
Credits: ¡Geoffrey ¡E. ¡Hinton, ¡NIPS ¡2012
the ¡last ¡pooling ¡layer ¡to ¡classify ¡the ¡entire ¡ImageNet Fall ¡2011 ¡release ¡ and ¡then ¡fine-‑tuning ¡it ¡on ¡ILSVRC-‑2012. ¡
with ¡the ¡smallest ¡Euclidean ¡distance ¡from ¡the ¡feature ¡vector ¡for ¡the ¡test ¡ image.
convolutional ¡layer ¡on ¡the ¡224×224×3 ¡input ¡images. ¡
48 ¡kernels ¡were ¡learned ¡on ¡GPU2
Past ¡Datasets:
categories, ¡atleast 100 ¡ images ¡each, ¡total ¡ 108,754 ¡images.
15620 ¡images.
Tesla ¡K40.
This ¡paper ¡shows ¡that ¡object ¡detectors ¡emerge ¡inside ¡a ¡ CNN ¡trained ¡for ¡scene ¡classification, ¡without ¡any ¡object ¡ supervision