[PPT] - Self-Supervised Exploration via Disagreement Deepak Pathak* Dhiraj PowerPoint Presentation

SLIDE 1

Self-Supervised Exploration via Disagreement

Deepak Pathak* UC Berkeley Dhiraj Gandhi* CMU Abhinav Gupta CMU, FAIR

* equal contribution

ICML 2019

SLIDE 2

Exploration – a major challenge!

SLIDE 3

Mohamed et.al. “Variational information

maximisation for intrinsically motivated reinforcement learning”. NIPS, 2015.

Houthooft et.al. “VIME: Variational information

maximizing exploration”. NIPS, 2016.

Gregor et.al. “Variational intrinsic control”. ICLR

Workshop, 2017.

Pathak et.al. “Curiosity-driven Exploration by Self-

supervised Exploration”. ICML 2017

Ostrovski et.al. “Count-based exploration with

neural density models”. ICML, 2017.

Burda*, Edwards*, Pathak* et.al. “Large-Scale

Study of Curiosity-driven Learning”. ICLR 2019

Eysenbach et al. “Diversity is all you need: Learn

skills without a reward function”. ICLR 2019.

Savinov et al. "Episodic curiosity through

reachability". ICLR 2019.

Exploration – a major challenge!

Schmidhuber, Jurgen. “A possibility for

implementing curiosity and boredom in model building neural controllers”, 1991.

Schmidhuber, Jurgen. “Formal theory of creativity,

fun, and intrinsic motivation (1990–2010)”, 2010.

Oudeyer, P.-Y. and Kaplan, F. What is intrinsic

motivation? a typology of computational

approaches. Frontiers in neurorobotics, 2009.
Poupart et.al. “An analytic solution to discrete

bayesian reinforcement learning”. ICML, 2006.

Lopes et.al. “Exploration in model-based

reinforcement learning by empirically estimating learning progress”. NIPS, 2012.

Bellemare et.al. “Unifying count-based exploration

and intrinsic motivation”. NIPS, 2016.

SLIDE 4

Exploration – a major challenge!

Schmidhuber, Jurgen. “A possibility for

implementing curiosity and boredom in model building neural controllers”, 1991.

Schmidhuber, Jurgen. “Formal theory of creativity,

fun, and intrinsic motivation (1990–2010)”, 2010.

Oudeyer, P.-Y. and Kaplan, F. What is intrinsic

motivation? a typology of computational

approaches. Frontiers in neurorobotics, 2009.
Poupart et.al. “An analytic solution to discrete

bayesian reinforcement learning”. ICML, 2006.

Lopes et.al. “Exploration in model-based

reinforcement learning by empirically estimating learning progress”. NIPS, 2012.

Bellemare et.al. “Unifying count-based exploration

and intrinsic motivation”. NIPS, 2016.

Mohamed et.al. “Variational information

maximisation for intrinsically motivated reinforcement learning”. NIPS, 2015.

Houthooft et.al. “VIME: Variational information

maximizing exploration”. NIPS, 2016.

Gregor et.al. “Variational intrinsic control”. ICLR

Workshop, 2017.

Pathak et.al. “Curiosity-driven Exploration by Self-

supervised Exploration”. ICML 2017

Ostrovski et.al. “Count-based exploration with

neural density models”. ICML, 2017.

Burda*, Edwards*, Pathak* et.al. “Large-Scale

Study of Curiosity-driven Learning”. ICLR 2019

Eysenbach et al. “Diversity is all you need: Learn

skills without a reward function”. ICLR 2019.

Savinov et al. "Episodic curiosity through

reachability". ICLR 2019.

SLIDE 5

Exploration – a major challenge!

Schmidhuber, Jurgen. “A possibility for

implementing curiosity and boredom in model building neural controllers”, 1991.

Schmidhuber, Jurgen. “Formal theory of creativity,

fun, and intrinsic motivation (1990–2010)”, 2010.

Oudeyer, P.-Y. and Kaplan, F. What is intrinsic

motivation? a typology of computational

approaches. Frontiers in neurorobotics, 2009.
Poupart et.al. “An analytic solution to discrete

bayesian reinforcement learning”. ICML, 2006.

Lopes et.al. “Exploration in model-based

reinforcement learning by empirically estimating learning progress”. NIPS, 2012.

Bellemare et.al. “Unifying count-based exploration

and intrinsic motivation”. NIPS, 2016.

Mohamed et.al. “Variational information

maximisation for intrinsically motivated reinforcement learning”. NIPS, 2015.

Houthooft et.al. “VIME: Variational information

maximizing exploration”. NIPS, 2016.

Gregor et.al. “Variational intrinsic control”. ICLR

Workshop, 2017.

Pathak et.al. “Curiosity-driven Exploration by Self-

supervised Exploration”. ICML 2017

Ostrovski et.al. “Count-based exploration with

neural density models”. ICML, 2017.

Burda*, Edwards*, Pathak* et.al. “Large-Scale

Study of Curiosity-driven Learning”. ICLR 2019

Eysenbach et al. “Diversity is all you need: Learn

skills without a reward function”. ICLR 2019.

Savinov et al. "Episodic curiosity through

reachability". ICLR 2019.

SLIDE 6

Exploration – a major challenge!

Schmidhuber, Jurgen. “A possibility for

implementing curiosity and boredom in model building neural controllers”, 1991.

Schmidhuber, Jurgen. “Formal theory of creativity,

fun, and intrinsic motivation (1990–2010)”, 2010.

Oudeyer, P.-Y. and Kaplan, F. What is intrinsic

motivation? a typology of computational

approaches. Frontiers in neurorobotics, 2009.
Poupart et.al. “An analytic solution to discrete

bayesian reinforcement learning”. ICML, 2006.

Lopes et.al. “Exploration in model-based

reinforcement learning by empirically estimating learning progress”. NIPS, 2012.

Bellemare et.al. “Unifying count-based exploration

and intrinsic motivation”. NIPS, 2016.

Mohamed et.al. “Variational information

maximisation for intrinsically motivated reinforcement learning”. NIPS, 2015.

Houthooft et.al. “VIME: Variational information

maximizing exploration”. NIPS, 2016.

Gregor et.al. “Variational intrinsic control”. ICLR

Workshop, 2017.

Pathak et.al. “Curiosity-driven Exploration by Self-

supervised Exploration”. ICML 2017

Ostrovski et.al. “Count-based exploration with

neural density models”. ICML, 2017.

Burda*, Edwards*, Pathak* et.al. “Large-Scale

Study of Curiosity-driven Learning”. ICLR 2019

Eysenbach et al. “Diversity is all you need: Learn

skills without a reward function”. ICLR 2019.

Savinov et al. "Episodic curiosity through

reachability". ICLR 2019.

S a m p l e I n e f f i c i e n t [ m i l l i

n

s

f

s a m p l e s ]

SLIDE 7

Simulation

Sample Inefficient

SLIDE 8

Real Robots Simulation

Sample Inefficient

SLIDE 9

Real Robots Simulation

Sample Inefficient “Stuck” in Stochastic Envs

SLIDE 10

Real Robots Simulation

Sample Inefficient “Stuck” in Stochastic Envs

Curiosity Exploration w/ Noisy TV & Remote

[Burda*, Edwards*, Pathak* et. al. ICLR’19] [Juliani et.al., ArXiv’19]

SLIDE 11

Why inefficient?

SLIDE 12

[Pathak et al. ICML, 2017]

SLIDE 13

current image xt

[Pathak et al. ICML, 2017]

SLIDE 14

current image xt policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

SLIDE 15

current image xt action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

SLIDE 16

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

SLIDE 17

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

SLIDE 18

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

Prediction Model 𝑔(𝑦$, 𝑏$)

SLIDE 19

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

action at

SLIDE 20

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

action at predicted next image * 𝒚𝒖-𝟐

SLIDE 21

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

Intrinsic Reward

action at predicted next image * 𝒚𝒖-𝟐

ri

t

<latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit>

𝑠$

0 =

2 𝑦$-3 − 𝑦$-3

SLIDE 22

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

Intrinsic Reward

action at predicted next image * 𝒚𝒖-𝟐

ri

t

<latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit>

𝑠$

0 =

2 𝑦$-3 − 𝑦$-3

SLIDE 23

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

Intrinsic Reward

action at predicted next image * 𝒚𝒖-𝟐

ri

t

<latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit>

𝑠$

0 =

2 𝑦$-3 − 𝑦$-3

Environment is “black-box” à hard optimization

SLIDE 24

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

Intrinsic Reward

action at predicted next image * 𝒚𝒖-𝟐

ri

t

<latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit>

max

"

𝔽 9

$:3 ;

𝑠$

0 =

2 𝑦$-3 − 𝑦$-3

REINFORCE

SLIDE 25

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

Intrinsic Reward

action at predicted next image * 𝒚𝒖-𝟐

ri

t

<latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit>

max

"

𝔽 9

$:3 ;

𝑠$

0 =

2 𝑦$-3 − 𝑦$-3

REINFORCE

SLIDE 26

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

[Pathak et al. ICML, 2017]

current image xt

Prediction Model 𝑔(𝑦$, 𝑏$)

Intrinsic Reward

action at predicted next image * 𝒚𝒖-𝟐

ri

t

<latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit><latexit sha1_base64="U/ugCliNy2Q03OP4PdzLhjBIxM=">AB63icbVBNS8NAEJ3Ur1q/qh69LBbBU0mKoN4KXjxWMLbQxrLZbtqlm03YnQgl9Dd48aDi1T/kzX/jts1BWx8MPN6bYWZemEph0HW/ndLa+sbmVnm7srO7t39QPTx6MEmGfdZIhPdCanhUijuo0DJO6nmNA4lb4fjm5nfuLaiETd4yTlQUyHSkSCUbSr/v4KPrVmlt35yCrxCtIDQq0+tWv3iBhWcwVMkmN6XpuikFONQom+bTSywxPKRvTIe9aqmjMTZDPj52SM6sMSJRoWwrJXP09kdPYmEkc2s6Y4sgsezPxP6+bYXQV5EKlGXLFouiTBJMyOxzMhCaM5QTSyjTwt5K2IhqytDmU7EheMsvrxK/Ub+ue3cXtWajSKMJ3AK5+DBJThFlrgAwMBz/AKb45yXpx352PRWnKmWP4A+fzB0p7jnw=</latexit>

max

"

𝔽 9

$:3 ;

𝑠$

0 =

2 𝑦$-3 − 𝑦$-3

REINFORCE

SLIDE 27

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

SLIDE 28

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

SLIDE 29

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

SLIDE 30

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑦$-3 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

SLIDE 31

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

SLIDE 32

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

SLIDE 33

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

SLIDE 34

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Intrinsic Reward

SLIDE 35

current image xt next image xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Intrinsic Reward Disagreement

SLIDE 36

Deterministic Environments

performs as well as state-of-the-art methods

SLIDE 37

Deterministic Environments

performs as well as state-of-the-art methods

Reward (not for training)

SLIDE 38

Deterministic Environments

performs as well as state-of-the-art methods

Reward (not for training) Number of Frames (in millions)

SLIDE 39

Deterministic Environments

performs as well as state-of-the-art methods

Reward (not for training) Number of Frames (in millions)

SLIDE 40

Stochastic Environments

SLIDE 41

Stochastic Environments

Every model’s goes to mean à variance drops à unstuck

SLIDE 42

Stochastic Environments

Every model’s goes to mean à variance drops à unstuck

Reward (not for training) Number of Frames (in millions)

: 3D Navigation

w/o TV Noisy TV w/ Remote w/o TV Noisy TV w/ Remote

SLIDE 43

Stochastic Environments

Every model’s goes to mean à variance drops à unstuck

Reward (not for training) Number of Frames (in millions)

: 3D Navigation

w/o TV Noisy TV w/ Remote w/o TV Noisy TV w/ Remote

SLIDE 44

current state xt next state xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Curiosity Reward Disagreement

SLIDE 45

Disagreement

current state xt next state xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Curiosity Reward

SLIDE 46

Disagreement

current state xt next state xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Curiosity Reward

SLIDE 47

Disagreement

current state xt next state xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Curiosity Reward

No dependency on the environment!

SLIDE 48

Disagreement

current state xt next state xt+1 action at policy network

𝜌" 𝑦$

𝑠$

0 = 𝜏

𝑦$-3 𝑛𝑗𝑜 𝑦$ 𝑏$ 𝑔

3

2 𝑦$-3

3

𝑦$-3 − 2 𝑦$-3

3

𝑦$ 𝑏$ 𝑔

<

2 𝑦$-3

<

𝑦$-3 − 2 𝑦$-3

<

𝑦$ 𝑏$ 𝑔

=

2 𝑦$-3

=

𝑦$-3 − 2 𝑦$-3

=

Curiosity Reward

No dependency on the environment!

Differentiable Exploration

SLIDE 49

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

SLIDE 50

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

min

"D,… ,"F 9 0:3 G

𝑔

"H 𝑦$, 𝜌 𝑦$; 𝜄K

− 𝑦$-3 <

Model Optimization

SLIDE 51

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

min

"D,… ,"F 9 0:3 G

𝑔

"H 𝑦$, 𝜌 𝑦$; 𝜄K

− 𝑦$-3 < max

"L

9

0:3 G

𝑔

"H 𝑦$, 𝜌 𝑦$; 𝜄K

− 1 𝑙 9

O:3 G

𝑔

"P 𝑦$, 𝜌 𝑦$; 𝜄K <

Model Optimization Policy Optimization

SLIDE 52

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Differentiable Exploration

SLIDE 53

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Differentiable Exploration

SLIDE 54

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Differentiable Exploration

SLIDE 55

Position Control: 1. Position 2. Direction 3. Gripper Angle 4. Gripper Distance

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

SLIDE 56

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Efficiency over REINFORCE

Object Interaction Rate Training Samples

SLIDE 57

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Efficiency over REINFORCE

Object Interaction Rate Training Samples

SLIDE 58

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Pushing skill Efficiency over REINFORCE

Object Interaction Rate Training Samples

SLIDE 59

Differentiable Exploration

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.

Pushing skill Picking skill Efficiency over REINFORCE

Object Interaction Rate Training Samples

SLIDE 60

SLIDE 61

Summary: Exploration via Disagreement

SLIDE 62

Summary: Exploration via Disagreement

Similar to state-of-the-art in deterministic envs

(Atari games)

SLIDE 63

Summary: Exploration via Disagreement

Similar to state-of-the-art in deterministic envs

(Atari games)

Does not get stuck in stochastic scenarios

(Stochastic Atari; Unity-TV)

SLIDE 64

Summary: Exploration via Disagreement

Similar to state-of-the-art in deterministic envs

(Atari games)

Does not get stuck in stochastic scenarios

(Stochastic Atari; Unity-TV)

Differentiable reformulation for real robots

(Sawyer Robot)

SLIDE 65

Code Available

https://pathak22.github.io/exploration-by-disagreement/

SLIDE 66

Thank you!

Poster # 39 (today)

Pathak*, Gandhi*, Gupta. “Self-Supervised Exploration via Disagreement“. ICML, 2019.