SLIDE 9 CS885 Spring 2020 Pascal Poupart 9
GAIL Pseudocode
Input: expert trajectories ๐$ โผ ๐$%&$'( where ๐$ = ๐ก), ๐), ๐ก*, ๐*, โฆ Initialize params ๐ of policy ๐! and params ๐ฅ of discriminator ๐" Repeat until stopping criterion Update discriminator parameters: ๐" = โ +,- โ /! โ0 log ๐"(๐ก, ๐) + โ+,-โผ2"(-|+) โ" log(1 โ ๐"(๐ก, ๐)) ๐ฅ โ ๐ฅ + ๐ฝ"๐" Update policy parameters with TRPO: ๐ท๐๐ก๐ข(๐ก6, ๐6) = โ+,-|+#,-#,2" log(1 โ ๐"(๐ก, ๐)) ๐! = โ+,-|2" โ! log ๐! ๐ ๐ก ๐ท๐๐ก๐ข ๐ก, ๐ โ ๐โ!๐ผ(๐!) ๐ โ ๐ โ ๐ฝ!๐!
University of Waterloo