Learning to Trick Robots into Cooperative Behavior Jen Jen Chung - PowerPoint PPT Presentation
Learning to Trick Robots into Cooperative Behavior Jen Jen Chung Autonomous Agents and Distributed Intelligence Lab Oregon State University UAV Package Delivery Increasing interest
Learning to Trick Robots into Cooperative Behavior Jen ¡Jen ¡Chung ¡ ¡ Autonomous ¡Agents ¡and ¡Distributed ¡Intelligence ¡Lab ¡ Oregon ¡State ¡University ¡
UAV Package Delivery Increasing ¡interest ¡in ¡delivery ¡ • drones: ¡UPS, ¡Amazon, ¡etc. ¡ Dense ¡UAV ¡traffic ¡in ¡cluDered ¡ • urban ¡environment ¡ No ¡current ¡framework ¡for ¡large ¡ • scale ¡coordinaIon ¡ Jen Jen Chung | Oregon State University DEMUR 2015 1
A Cross-Section of the Airspace Automated ¡UAV ¡traffic ¡ • management ¡ Challenges: ¡ • – Narrow ¡thoroughfares ¡of ¡ dense ¡traffic ¡ – Heterogeneous ¡UAVs ¡ – Dynamic ¡obstacle ¡landscape ¡ Goals ¡ • – Minimize ¡conflict ¡occurrences ¡ – Avoid ¡cascading ¡effects ¡ – Maintain ¡throughput ¡ 100m Jen Jen Chung | Oregon State University DEMUR 2015 2
Multiagent UAV Traffic Management (UTM) Divide ¡airspace ¡into ¡sectors ¡ • – Assign ¡single ¡UTM ¡agent ¡to ¡ manage ¡each ¡sector ¡ MulIagent ¡team: ¡ • – UTM ¡agents ¡ individually ¡learn ¡ policy ¡for ¡assigning ¡sector ¡ traversal ¡costs ¡ – Reward ¡is ¡total ¡number ¡of ¡ conflicts ¡in ¡ global ¡system ¡ 100m Jen Jen Chung | Oregon State University DEMUR 2015 3
A Hierarchical Approach Sector ¡Agents ¡ Define ¡cost ¡of ¡travel ¡in ¡each ¡sector ¡ according ¡to ¡current ¡UAV ¡density ¡ UAVs ¡ Sector-‑level ¡planner ¡ Plans ¡across ¡sector ¡cost ¡graph ¡ Low-‑level ¡planner ¡ Plans ¡across ¡obstacle ¡map ¡according ¡to ¡ sector ¡traversal ¡plan ¡ Jen Jen Chung | Oregon State University DEMUR 2015 4
UTM Learning Agents Learn ¡the ¡cost ¡of ¡travel ¡to ¡apply ¡ • to ¡UAVs ¡in ¡the ¡sector ¡ • Neural ¡network ¡control ¡ – Inputs: ¡UAV ¡counts ¡in ¡sector ¡ § Separate ¡into ¡traffic ¡types, ¡e.g. ¡ heading, ¡priority, ¡plaTorm ¡etc. ¡ – Outputs: ¡Cost ¡of ¡through-‑sector ¡ travel ¡for ¡each ¡traffic ¡type ¡ • CooperaIve ¡coevoluIon ¡to ¡learn ¡ NN ¡weights ¡ – Fitness ¡value: ¡number ¡of ¡conflicts ¡ Jen Jen Chung | Oregon State University DEMUR 2015 5
Evolutionary Algorithms for Learning Control Policies IniIalize ¡populaIon ¡of ¡ k ¡NNs ¡ Retain ¡ k ¡best ¡performing ¡ Mutate ¡each ¡to ¡create ¡ NNs ¡ total ¡populaIon ¡of ¡2 k ¡NNs ¡ Test ¡each ¡NN ¡and ¡assess ¡fitness ¡ Jen Jen Chung | Oregon State University IROS 2015 6
Cooperative Coevolutionary Algorithms (CCEAs) IniIalize ¡ M ¡populaIons ¡of ¡ k ¡NNs ¡ Retain ¡ k ¡best ¡performing ¡ Mutate ¡each ¡to ¡create ¡M ¡ NNs ¡of ¡each ¡populaIon ¡ populaIons ¡of ¡2 k ¡NNs ¡ Assess ¡team ¡performance ¡and ¡ Randomly ¡select ¡one ¡NN ¡from ¡ assign ¡fitness ¡to ¡team ¡members each ¡populaIon ¡to ¡create ¡team ¡ T i ¡ ¡ Jen Jen Chung | Oregon State University DEMUR 2015 7
Simulation Experiments Urban ¡airspace ¡ • – 256×256 ¡cell ¡map ¡of ¡San ¡ Francisco ¡ – 15 ¡Voronoi ¡parIIons ¡ Fitness ¡calculaIon ¡ • – Linear: ¡no. ¡conflicts ¡at ¡each ¡ cell ¡summed ¡ – QuadraIc: ¡no. ¡conflicts ¡at ¡ each ¡cell ¡squared ¡and ¡ summed ¡ 100m Jen Jen Chung | Oregon State University DEMUR 2015 8
Simulation Experiments Sector ¡agents ¡ • – IniIalized ¡with ¡populaIon ¡of ¡10 ¡NN ¡control ¡policies, ¡10% ¡mutaIon ¡noise ¡ – Inputs: ¡{n N , ¡n S , ¡n E , ¡n W } ¡ – Outputs: ¡{c N , ¡c S , ¡c E , ¡c W } ¡ – Fitness: ¡number ¡of ¡conflicts ¡ UAVs ¡ • – StochasIcally ¡generated ¡from ¡predefined ¡set ¡of ¡start ¡and ¡goal ¡locaIons ¡ – Approximately ¡100 ¡UAVs ¡in ¡airspace ¡during ¡single ¡learning ¡epoch ¡ – A* ¡planning ¡at ¡both ¡sector-‑ ¡and ¡low-‑level ¡ – Conflict ¡radius: ¡2 ¡cells ¡(approx. ¡4m) ¡ Jen Jen Chung | Oregon State University DEMUR 2015 9
Learning Results: Total Conflicts Team ¡performance ¡over ¡ • 100 ¡learning ¡epochs ¡ Averaged ¡over ¡20 ¡trials ¡ • 16% ¡reducIon ¡in ¡total ¡ • system ¡conflicts ¡ Jen Jen Chung | Oregon State University DEMUR 2015 10
Congestion Reduction: Linear Cost Fitness Function Random ¡iniIalized ¡sector ¡costs ¡ Learned ¡sector ¡costs ¡ Jen Jen Chung | Oregon State University DEMUR 2015 11
Congestion Reduction: Quadratic Cost Fitness Function Random ¡iniIalized ¡sector ¡costs ¡ Learned ¡sector ¡costs ¡ Jen Jen Chung | Oregon State University DEMUR 2015 12
Extensions to Sector Agent Control Policies Not ¡all ¡UAVs ¡in ¡the ¡airspace ¡are ¡ • equal ¡ Account ¡for ¡UAV ¡type ¡in ¡NN ¡ • Package ¡ Emergency ¡ inputs ¡and ¡outputs ¡ delivery ¡UAVs ¡ medical ¡UAVs ¡ Weighted ¡ Cross-‑weighted ¡ MulI-‑mind ¡ Jen Jen Chung | Oregon State University DEMUR 2015 13
A Hierarchical Approach Sector ¡Agents ¡ Define ¡cost ¡of ¡travel ¡in ¡each ¡sector ¡ according ¡to ¡current ¡UAV ¡density ¡ UAVs ¡ Sector-‑level ¡planner ¡ Plans ¡across ¡sector ¡cost ¡graph ¡ Low-‑level ¡planner ¡ Plans ¡across ¡obstacle ¡map ¡according ¡to ¡ sector ¡traversal ¡plan ¡ Jen Jen Chung | Oregon State University DEMUR 2015 14
Risk-Aware Graph Search (RAGS) Graph ¡search ¡with ¡uncertain ¡ • edge ¡costs ¡ – Normal ¡distribuIons ¡ Bound ¡path ¡set ¡ • – DominaIon ¡according ¡to ¡ mean ¡and ¡variance ¡ ) ∧ A . σ 2 < B . σ 2 ( ) ( A < B ↔ A . c < B . c 100m Jen Jen Chung | Oregon State University DEMUR 2015 15
RAGS Path Execution A 3 ~ ! µ A m , σ A m ( ) 2 A 2 A A 1 c A 0 Start Goal B 1 c B 0 B 2 B B 3 ~ ! µ B n , σ B n ( ) 2 B 4 The ¡probability ¡that ¡traveling ¡via ¡B ¡ ¡ will ¡yield ¡a ¡cheaper ¡path ¡than ¡traveling ¡via ¡A ¡ m ∞ ( ) ∑ ⋅ 1 − P c B i > x , ∀ i ∈ 1, ! , n ( ) dx ∫ P c A i = x ; c A j > x , ∀ j ≠ i { } −∞ i = 1 Jen Jen Chung | Oregon State University DEMUR 2015 16
RAGS vs. Existing Planning Algorithms TesIng ¡on ¡graph ¡with ¡100 ¡verIces ¡ • – 3 ¡sets ¡of ¡edge ¡cost ¡distribuIons ¡ ε ~ ! µ , σ 2 ( ) Edge cost = Euclidean distance + ε , [ ] µ ∈ 0,100 σ 2 ∈ 0, σ max " $ 2 2 % , = 5,10,20 { } σ max # Compared ¡against ¡ • – Naïve ¡A* ¡on ¡the ¡mean ¡ – Greedy ¡on ¡bounded ¡path ¡set ¡ – D* ¡ Jen Jen Chung | Oregon State University DEMUR 2015 17
RAGS vs. Existing Planning Algorithms σ 2 ∈ 0,5 σ 2 ∈ 0,10 σ 2 ∈ 0,20 ( ) ( ) ( ) Jen Jen Chung | Oregon State University DEMUR 2015 18
RAGS Integration with UTM Agents 100m Jen Jen Chung | Oregon State University DEMUR 2015 19
Comparison of A* and RAGS UAVs ¡planning ¡with ¡A* ¡ UAVs ¡planning ¡with ¡RAGS ¡ Jen Jen Chung | Oregon State University DEMUR 2015 20
Conclusions and Future Work Implicit ¡cooperaIon ¡by ¡learning ¡individual ¡control ¡policies ¡trained ¡on ¡ • global ¡reward ¡structures ¡ Risk-‑aware ¡graph ¡search ¡accounts ¡for ¡modeled ¡uncertainIes ¡in ¡the ¡ • environment ¡ IniIal ¡integraIon ¡of ¡high ¡and ¡low-‑level ¡decision ¡making ¡shows ¡faster ¡ • learning ¡rates ¡ Future ¡work ¡ • – Reward ¡shaping ¡to ¡improve ¡UTM ¡agent ¡policies ¡ – TheoreIcal ¡guarantees ¡of ¡RAGS ¡ – ValidaIon ¡and ¡verificaIon ¡ Jen Jen Chung | Oregon State University DEMUR 2015 21
Acknowledgements Professors ¡ Graduate ¡Students ¡ Undergrads ¡ Interns ¡ Jen Jen Chung | Oregon State University DEMUR 2015 22
Recommend
More recommend
Explore More Topics
Stay informed with curated content and fresh updates.