複数エージェント間の協調行動創発

 
 
協調行動を行うことのできるAIの開発は現実世界でのロボットと人間のインタラクションの形成などへの応用が期待されています。しかし協調相手の意図を明示的に知ることは困難であるため、どのような行動が協調行動となるかは明白ではありません。
そこで我々の研究では、行動の良し悪しを定義する必要のない強化学習を用いることで協調行動の獲得を行います。下の動画ではボンバーマンというゲームをもとにした環境において、協調相手と同時に敵に爆風を当てるという協調行動を行う様子を示しています。敵に近い方のエージェントが、遠い方のエージェントが十分に近づくのを待ってから爆弾を置くことで、同時に敵に爆風を当てることが可能となっています。
 
 


 
 

上の動画では、協調相手は固定されたプレイスタイルのもとで行動決定を行うため、協調相手の意図を汲み取るのは難しいことではありません。しかし、協調相手がどのようなプレイスタイルかわからない場合は途端に困難になります。我々の研究では、過去の情報から協調相手のプレイスタイルを推測することで、協調相手のプレイスタイルに応じた協調行動を獲得を行います。下の動画では協調相手のプレイスタイルに応じた協調行動を行う様子を示しています。
 
 


 

左が攻撃的なプレイスタイルとの協調、右が守備的なプレイスタイルとの協調の様子です。守備的なプレイスタイルは設置されている爆弾の周囲に近づかない傾向があるため、守備的なプレスタイルと協調を行う際のエージェントは協調相手が爆弾を置くのを待ってから自身が爆弾を置くという振る舞いを見せます。