高田圭くん(博士3年)の論文が IEEE Transactions on Games に掲載されました
自律系工学研究室博士後期課程3年の高田圭くんの論文が採録となり掲載されました!
論文の概要は以下のような感じです.
AlphaGo などのポリシー関数が多くのシミュレーションを行った上で,モンテカルロ木探索の探索確率を得るのに対して,ポリシー関数をゲーム結果から直接訓練するような価値関数とポリシー関数を作成する強化学習アルゴリズムを提案したものです.
Piet Heinが開発したボードゲームであるHexを用いて,その有効性を検証し,提案したコンピュータHexアルゴリズムDeepEZOが2017年世界チャンピオンプログラムよりも優れていることを示しています.DeepEZOは、13×13ボード上の同じ検索条件下で、世界チャンピオンプログラムMoHex2.0に対して79.3%の勝率を達成してます.
Kei Takada, Hiroyuki Iizuka, Masahito Yamamoto
Reinforcement Learning to Create Value and Policy Functions using Minimax Tree Search in Hex, IEEE Transactions on Games, DOI: 10.1109/TG.2019.2893343 (2019)
論文へのリンクはこちら
コメントを残す