生態系ダイナミクスで一番当たりが出やすいスロットマシンを見つける 〜生物の種間競争と強化学習(意思決定問題)〜

機械学習における強化学習の初歩的な問題として多腕バンディット問題 (multi-armed bandit problem) があります。これは,複数の選択肢から最も良い報酬がえられるものを選び取る意思決定の問題です。ただし,報酬はパチンコ台やスロットマシンのように当たり外れがあるので,ある程度繰り返しプレイして良し悪しを見極める必要があります。しかし,色々な台をまんべなく探索して最良の台を探していると,探索のコストが高くつ過ぎます。逆に,早めに当たりをつけた台に集中して投資すると,最良の台を見逃してしまうかもしれません。
機械物理研究室(砂田・新山グループ)では,このような意思決定問題における新たな最良選択肢の探索アルゴリズムを提案しています。このアルゴリズムは,選択肢が多くなった場合にも探索時間が長くならないという特徴をもつほか,そのアルゴリズムが生物種間競争と同じメカニズムで最適解を探索していることを明らかにしました。ここでいう生物種間競争とは,シマウマとキリンが同じ草を取り合っているような状況で,環境に有利な生物が覇権を握る(例えば,首の長いキリンは草を食べるのに苦労するのでシマウマが覇権を握る)といったものです。
この研究結果は,Journal of the Physical Society of Japan 誌に掲載されました。 (https://journals.jps.jp/doi/full/10.7566/JPSJ.89.014801, https://arxiv.org/abs/1907.12399)