Deep Latent Space における汎用プランニング: 記号を取り戻せ!!
https://kaigi.org/jsai/webprogram/2017/paper-859.html
状態やアクションなどを明示的に定義せず、画像だけ与えてプランニング問題を解きたいという話。 画像から Gumbel-Softmax を用いたVAEで状態の表現を学習、アクション前後の画像の組をエンコードしたものからアクションを生成して、汎用プランナで解かせる。

実験では、
* MNIST 8-puzzle
* Scrambled Photograph 8-puzzle
* LightsOut
* TwistedLightsOut
などを解かせている。

論文にも書かれているけれど、アクションの学習については色々やる余地がありそう。