Learning to Learn without Gradient Descent by Gradient Descent http://proceedings.mlr.press/v70/chen17e.html ブラックボックス最適化器をメタラーニングで学習する話。

Learning to learn by gradient descent by gradient descent https://papers.nips.cc/paper/6461-learning-to-learn-by-gradient-descent-by-gradient-descent がSGDにおける学習率をRNN/LSTMで調整するというものだったのに対して、この論文はブラックボックス最適化を対象に、関数fへの入力値xが出力で、過去のxとf(x)±εの値の履歴を入力とするようなRNN/DNCを学習。

学習時には関数fの勾配を必要とするが推論時には不要。特に入力が高次元な場合で、既存のベイズ最適化のパッケージなどよりも良い結果。