ニューラルネットの学習で forward mode AD よりも reverse mode AD (back propagation) の方を使うのは何故かと思ったら Wikipedia に書いてあった。
「勾配を求める場合に必要なボトムアップ型自動微分の実行回数は入力変数の個数と等しく、トップダウン型自動微分では出力変数の個数に等しい。そのため、微分する関数f : ℝn → ℝm が m ≫ n を満たす場合、ボトムアップ型自動微分はトップダウン型自動微分よりも効率的である」
https://ja.wikipedia.org/wiki/%E8%87%AA%E5%8B%95%E5%BE%AE%E5%88%86
なるほど。