Masahiro Sakai
-
2017-02-02T02:16:53+0000
- 更新日時:
2017-02-02T02:16:53+0000
chainerMNによる分散学習
https://youtu.be/wPr-yuJjvFQ
観てる。
共有中: 一般公開
Masahiro Sakai
-
2017-02-02T14:22:47+0000
「GPU増やして精度が少し下がっているのは、バッチサイズが大きくなる分イテレーション回数が減るのと、SGDでの勾配の分散が小さくなって悪い局所解にハマりやすくなるから」という話とか、それを補償するために「バッチサイズに比例した学習率を使うと良い」という話が面白かった。
それと、各GPU毎に1プロセスにしている諸事情とか、集団通信アルゴリズムの話とか、ちょっと気になった。
あと、TensorFlowは分散学習を有効にすると、パラメータサーバとの通信の関係で、1GPUでも遅くなるとか。
それと、各GPU毎に1プロセスにしている諸事情とか、集団通信アルゴリズムの話とか、ちょっと気になった。
あと、TensorFlowは分散学習を有効にすると、パラメータサーバとの通信の関係で、1GPUでも遅くなるとか。