Process Mining: Data science in Action https://www.coursera.org/course/procmin の第1週の講義とクイズ終わった。ペトリネットの検証とかを昔やっていたこともあるので、ビジネスプロセスの話とかは懐かしい感じ。第1週は、まずはプロセスマイニングの全体像と、通常のデータマイニングとの関係。
古典的なデータ分析がプロセス全体を見ないのに対して、プロセスマイニングでは、古典的なデータ分析と古典的なプロセス分析を橋渡しし、end-to-endのプロセスを改善する。イベントデータとプロセスモデルの3種類の関係として Play in, Play out, Replay がある。Play-outはモデルからのビヘイビア(例えばトレース)の生成、Play-inはイベントデータからのプロセスモデルの生成(=学習)、Replayはイベントデータをプロセスモデル上でリプレイすることで両者の比較や分析をするというもの(conformanceだけでなくperformanceの点などでも)。
データマイニングに関しては、教師付き学習と教師なし学習みたいな一般的な話と、決定木の学習、相関ルールマイニング、クラスタリング、評価(precision, recall, F-score, クロスバリデーションなど)の話。データ分析系のコースをとるのは初めてではないので、まあ馴染み深い話ではある。 普通のデータマイニングに関しては、ツールとしてRapidMiner https://rapidminer.com/ を使っていて、これは使ったことがなかったので、ちょっと気になる。
#procmin