RandomForestClassifierの使い方

公式ドキュメント

パラメータ

  • DecisionTreeのアンサンブル学習なので多くはDecisionTreeと同じ。こちらを参照

    特有のパラメータ

  • n_estimators
  • bootstrap
  • oob_score
  • n_jobs
  • verbose
  • warm_start(調査中)

パラメータを変えて様子をみる。

n_estimators

  • 他のパラメータはデフォルトのまま。つまり、汎化能力は低いdecision treeの組み合わになる。
  • AUCの推移 f:id:nsb248:20170224185532p:plain
  • estimatorの数が1のときに比べ、数個のestimatorを加えるだけでかなり精度が上がっている。

bootstrap

  • ツリー構築時に学習データからbootstrapをするかのフラグ。bootstrapをすることで性能が向上する。相関が減るからだっけ?(確認中)
  • AUCの推移
    • 赤がTrue、青がFalse f:id:nsb248:20170224192550p:plain

verbose

  • 途中のツリー構築処理のログを出力してくれる。
  (prop.get_family(), self.defaultFamily[fontext]))
[Parallel(n_jobs=1)]: Done  10 out of  10 | elapsed:    0.0s finished
[Parallel(n_jobs=1)]: Done  10 out of  10 | elapsed:    0.0s finished
[Parallel(n_jobs=1)]: Done  10 out of  10 | elapsed:    0.0s finished