RandomForestClassifierの使い方
公式ドキュメント
パラメータ
- DecisionTreeのアンサンブル学習なので多くはDecisionTreeと同じ。こちらを参照
特有のパラメータ
- n_estimators
- bootstrap
- oob_score
- n_jobs
- verbose
- warm_start(調査中)
パラメータを変えて様子をみる。
n_estimators
- 他のパラメータはデフォルトのまま。つまり、汎化能力は低いdecision treeの組み合わになる。
- AUCの推移
- estimatorの数が1のときに比べ、数個のestimatorを加えるだけでかなり精度が上がっている。
bootstrap
- ツリー構築時に学習データからbootstrapをするかのフラグ。bootstrapをすることで性能が向上する。相関が減るからだっけ?(確認中)
- AUCの推移
- 赤がTrue、青がFalse
verbose
- 途中のツリー構築処理のログを出力してくれる。
(prop.get_family(), self.defaultFamily[fontext])) [Parallel(n_jobs=1)]: Done 10 out of 10 | elapsed: 0.0s finished [Parallel(n_jobs=1)]: Done 10 out of 10 | elapsed: 0.0s finished [Parallel(n_jobs=1)]: Done 10 out of 10 | elapsed: 0.0s finished