DecisionTreeClassifierの限界

これまで

限界を探る。

関係のないデータを混ぜる。

  • x2というデータを入れる。
  • targetはx2に全く依存していない。

    結果

  • accuracy: 0.810
  • std: 0.100
  • 分岐ツリー f:id:nsb248:20170224174722p:plain
  • 重要度
{'x2': 0.24604190914667379, 'x1': 0.45724873019357137, 'x0': 0.29670936065975489}
  • かなり精度が悪化した。
  • 関係ないはずのx2の重要度が0.25もある。

データを45度回転させる。

結果

  • accuracy: 0.835
  • std: 0.037
  • 分類 f:id:nsb248:20170224180953p:plain
  • 分岐ツリー f:id:nsb248:20170224181001p:plain
  • 多少ではあるが精度が悪化している。
  • 分類結果を見ると境界が直線であってほしいにも関わらず、階段状になってしまう。理論上仕方ないが。