デシジョンツリーとニューラルネットワーク


20

銀行などの金融システムで不正行為を予測および予測するための機械学習構造を実装しています。カード番号、カード名義人名、金額、国など...

どの構造がこの問題に最適かを判断するのに苦労しています。私は決定木の経験がありますが、現在、この種の問題に対してニューラルネットワークの方が良いかどうか疑問に思っています。また、他の方法が最適な場合は、気軽に私に教えてください。

各構造の長所と短所はどれで、どの構造がこの問題に最適でしょうか?

また、この事実についてはわかりませんが、決定木は実行速度の点でニューラルネットワークよりも優れていると思います。このプロジェクトでは速度も重要な要素であるため、これは重要です。

回答:


24

これら2つの間に多くの違いがありますが、実際的には、考慮すべき3つの主なものがあります:速度、解釈可能性、および精度。

決定木

  • トレーニング後はより高速になります(ただし、両方のアルゴリズムは、正確なアルゴリズムとデータの量/次元に応じてゆっくりとトレーニングできます)。これは、デシジョンツリーが本質的に有用ではない入力フィーチャを「破棄」するのに対し、ニューラルネットは前処理ステップとしてフィーチャ選択を行わない限り、それらすべてを使用するためです。
  • モデルが何をしているかを理解することが重要な場合、ツリーは非常に解釈可能です。
  • データの軸に平行な分割であるモデル関数のみが、そうでない場合があります。
  • おそらく、過剰適合を避けるためにツリーを剪定することをお勧めします。

ニューラルネット

  • 遅く(トレーニングと分類の両方)、解釈しにくい。
  • データがストリームに到着した場合、確率的勾配降下法を使用してインクリメンタル更新を実行できます(本質的にバッチ学習アルゴリズムを使用する決定ツリーとは異なります)。
  • より多くの任意の関数(非線形相互作用など)をモデル化できるため、十分なトレーニングデータがあれば、より正確になる可能性があります。しかし、それは同様に過剰適合になりがちです。

両方を実装し、データに対していくつかの実験を実行して、どちらが良いかを確認し、実行時間をベンチマークすることをお勧めします。または、Weka GUI takelitのようなものをデータの代表的なサンプルとともに使用して、両方の方法を試してみることができます。

また、決定木で「バギング」または「ブースト」アルゴリズムを使用すると、精度と精度が向上する一方で、ある程度のシンプルさと速度が維持される場合もあります。しかし、要するに、速度と解釈可能性が本当に重要であれば、おそらく木がどこから始めればよいのでしょう。さもなければ、それは依存し、あなたはするべきいくつかの経験的な調査をするでしょう。


あなたはこれについて少し知っているようですが、この問題に役立つかもしれないベイジアンネットワークや他の機械学習方法の経験はありますか?
トポ

1
私は完全なベイジアンネットワーク、ほとんどは単純なベイズとトピックモデルにあまり気を使いませんでした。詐欺検出の問題に取り組んだことはありませんが、単純なベイズまたはロジスティック回帰はここでも合理的なアプローチかもしれません。
バリ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.