ランダムフォレストとブースティングはパラメトリックですか、ノンパラメトリックですか?


13

優れた統計モデリング:2つの文化(Breiman 2001)を読むことにより、従来の統計モデル(線形回帰など)と機械学習アルゴリズム(バギング、ランダムフォレスト、ブーストツリーなど)のすべての違いを把握できます。

ブライマンはデータモデル(パラメトリック)を批判します。これは、統計が統計学者によって規定された既知の正式なモデルによって観測が生成されるという仮定に基づいているためです。一方、MLアルゴは正式なモデルを想定せず、データから入力変数と出力変数の間の関連付けを直接学習します。

Bagging / RFとBoostingもパラメータの一種であることに気付きました。たとえば、ntree、RFのmtry学習率bag fraction、Stochastic Gradient Boosted ツリーのツリー複雑度はすべてチューニングパラメーターです。また、データを使用してこれらのパラメーターの最適な値を見つけるため、データからこれらのパラメーターを推定することもできます。

それで、違いは何ですか?RFおよびブーストツリーはパラメトリックモデルですか?

回答:


12

パラメトリックモデルにはパラメーター(それらを無効にする)またはデータ分布に関する仮定がありますが、RF、ニューラルネットまたはブースティングツリーにはアルゴリズム自体に関連するパラメーターがありますが、データ分布に関する仮定やデータを理論的分布に分類する必要はありません。実際、ほとんどすべてのアルゴリズムには、最適化に関連する反復やマージン値などのパラメーターがあります。


5
要約すると、1)MLモデルとパラメーターモデルの両方のパラメーターは、データに基づいて調整/推定されますが、2)MLでは、パラメーターはアルゴリズムがデータから学習する方法を制御します(データについての仮定をせずに、データ生成)、パラメトリックモデルのパラメータ(事前に想定されているモデル)していると想定される機構制御に対し生成めったに実際に保持しない非現実的な仮定の多くのデータを()。これは十分な要約だと思いますか?追加/変更しますか?
アントワーヌ

4
ブライマンの論文のすべてを要約した文章は、「アルゴリズムによるモデリングからデータモデルからアルゴリズムの特性へのシフト」だと思います。
アントワーヌ

1
そのように要約できますが、パラメトリックモデルを過小評価しないでください。多くの問題を解決するために、それらが必要かつ最適である状況があります。また、それらの仮定はそれほど非現実的ではありません。多くの理論的分布は、正規分布から二項分布、対数正規分布、幾何学的なものまで、多くのことを説明するのに有効です。それはどちらかではなく、問題を解決する正しい方法を選ぶことです。
D.カストロ

4
同意する。基礎となる物理プロセスがよく知られている場合、パラメトリックモデルが適切です。ブライマンは、基礎となるプロセスが不明な場合、知識の発見と予測にパラメトリックモデルを使用することを批判しています。
アントワーヌ

1

パラメトリックおよびノンパラメトリックの基準はこれだと思います:トレーニングサンプルの数とともにパラメーターの数が増えるかどうか。ロジスティック回帰およびsvmの場合、機能を選択するときに、トレーニングデータを追加してパラメーターを取得することはありません。ただし、RFなどの場合、ツリーの数は変わらなくても、モデルの詳細は(ツリーの深さなど)変わります。


しかし、RFまたはブーストでは、ツリーの深さを増やしてもパラメーターは追加されません。tree.complexityパラメータはまだありますが、値を変更するだけです。また、RFに森/シーケンス内の木の数を後押し変更は、サンプルサイズに応じない
アントワーヌ

私のオプションでは、ツリーの深さが変更されると、ツリー内にさらに分割が行われるため、パラメーターが増えます。データの変更に伴いRFおよびブースティングでツリーの数が変化するが、モデルが線形モデルの場合、これは発生しません。
張裕

1

統計的な意味では、データに基づいてパラメーターが学習または推測される場合、モデルはパラメトリックです。この意味でのツリーはノンパラメトリックです。もちろん、ツリーの深さはアルゴリズムのパラメーターですが、本質的にデータから派生したものではなく、ユーザーが提供する必要がある入力パラメーターです。


したがって、OLSとツリーベースのモデルを非技術的な対象者に提示する必要があるとしましょう。前者はパラメトリックであり、後者は非パラメトリックであると言えますか。
タンガイ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.