優れた統計モデリング:2つの文化(Breiman 2001)を読むことにより、従来の統計モデル(線形回帰など)と機械学習アルゴリズム(バギング、ランダムフォレスト、ブーストツリーなど)のすべての違いを把握できます。
ブライマンはデータモデル(パラメトリック)を批判します。これは、統計が統計学者によって規定された既知の正式なモデルによって観測が生成されるという仮定に基づいているためです。一方、MLアルゴは正式なモデルを想定せず、データから入力変数と出力変数の間の関連付けを直接学習します。
Bagging / RFとBoostingもパラメータの一種であることに気付きました。たとえば、ntree、RFのmtry、学習率、bag fraction、Stochastic Gradient Boosted ツリーのツリー複雑度はすべてチューニングパラメーターです。また、データを使用してこれらのパラメーターの最適な値を見つけるため、データからこれらのパラメーターを推定することもできます。
それで、違いは何ですか?RFおよびブーストツリーはパラメトリックモデルですか?