回帰木の末端ノードにおけるGLMの利点?


8

そのため、データから回帰ツリーを成長させて枝刈りし、ツリーのターミナルノードにGLMを適合させるアルゴリズムを書くというアイデアを試しています。私はアイデアを読み上げようとしてきましたが、テクニックの一貫した名前を見つけることができないようです。私はそれをハイブリッド回帰ツリー(HRT)、モデルツリー、および機能ツリーとして読みました。これらの用語での検索はほとんどありません。

これに別の名前がないのですか?これの有効性に関する研究はどこにありますか?

回答:


11

あなたが言うように、このアイデアは以前に(異なる名前でではあるが)探究されており、実際にはそのトピックに関する幅広い文献があります。この一連の仕事に関連する名前は、Wei-Yin Loh、Probal Chaudhuri、Hongshik Ahn、Joao Gama、Antonio Ciampi、またはAchim Zeileisです。この論文では、賛否両論とさまざまなアルゴリズム(やや時代遅れ)のかなり包括的な説明を見つけることができます。

GLMを使用したツリーには、次の(dis-)利点があります(ここから言い換えると、グーグルすることでプレプリントを簡単に見つけることができます)。

  • GLMの関数形式は、モデルがサブサンプルにうまく収まる場合でも、データセット全体に対して厳しすぎるように見える場合があります。

  • 特に、大規模なデータセットや、基礎となるプロセスに関する知識が限られているデータセットでは、有用なパラメトリックモデルの設定が難しく、予測に関するパフォーマンスが十分でない場合があります。

  • ツリーは、非線形の関係を組み込んだり、機能的な関係を自分で見つけたりすることができるため、クラシックモデルが偏っている、または失敗するような設定において、より高い予測力を持つことができます。

  • GLMを使用したツリーは、その探索的特性により、GLMでモデル化されたデータ内に隠されたパターンを明らかにしたり、他の共変量からの追加情報を組み込んだりして、驚くべきまたは直観に反する結果をさらに説明したりできます。

  • これらは、アプリオリに想定されたモデルが適切に適合するデータのセグメントを識別するのに役立ちます。全体的にこのモデルの適合性は低いかもしれませんが、これはいくつかの汚染が原因である可能性があります(たとえば、2つの個別のデータファイルのマージまたは特定の日付のデータ収集中の系統的エラー)GLMを使用したツリーは、適合度が低いセグメントを見つけ、適合度がかなり良いセグメントを見つけることができるようにデータを分割する場合があります。

  • ツリー状の構造により、これらの共変量の効果は、リンクされた平均への影響が線形であると仮定するのとは対照的に、非線形かつ高度にインタラクティブにすることができます。

  • GLMを使用したツリーは、特に基礎となるメカニズムが複雑すぎてGLMでキャプチャできない場合は、アプリオリに想定されたパラメトリックモデルをさらに洞察する可能性があります。

  • GLMを使用したツリーは、相互作用、非線形性、モデルの誤指定、無視された共変量の影響などを自動的に検出できます。

  • 複雑で大規模なデータセットの探索ツールとして使用でき、多くの利点があります。

  • グローバルGLMと比較して、GLMモデルツリーはバイアスの問題とモデルの誤指定を軽減し、より適切な適合を提供できます。

  • 定数を使用するツリーアルゴリズムと比較して、ターミナルノードでパラメトリックモデルを指定すると、安定性が高まるため、ツリーメソッドの分散を減らすことができます。

  • ツリーと従来のGLMタイプモデルのハイブリッドであるため、パフォーマンスは通常これら2つの極の間にあります。これらは、従来のモデルより高い予測力を示す傾向がありますが、ノンパラメトリックツリーよりは劣ります。

  • 分割プロセスのため、従来のモデルに比べて複雑さが増しますが、通常、ノンパラメトリックツリーよりも節約されます。

  • それらは、ブートストラップ実験のグローバルモデルよりも高い予測分散を示しますが、ノンパラメトリックツリー(剪定されたものでさえ)よりははるかに小さいです。

  • ツリーのノードでGLMを使用すると、通常、ツリーが小さくなります

  • ツリーのノードでGLMを使用すると、定数のみのツリーと比較して、より安定した予測が得られます(ただし、ツリーのバギングやフォレストほど安定していません)。

  • ノードにGLMが含まれるツリーのVCディメンションは、定数のみを持つ同等のツリーよりも高い(後者は前者の特殊なケースであるため)

GLMを使用したツリーの「有効性」(私はあなたが予測性能を意味すると思います)に関して、上記の2つのリンクで引用されたほとんどの論文は、それについてある程度の調査を提供しています。ただし、すべてのアルゴリズムと標準的なツリーのような競合他社との包括的で幅広い比較は、私の知る限りでは行われていません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.