CARTモデルを作成するrpart()ルーチンで、ツリーをプルーニングする複雑度パラメーターを指定します。複雑度パラメーターを選択するための2つの異なる推奨事項を見てきました。
可能な最小相互検証エラーに関連付けられた複雑度パラメーターを選択します。この方法は、Quick-RおよびHSAURで推奨されています。
推定交差検定誤差が、最小可能交差検定誤差のSE内にある最大の複雑度パラメーターを選択します。これは、このプロットを参照して、「プルーニング用のcpの適切な選択は、平均が水平線より下にある最も左の値であることが多い」というパッケージドキュメントの解釈です。
cpの2つの選択により、データセット内でまったく異なるツリーが生成されます。
最初の方法は常に、より複雑な、潜在的にオーバーフィットしたツリーを生成するようです。他の長所、短所、文献の推奨事項などはありますか。どの方法を使用するかを決める際に考慮する必要がありますか?特定のモデリング問題が役立つ場合は、それに関する詳細情報を提供できますが、この質問を他の人に関連するように十分に広くしようとしています。
party
有意性テストを使用するパッケージです(通常はお勧めしませんが、ここでは関連しているようです)。ただし、いつものように、最良のテストは有用性と感覚です。これは、主に説明に興味がある場合に特に当てはまります。