さまざまな重要度のランキング(すべての種類の多変量モデルのコンテキスト)に関しては、私はややニヒリストになりました。
多くの場合、作業の過程で、他のチームが可変重要度ランキングを作成するのを支援するか、自分の作業から可変重要度ランキングを作成するように依頼されます。これらのリクエストに応えて、私は次の質問をします
この変数の重要度ランキングは何にしたいですか?それから何を学びたいですか?それを使用してどのような決定をしたいですか?
私が受け取る答えはほとんどの場合、2つのカテゴリーのいずれかに分類されます。
- 応答を予測する上で、モデル内のさまざまな変数の重要性を知りたいと思います。
- 重要度の低い変数を削除して、機能の選択に使用したいと思います。
最初の応答はトートロジーです(変数の重要度ランキングが必要なため、変数の重要度ランキングが必要です)。多変量モデルの出力を使用する場合、これらのランキングは心理的なニーズを満たすと仮定する必要があります。変数「重要度」を個別にランク付けすると、問題のモデルの多次元の性質が暗黙的に拒否されるように見えるため、これを理解するのは困難です。
2番目の応答は、基本的に後方選択の非公式バージョンに還元され、その統計的な罪はCrossValidatedの他の部分で十分に文書化されています。
また、重要度ランキングの不明確な性質と格闘しています。ランキングがどのような基礎概念を測定すべきかについてはほとんど合意がないようで、非常にアドホックな風味を与えています。重要度スコアまたはランキングを割り当てるには多くの方法があり、一般に欠点と注意事項があります。
- ランダムフォレストおよびgbmsの重要度ランキングのように、アルゴリズムに大きく依存する場合があります。
- それらは非常に大きな分散を持ち、基礎となるデータへの摂動で劇的に変化します。
- それらは、入力予測子の相関の影響を大きく受ける可能性があります。
だから、私の質問は、変数重要度ランキングの統計的に有効な使用法は何ですか、またはそのような欲望の無益さに対する説得力のある議論(統計学者または素人に対する)は何ですか?私は、一般的な理論的議論とケーススタディの両方に興味があります。
glmnet
利用できるのにそうするのでしょうか?