他の投稿から、ラッソーモデルに入る予測変数に「重要度」または「重要度」を帰属させることはできないと述べました。これらの変数のp値または標準偏差の計算はまだ進行中であるためです。
その推論の下で、投げ縄モデルから除外された変数は「無関係」または「重要ではない」とは言えないと断言するのは正しいですか?
もしそうなら、ラッソーモデルに除外または含まれている変数について実際に何を主張できますか?私の特定のケースでは、ランダム値を減らし、エラー曲線を平均化するために、10倍の交差検証を100回繰り返すことにより、調整パラメーターlambdaを選択しました。
UPDATE1:以下の提案に従い、ブートストラップサンプルを使用して投げ縄を再実行しました。100個のサンプルを試してみました(その量は私のコンピューターの電源で一晩で管理できる量でした)と、いくつかのパターンが現れました。41の変数のうち2つがモデルに95%以上入り、3つの変数が90%を超え、5つの変数が85%を超えました。これらの5つの変数は、元のサンプルで実行したときにモデルに入力された9つの変数の1つであり、そのとき係数値が最も高かったものです。1000のブートストラップサンプルを使用してLassoを実行し、それらのパターンが維持されている場合、私の結果を提示する最良の方法は何ですか?
1000のブートストラップサンプルで十分ですか?(私のサンプルサイズは116です)
すべての変数とそれらがモデルに入力される頻度をリストし、より頻繁に入力される変数が有意である可能性が高いと主張する必要がありますか?
それは私の主張でできる限りですか?仕掛品ですので(上記参照)カットオフ値は使えませんよね?
UPDATE2:以下の提案に従って、私は以下を計算しました。平均して、元のモデルの変数の78%が100のブートストラップサンプルに対して生成されたモデルに入りました。一方、その逆では41%に過ぎません。これは、ブートストラップサンプル用に生成されたモデルには、元のモデル(9)よりもはるかに多くの変数(平均17)が含まれる傾向があるという事実に大きく関係しています。
UPDATE3:ブートストラップとモンテカルロシミュレーションから得た結果の解釈を手伝っていただけるなら、この他の投稿をご覧ください。