タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

5
正則化アルゴリズムを使用している間に、特徴選択を行う必要がありますか?
統計学習アルゴリズムを実行する前に、特徴選択方法(ランダムフォレストの特徴の重要度値または単変量の特徴選択方法など)を使用する必要性に関して1つの質問があります。 重みベクトルに正則化ペナルティを導入することができる過剰適合を避けることがわかっています。 したがって、線形回帰を行いたい場合は、L2またはL1またはElastic net正則化パラメーターを導入できます。スパースソリューションを取得するには、L1ペナルティが機能選択に役立ちます。 その後、LassoなどのL1正則化回帰を実行する前に、機能の選択を行う必要がありますか?技術的には、LassoはL1ペナルティによって機能を削減するのに役立ちます。それでは、なぜアルゴリズムを実行する前に機能を選択する必要があるのですか? Anovaを実行してからSVMを実行すると、SVMを単独で使用するよりもパフォーマンスが向上するという研究記事を読みました。ここで質問です。SVMは本質的にL2ノルムを使用して正則化を行います。マージンを最大化するために、重みベクトルのノルムを最小化しています。そのため、その目的関数で正則化を行っています。それでは、SVMなどの技術的なアルゴリズムは、機能の選択方法に煩わされるべきではありませんか?しかし、レポートでは、通常のSVMがより強力になる前に、単変量の特徴選択を行うといわれています。 考えている人はいますか?


2
LASSO変数の選択後にOLSを実行するのはどういう意味ですか?
最近、応用計量経済学の文献で、特徴選択の問題を扱うとき、選択された変数を使用してLASSOに続いてOLS回帰を実行することは珍しくありません。 このような手順の有効性をどのように認定できるのかと思っていました。省略された変数などのトラブルを引き起こしますか?それがより効率的であることを示す証拠、または結果がより解釈可能ですか? 関連するディスカッションを次に示します。 LASSOを使用した変数選択 Lasso / Randomを使用した変数選択後のツリーの使用 指摘したように、そのような手順が一般的に正しくない場合、なぜそんなに多くの研究がまだあるのですか?LASSO推定器のいくつかの不安な性質と、OLSに対する人々の好みのために、これは単なる経験則、妥協ソリューションであると言えますか?

1
このなげなわプロット(glmnet)の結論
以下は、mtcarsRのデータセットをmpgDVとして、その他を予測子変数として使用して、デフォルトのalpha(1、したがってlasso)を使用したglmnetのプロットです。 glmnet(as.matrix(mtcars[-1]), mtcars[,1]) さまざまな変数、特にam、cylおよびwt(赤、黒、水色の線)に関するこのプロットから何を結論付けることができますか?公開するレポートの出力をどのように表現しますか? 私は次のことを考えました: wtはの最も重要な予測因子ですmpg。に悪影響を及ぼしていmpgます。 cylは弱い負の予測因子ですmpg。 amはの正の予測因子である可能性がありmpgます。 他の変数は、のロバストな予測子ではありませんmpg。 これについてのあなたの考えをありがとう。 (注:cyl非常に近いまで0に到達しない黒い線です。) 編集:以下はplot(mod、xvar = 'lambda')であり、x軸を上記のプロットの逆順に表示します。 (PS:この質問がおもしろい/重要だと思う場合は、賛成してください。)

2
ロジスティック回帰におけるカテゴリカル予測子の重要性
ロジスティック回帰のカテゴリ変数のz値の解釈に問題があります。以下の例では、3つのクラスを持つカテゴリ変数があり、z値に応じて、CLASS2が関連する場合とそうでない場合があります。 しかし、これはどういう意味ですか? 他のクラスを1つにマージできますか? 変数全体が良い予測子ではないかもしれないということですか? これは単なる例であり、ここでの実際のz値は実際の問題からのものではなく、それらの解釈に問題があるだけです。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

2
LASSOには、段階的回帰と同じ問題がありますか?
段階的アルゴリズムの変数選択方法は、回帰モデルのすべての推定値(およびそのSE、p値、F統計量など)に多かれ少なかれバイアスをかけるモデルを選択する傾向があり、ほぼ真の予測子を除外する可能性が高い適度に成熟したシミュレーション文献によると、誤った予測変数を含めます。ββ\beta LASSOは、変数を選択するために使用される場合、同じ特定の方法で影響を受けますか?

2
PCA、LASSO、エラスティックネットの速度、計算費用
Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」(第2版)、第3章: サブセット選択 収縮方法 導出された入力方向を使用する方法(PCR、PLS) 比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。

1
モデル選択のパラドックス(AIC、BIC、説明するか予測するか?)
Galit Shmueliの「説明するか予測するか」(2010年)を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、 AICベースとBICベースのモデル選択(p。300の終わり-p。301の始まり):簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに(上記の論文ではありません)、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです(p。293の終わり)。 単純な算術:AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし)。ln (n )> 2ln(n)>2\text{ln}(n)>2 「真」のモデル(すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数)は、予測のために最良のモデル(P 307)ではないかもしれない:行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。 ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。 質問: ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか? ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか?

4
画像の解像度に基づいて特徴の数を計算する方法は?
ただ、神経Netowrksのアンドリュー・ウの非線形仮説をカバーし、我々は判断するための複数の選択肢の質問持っていた機能の数を解像度の画像のために100×100のgrescale強度を。 答えは5,000万、 x 10 755510710710^7 ただし、50 x 50ピクセルのグレースケール画像の場合は以前のもの。機能の数は50x50(2500)です なぜそれは次のようになり X 10 7の代わりに、10 、000?55510710710^710 、 00010、00010,000 しかし、彼はすべての二次項()を特徴として含めると言っていますバツ私バツjバツ私バツjx_ix_j 100 x 100ピクセルの画像(RGBではなくグレースケール)から車を認識することを学習しているとします。特徴をピクセル強度値とします。すべての二次項()を特徴として含むロジスティック回帰をトレーニングする場合、いくつの特徴がありますか?バツ私バツjバツ私バツjx_ix_j また、100x100に関する以前のスライドでは、2次フィーチャ( x x j)= 300万フィーチャですが、接続に指を置くことはできません。バツ私バツ私x_iバツjバツjx_j

5
cv.glmnetの結果のばらつき
cv.glmnet予測子を見つけるために使用しています。私が使用するセットアップは次のとおりです。 lassoResults&lt;-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda&lt;-lassoResults$lambda.min results&lt;-predict(lassoResults,s=bestlambda,type="coefficients") choicePred&lt;-rownames(results)[which(results !=0)] 作るために必ず結果が再現可能Iですset.seed(1)。結果は大きく変わります。まったく同じコード100を実行して、結果がどの程度変動するかを確認しました。98/100の実行では、1つの特定の予測子が常に選択されていました(時にはそれだけで); 通常は50/100回、他の予測変数が選択されました(係数はゼロ以外)。 だから、クロス検証が実行されるたびに、おそらくフォールドの最初のランダム化が重要であるため、異なる最良のラムダを選択するだろうと私に言います。他の人はこの問題を見ました(CV.glmnet結果)が、提案された解決策はありません。 私はおそらく、98/100を示すものはおそらく他のすべてと非常に高い相関関係があると考えていますか?LOOCV()を実行するだけで結果は安定しますが、\ text {nfold} &lt;nの場合になぜこれらの変数が変動するのか興味があります。fold-size=nfold-size=n\text{fold-size} = nnfold&lt;nnfold&lt;n\text{nfold} < n

3
マルチクラス分類器の構築は、いくつかのバイナリ分類器よりも優れていますか?
URLをカテゴリに分類する必要があります。すべてのURLをゼロにする15のカテゴリがあるとします。 15ウェイ分類器の方が良いですか?15個のラベルがあり、各データポイントの機能を生成します。 または、15種類のバイナリ分類子を作成します。たとえば、映画または非映画で、これらの分類から取得した数値を使用して、ランキングを作成し、最適なカテゴリを選択します。

1
「機能空間」とは何ですか?
「機能空間」の定義は何ですか? たとえば、SVMについて読むとき、「機能空間へのマッピング」について読みます。CARTについて読むとき、「機能空間へのパーティション分割」について読みます。 何が起こっているのか、特にCARTについては理解していますが、見落としている定義があると思います。 「機能空間」の一般的な定義はありますか? SVMカーネルお​​よび/またはCARTについてより多くの洞察を与える定義がありますか?

3
変数選択になげなわを使用した後の推論
比較的低次元の設定(n &gt;&gt; p)でフィーチャの選択にLassoを使用しています。Lassoモデルを近似した後、ペナルティなしでモデルを近似するために、非ゼロ係数の共変量を使用します。ラッソが私に与えることのできない公平な推定値が欲しいので、私はこれをしています。また、不偏推定値のp値と信頼区間も必要です。 このトピックに関する文献を見つけることができません。私が見つけた文献のほとんどは、適合モデルではなく、Lasso推定に信頼区間を置くことに関するものです。 私が読んだことから、データセット全体を使用してモデルを再フィットすると、非現実的に小さなp値/ stdエラーが発生します。現時点では、サンプル分割(Wasserman and Roeder(2014)またはMeinshausen et al。(2009)のスタイル)は適切な対応策のようですが、私はさらに提案を探しています。 誰もこの問題に遭遇しましたか?もしそうなら、いくつかの提案を提供してください。


5
ロジスティック回帰で最も重要な機能を理解する
私はデータに対して非常に正確なロジスティック回帰分類器を作成しました。今、私はなぜそれがとてもうまく機能しているのかをよりよく理解したいと思います。具体的には、どの機能が最大の貢献を果たしているか(どの機能が最も重要か)をランク付けし、理想的には、各機能がモデル全体(またはこのようなもの)の精度にどれだけ貢献しているかを定量化します。どうすればいいですか? 私の最初の考えは、係数に基づいてそれらをランク付けすることでしたが、これは正しくないと思われます。同様に有用な2つの機能がありますが、最初の機能の広がりが2番目の機能の10倍であれば、1番目の機能は2番目の機能よりも低い係数を受け取ると思います。機能の重要性を評価するより合理的な方法はありますか? 機能の小さな変化が結果の確率にどの程度影響するかを理解しようとしているわけではないことに注意してください。むしろ、分類器を正確にするという点で、各機能の重要性を理解しようとしています。また、私の目標は、特徴選択を実行したり、特徴の少ないモデルを構築したりすることではなく、学習したモデルに「説明可能性」を提供することです。したがって、分類子は単なる不透明なブラックボックスではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.