タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

2
ベイジアン階層型一般化線形モデルでの特徴選択
私は階層的なGLMを推定しようとしていますが、どの共変量を母集団レベルで含めるかを決定するための機能を選択しています。 観測値と可能な共変量を持つグループがあるとします。つまり、共変量\ boldsymbol {x} _ {(N \ cdot G)\ times K}、結果\ boldsymbol {y} _ {(N \ cdot G)\ times 1}。これらの共変量の係数は\ beta_ {K \ times 1}です。GGGNNNKKKx(N⋅G)×Kx(N⋅G)×K\boldsymbol{x}_{(N\cdot G) \times K}y(N⋅G)×1y(N⋅G)×1\boldsymbol{y}_{(N\cdot G) \times 1}βK×1βK×1\beta_{K \times 1} 仮定YYY〜Bernoulli(p(x,β))Bernoulli(p(x,β))Bernoulli(p(x,\beta)) 以下は、ロジットサンプリングモデルと正規分布グループ係数を使用した標準的な階層型ベイジアンGLMです。 L(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,tL(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,t{\cal L}\left(\boldsymbol{y}|\boldsymbol{x},\beta_{1},...\beta_{G}\right)\propto\prod_{g=1}^{G}\prod_{t=1}^{N}\left(\Pr\{j=1|p_{t},\beta^{g}\}\right)^{y_{g,t}}\left(1-\Pr\{j=1|p_{t},\beta^{g}\}\right)^{1-y_{g,t}} β1,...βG|μ,Σ∼iidNd(μ,Σ)β1,...βG|μ,Σ∼iidNd(μ,Σ)\beta_{1},...\beta_{G}|\mu,\Sigma\sim^{iid}{\cal N}_{d}\left(\mu,\Sigma\right) μ|Σ∼N(μ0,a−1Σ)μ|Σ∼N(μ0,a−1Σ)\mu|\Sigma\sim{\cal N}\left(\mu_{0},a^{-1}\Sigma\right) Σ∼IW(v0,V−10)Σ∼IW(v0,V0−1)\Sigma\sim{\cal IW}\left(v_{0},V_{0}^{-1}\right) \ betaの次元数に(LASSOのように)鋭い特徴選択があるように、このモデルを変更(またはそれを実行するか、それを説明する作業を見つける)したいと思いββ\betaます。 (1)最も単純な最も直接的な方法は、母集団レベルでこれを正則化して、の次元数を本質的に制限し、すべてのが同じ次元になるようにすることです。μμ\muββ\beta (2)より微妙なモデルでは、グループレベルで収縮が発生し、次元は階層単位に依存します。ββ\beta 1と2を解くことに興味がありますが、もっと重要なのは1です。

1
グループエラスティックネット
なげなわとエラスティックネットは3つ以上のカテゴリを持つ変数を処理できないため、これらの方法を適用するには、カテゴリ変数をダミーに分割する必要があります。これにより、いくつかの問題が発生する可能性があるため、グループlassoまたはスパースグループlassoへのlassoの拡張が存在します。 ただし、このような拡張機能がエラスティックネットにも存在するかどうか疑問に思っています。残念ながら、このトピックに関する統計資料は見つかりませんでした。 質問:グループエラスティックネットは存在しますか?

1
LDAによって生成されたトピックワードを使用してドキュメントを表す
各ドキュメントを一連の機能として表すことにより、ドキュメントの分類を行いたいと思います。私は多くの方法があることを知っています:BOW、TFIDF、... Latent Dirichlet Allocation(LDA)を使用して、各単一ドキュメントのトピックキーワードを抽出したいと考えています。ドキュメントはこれらのトピックワードで表されます。しかし、私の意見では、LDAは通常、A BUNCH OFドキュメントによって共有されるトピックの単語を抽出するために使用されるため、それが妥当かどうかはわかりません。 LDAを使用して、単一のドキュメントのトピックを検出できますか?

3
Borutaの機能選択(Rで)では、変数間の相関関係が考慮されますか?
私はRと機能選択の初心者で、Borutaパッケージで変数の数(n = 40)を選択(減少)しようとしました。この方法は変数間の可能な相関も考慮に入れていると思いましたが、2つ(選択した20変数のうち)は高度に相関しており、他の2つは完全に相関しています。これは正常ですか?Borutaメソッドは、2つのうちの1つを重要でないと分類すべきではありませんか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

6
機能選択と交差検証に同じデータを使用しているか、偏っているか?
最適なフィーチャサブセットを選択した後にバイナリ分類器を構築する小さなデータセット(約250サンプル* 100フィーチャ)があります。データを次のように分割するとします。 トレーニング、検証、テスト 特徴選択については、分類子X、Y、Zのパフォーマンスを個別に最適化する特徴の選択に基づくラッパーモデルを適用します。この前処理ステップでは、分類器をトレーニングするためのトレーニングデータと、すべての候補フィーチャサブセットを評価するための検証データを使用します。 最後に、さまざまな分類子(X、Y、Z)を比較します。もちろん、データのテスト部分を使用して、公正な比較と評価を行うことができます。ただし、私の場合、テストデータは非常に小さく(約10から20サンプル)、モデルの評価に相互検証を適用します。 正と負の例の分布は非常に不均衡です(約8:2)。したがって、交差検証では、パフォーマンスの評価に失敗する可能性があります。これを克服するために、2番目の比較方法としてテスト部分(10〜20サンプル)を用意し、相互検証を検証する予定です。 まとめると、トレーニング、検証、テストにデータを分割しています。トレーニングおよび検証パーツは、機能の選択に使用されます。次に、同じデータに対する交差検証を適用してモデルを推定します。最後に、テストを使用して、データの不均衡を考慮した相互検証を検証します。 問題は、分類器X、Y、Zのパフォーマンスを最適化する機能の選択に使用したのと同じデータ(トレーニング+検証)を使用する場合、特徴選択に使用した同じデータ(トレーニング+検証)に交差検証を適用できるかどうかです。最終的なパフォーマンスを測定し、分類子を比較するには? この設定が偏りのある相互検証メジャーにつながり、正当化されない比較になるかどうかはわかりません。

3
特徴選択の相互検証を使用した徹底的な検索を実行できますか?
機能の選択と相互検証に関するいくつかの投稿を読んでいますが、正しい手順についてまだ質問があります。 10個の特徴を持つデータセットがあり、最良の特徴を選択したいとします。また、最近傍分類器を使用しているとします。交差検証を使用して徹底的な検索を実行し、最良の機能を選択するためのガイドとしてエラー率を推定できますか?次の疑似コードのようなもの for i=1:( 2^10 -1) error(i)= crossval(1-nn, selected_fetures(i)) end i=find(erro(i)==min(error(i)); selected_fetures= selected_features(i); この疑似コードで説明しようとしているのは、機能のすべての可能な組み合わせに対して相互検証を実行し、エラーが最小になる組み合わせを選択することです。 全数探索を行っているので、この手順は正しいと思います。機能の選択は、データセット全体ではなく、各パーティションの平均誤差に基づいていました。そのような特徴選択でモデルを過剰適合させていますか?

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

1
スパース線形回帰0ノルムと1ノルム
応答と予測子Y∈RnY∈RnY \in \Bbb R^nX=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} 私たちが解決したい問題は argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 ただし、これはNPハードであるため、代わりに\ text {argmin} _ {k \ in \ Bbb R ^ {m}}を解き argmink∈Rm(∥Y−Xk∥22+λ∥k∥1)→k1argmink∈Rm(‖Y−Xk‖22+λ‖k‖1)→k1\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - …

1
機械学習と欠落データ:インピュート、そうであればいつ?
私は通常、物事の効果推定/因果推論の側面に重点を置いています。そこでは、データが欠落している場合の複数の代入にかなり慣れていますが、今は機械学習の側面にあるプロジェクトに取り組んでいます。 我々は持っている期待しているいくつかのそれは現実世界の医療データ、常にいますので、データの欠落を。 一部の協力者の傾向は、完全なデータを持つ被験者のみが使用される完全なケースタイプ分析を使用することですが、これらの欠落したデータパターンが影響を与える可能性があると感じるため、これは少し緊張します。 機械学習タスクの「ベストプラクティス」は、何らかの形の代入を使用することですか?もしそうなら、これは特徴選択の前に行われるべきですか?

1
PCAで、2つの母集団の分離を最大化するために変数を削除する体系的な方法はありますか?
私は主成分分析を使用して、新しいデータポイントがどの母集団( "Aurignacian"または "Gravettian")からのものであるかを確信を持って推測できるかどうかを調査しています。データポイントは28の変数で記述され、そのほとんどは考古学上の人工物の相対的な頻度です。残りの変数は、他の変数の比率として計算されます。 すべての変数を使用して、母集団は部分的に分離されます(サブプロット(a))が、それらの分布にはまだ重複があります(90%のt分布予測楕円、母集団の正規分布を想定できるかどうかはわかりません)。したがって、新しいデータポイントの起源を確信を持って予測することは不可能だと思いました。 1つの変数(r-BE)を削除すると、対になったPCAプロットで母集団が分離されないため、オーバーラップがはるかに重要になります(サブプロット(d)、(e)、および(f))。1-2、3- 4、...、25-26、および1-27。これは、2つの母集団を分離するためにr-BEが不可欠であることを意味します。これらをまとめると、これらのPCAプロットはデータセット内の「情報」(分散)の100%を表すと考えたからです。 したがって、私は、ほんの一握りの変数を除いてすべてを削除した場合、母集団が実際にはほぼ完全に分離したことに気づいて、非常に驚​​きました。 すべての変数に対してPCAを実行すると、このパターンが表示されないのはなぜですか?28個の変数を使用すると、268,435,427通りの方法で変数をドロップできます。人口分離を最大化し、新しいデータポイントの起源の人口を推測するのに最適なものをどのように見つけることができますか?より一般的には、このような「隠された」パターンを見つける体系的な方法はありますか? 編集:アメーバのリクエストに従って、PCをスケーリングしたときのプロットを以下に示します。パターンはより明確です。(私は変数をノックアウトし続けることでいたずらであることを認識していますが、今回のパターンはr-BEのノックアウトに抵抗し、「非表示」パターンがスケーリングによってピックアップされることを意味します):
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.