統計とビッグデータ feature-selection

1

したがって、変数の選択はモデル選択の一部であることを理解しています。しかし、モデル選択の正確な構成は何ですか？それは次のもの以上ですか？ 1）モデルの分布を選択する 2）説明変数を選択しますか？これは、Burnham＆Anderson：AIC vs BICの記事で、モデル選択におけるAICとBICについての記事を読んでいるからです。この記事を読んで、「モデル選択」を「変数選択」と考えてきたことがわかります（コメントBICは真のモデルを見つけようとしますか？）記事からの抜粋は、「一般性」の度合いが増加する12のモデルについて語っており、これらのモデルは、12のモデルに対してKL情報をプロットすると「テーパ効果」を示します（図1）。異なる哲学とターゲットモデル... BICのターゲットはAICのターゲットモデルよりも一般的なモデルですが、ここでBICが最も頻繁に選択するモデルは、nが非常に大きくない限り、モデル7よりも一般的ではありません。モデル5または6である可能性があります（文献の多数の論文とシミュレーションから）、テーパー効果のコンテキスト（図1）では、AICはBICよりも優れていることが知られています。これが実際のデータ分析のコンテキストである場合は、AICを使用する必要があります。どのようにBICことができ、これまで私は理解していないモデル選択におけるAICよりも複雑なモデルを選択してください！「モデル選択」とは具体的にどのようなもので、BICはAICよりも「一般的な」モデルを具体的に選択するのはいつですか？ 2 l n （N）k2ln（N）k2ln(N)k2 k2k2k 編集：のコメントの議論から、AICまたはBICを他よりも好む理由はありますか？コメントで@Michael Chernickと@ user13273の間に小さな議論があり、これはそれほど些細なことではないと信じています。この議論を「機能」選択または「共変量」選択と呼ぶ方が適切だと思います。私にとって、モデルの選択は、エラーの分布、リンク関数の形式、共変量の形式の指定を含む、はるかに広範なものです。AIC / BICについて話すとき、通常、共変量の選択を除き、モデル構築のすべての側面が固定されている状況にあります。– user13273 12年8月13日21:17にモデルに含める特定の共変量の決定は、一般にモデル選択という用語で決まります。タイトルにモデル選択のある書籍が多数あり、主にモデルに含めるモデル共変量/パラメーターを決定しています。-マイケルチャーニック12年8月24日14:44で

12 feature-selection model-selection aic bic

1

LLE（ローカル線形埋め込み）アルゴリズムの手順を説明してください。

LLEのアルゴリズムの背後にある基本原則は3つのステップで構成されていることを理解しています。 k-nnなどのメトリックによって各データポイントの近傍を見つける。近傍がデータポイントに与える影響を示す各近傍の重みを見つけます。計算された重みに基づいて、データの低次元埋め込みを構築します。しかし、ステップ2とステップ3の数学的説明は、私が読んだすべての教科書とオンラインリソースで混乱しています。数式が使用される理由を説明することはできません。これらの手順は実際にはどのように実行されますか？使用されている数式を直感的に説明する方法はありますか？参照：http : //www.cs.nyu.edu/~roweis/lle/publications.html

12 machine-learning model-selection feature-selection dimensionality-reduction nonlinear

5

用語頻度/逆文書頻度（TF / IDF）：重み付け

1000個のドキュメントとその中に表示されるすべての単語を表すデータセットがあります。したがって、行はドキュメントを表し、列は単語を表します。したがって、たとえば、セルの値は、ドキュメントで単語が出現する回数を表します。ここで、tf / idfメソッドを使用して、単語の「重み」を見つける必要がありますが、実際にはこれを行う方法がわかりません。誰かが私を助けてくれますか？（i 、j ）（私、j）(i,j)jjj私私i

12 r data-mining feature-selection

5

回帰と分類の両方を行うRの機能選択パッケージ

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け付けていません。私はRが初めてです。今、機械学習を学習しています。この質問が非常に基本的なものであると思われる場合は、大変申し訳ありません。Rで優れた機能選択パッケージを探しています。Borutaパッケージを使用しました。これは良いパッケージですが、分類にのみ役立つと読みました。回帰タスクのためにRで機能選択を実装したいと思います。キャレットパッケージのドキュメントを読みましたが、私のレベルでは、理解するのは非常に困難です。誰かが私に良いチュートリアルを教えてくれたり、機能選択のために良いパッケージやRで最も頻繁に使用されるパッケージをリストしたりできますか？任意の助けをいただければ幸いです。前もって感謝します。

12 r feature-selection

2

機能の数を増やすとパフォーマンスが低下するのはなぜですか？

機能の数を増やすとパフォーマンスが低下する理由について直観を得ようとしています。現在、特定の機能の間では二変量的に優れたパフォーマンスを発揮しますが、より多くの機能を見ると性能が低下するLDA分類器を使用しています。私の分類精度は、層化された10倍のxvalを使用して実行されます。これらのより高い次元で何が起こっているかをある程度物理的または空間的に直感的に理解するために、分類器が二変量的よりも単変量的にうまく機能するという単純なケースはありますか？

12 classification feature-selection

6

どの機能がより重要かを推定するには、どの機械学習アルゴリズムが適していますか？

変更しない機能の最小数と、変更して結果に大きな影響を与える可能性のあるいくつかの追加機能を持つデータがあります。私のデータセットは次のようになります。機能は、A、B、C（常に存在）、およびD、E、F、G、H（時々存在）です。 A = 10, B = 10, C = 10 outcome = 10 A = 8, B = 7, C = 8 outcome = 8.5 A = 10, B = 5, C = 11, D = 15 outcome = 178 A = 10, B = 10, C = 10, …

12 machine-learning feature-selection

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

回帰モデルで変数をどのように選択しますか？

変数選択の従来のアプローチは、新しい応答の予測に最も寄与する変数を見つけることです。最近、私はこれに代わるものを知りました。治療の効果を決定する変数のモデリングでは、たとえば医薬品の臨床試験などで、変数は定性的に相互作用していると言われています他の事柄を固定したまま、その変数の変化が治療が最も効果的である変化を生み出すことができるならば、治療で。これらの変数は常に効果を強力に予測するものではありませんが、個々の患者の治療を決定する際に医師にとって重要な場合があります。博士論文で、Lacey Gunterは、予測に基づいて選択を行うアルゴリズムでは見落とされる可能性のあるこれらの定性的に相互作用する変数を選択する方法を開発しました。最近、ロジスティック回帰モデルやコックス比例ハザード回帰モデルなどの他のモデルにこれらの方法を拡張することで彼女と協力しました。 2つの質問があります。これらの新しい方法の価値についてどう思いますか？従来の方法の場合、どのアプローチが好まれますか？AIC、BIC、Mallows Cp、Fなどの基準は、変数を段階的、順方向、逆方向に入力または削除するためにテストします... これに関する最初の論文は、L。Gunter、J、Zhu、およびMurphy、SA（2009）で発表されました。定性的相互作用の変数選択。統計的手法 doi：10、1016 / j.stamet.2009.05.003。次の論文は、Gunter、L。、Zhu、J.およびMurphy、SA（2011）に掲載されました。家族ごとの誤り率を制御しながら個別化医療における質的相互作用の可変選択。Journal of Biopharmaceutical Statistics 21、1063-1078。次のものは、変数選択に関する特別号に掲載されましたGunter、L.、Chernick、MR and Sun、J.（2011）。治療選択に対する回帰における変数選択のための簡単な方法。パキスタンジャーナルオブ統計とオペレーションズリサーチ 7：363-380。論文は雑誌のウェブサイトで見つけることができます。記事を購入する必要があります。これらの記事のPDFファイルがあります。レイシーと私は、このトピックに関するモノグラフを完成させたばかりで、今年後半にSpringerBriefとして公開されます。

12 regression feature-selection

2

セマンティックな意味を保持するドメインに依存しない機能エンジニアリング？

機能エンジニアリングは、多くの場合、機械学習の重要なコンポーネントです（2010年にKDDカップで優勝するために頻繁に使用されました）。しかし、ほとんどの機能エンジニアリング技術は基礎となる機能の直感的な意味を破壊する特定のドメインまたは特定の種類の機能に非常に固有です。前者の典型的な例は、主成分分析です。主題の専門家が機能について持っている知識は、それらの機能を主成分に変換することによって破壊されるように思えます。対照的に、日付を「月の日」と「曜日」の機能に変換する簡単な手法と比較してください。基本的な意味はまだ新しい機能に保持されていますが、明らかにこの特定の手法は日付にのみ適用され、任意の機能には適用されません。基盤となる機能の意味を損なうことなく、任意のドメイン（または少なくともさまざまなドメイン）にも適用できる機能エンジニアリング技術の標準的な本体はありますか？

12 predictive-models feature-selection feature-construction

5

PCAを使用してクラスター分析の変数を選択できますか？

クラスター分析を行うには、変数の数を減らす必要があります。私の変数は強く相関しているので、因子分析 PCA（主成分分析）を行うことを考えました。ただし、結果のスコアを使用する場合、クラスターはあまり正確ではありません（文献の以前の分類と比較して）。質問：回転行列を使用して、各コンポーネント/ファクターの負荷が最も大きい変数を選択し、これらの変数のみをクラスタリングに使用できますか？書誌参照も参考になります。更新：いくつかの明確化：私の目標： SPSSによる2ステップアルゴリズムを使用してクラスター分析を実行する必要がありますが、変数は独立していないため、それらの一部を破棄することを考えました。私のデータセット： 100,000ケースの15個のスカラーパラメータ（変数）に取り組んでいます。一部の変数は強く相関しています（ Pearson）> 0.9>0.9>0.9 疑い：独立変数のみが必要なので、主成分分析を実行し（申し訳ありませんが、元の質問で間違って因子分析について話しました、私の間違い）、各成分の負荷が最も大きい変数のみを選択します。PCAプロセスにはいくつかの任意のステップがあることは知っていますが、この選択は、変数を選択するためにITジョリフ（1972および2002）によって提案され、1999年にJRキングおよびDAジャクソンによって提案された「メソッドB4。そのため、この方法で独立変数のサブグループを選択することを考えていました。次に、グループを使用してさまざまなクラスター分析を実行し、結果を比較します。

12 clustering pca feature-selection factor-analysis

4

LASSOモデルに反復再加重最小二乗法（IRLS）を適用する方法は？

IRLSアルゴリズムを使用してロジスティック回帰をプログラムしました。適切な機能を自動的に選択するために、LASSOペナルティを適用したいと思います。各反復で、以下が解決されます。 (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} してみましょうλλ\lambda非負実数であること。The Elementsで提案されているように、インターセプトにペナルティを課していません。統計学習。すでにゼロの係数についても同様です。そうでなければ、右側から項を引きます： XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} ただし、IRLSアルゴリズムの変更については不明です。それは正しい方法ですか？編集：私はそれについて自信がありませんでしたが、ここで私がついに思いついた解決策の一つです。興味深いのは、このソリューションがLASSOについて私が今理解していることに対応していることです。実際、各反復には1つではなく2つのステップがあります。最初のステップは以前と同じです：アルゴリズムの反復を行います（上の勾配の式でように）、λ=0λ=0\lambda=0 第二のステップは、新しいものである：我々は、（成分以外の各構成要素に軟判定閾値を適用ベクトルの切片に相当）β第一工程で得られました。これは、反復ソフトしきい値アルゴリズムと呼ばれます。β0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

12 logistic generalized-linear-model feature-selection lasso convex

4

なげなわが機能選択に対して不安定になる原因は何ですか？

圧縮センシングでは、が一意のスパースソリューションcを持つという定理が保証され（詳細は付録を参照）。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 投げ縄に同様の定理はありますか？そのような定理がある場合は、投げ縄の安定性を保証するだけでなく、投げ縄にさらに意味のある解釈を提供します。 lassoは、y = Xcによって応答yを生成するために使用されるスパース回帰係数ベクトルcccを明らかにできます。yyyy=Xcy=Xcy = Xc この質問をする理由は2つあります。「lassoはスパースソリューションを優先する」とは、選択した機能の利点が何であるかさえわからないため、機能選択にlassoを使用する理由に対する答えではないと思います。なげなわは機能選択が不安定であることで有名です。実際には、その安定性を評価するためにブートストラップサンプルを実行する必要があります。この不安定性を引き起こす最も重要な理由は何ですか？付録： X_ {N \ times M} =（x_1、\ cdots、x_M）が与えられXN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)ます。cccはΩΩ\Omega -sparse vector（Ω⩽MΩ⩽M\Omega \leqslant M）です。プロセスy=Xcy=Xcy = Xcは応答yを生成しyyyます。場合XXXオーダーのNSP（ヌル空間プロパティ）を有するΩΩ\Omegaとの共分散行列XXXゼロへの固有値近いを持っていない、に固有のソリューションが存在することになる argmin∥c∥1subject to y=Xcargmin‖c‖1subject to …

12 regression self-study feature-selection lasso regularization

2

ランダムフォレストのキャレットを使用した機能の選択とパラメーターの調整

数千の機能を持つデータがあり、再帰的な機能選択（RFE）を実行して、情報のない機能を削除したいと考えています。これはキャレットとRFEで行います。ただし、最良の回帰適合（たとえば、ランダムフォレスト）を取得する場合、パラメーターの調整（mtryRFの場合）をいつ実行する必要があるかを考え始めました。つまり、私が理解しているように、キャレットは固定mtryを使用してさまざまな機能サブセットでRFを繰り返しトレーニングします。mtry機能の選択が完了した後で最適が見つかると思いmtryますが、キャレットが使用する値は、選択された機能のサブセットに影響しますか？もちろん、低でキャレットを使用するmtry方がはるかに高速です。誰かがこれを私に説明してくれることを願っています。

12 regression feature-selection random-forest caret

1

線形関数近似で重みをQ値に適合させる方法

強化学習では、大きな状態空間が存在する場合に線形関数近似がよく使用されます。（テーブルをルックアップすると実行不可能になります。）線形関数近似による値の形式は、Q -Q−Q- Q （s 、a ）= w1f1（s 、a ）+ w2f2（s 、a ）+ ⋯ 、Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, ここで、は重み、は特徴です。F Iw私wiw_if私fif_i 機能はユーザーによって事前定義されています。私の質問は、重みはどのように割り当てられるのですか？関数近似を使用したラーニングに関する講義スライドをいくつか読んだりダウンロードしたりしました。それらのほとんどは、次の線形回帰に関するスライドがあります。単なるスライドなので、不完全になる傾向があります。2つのトピック間の関係/関係は何ですか。Q -Q−Q-

12 machine-learning feature-selection reinforcement-learning

2

リッジ回帰がLASSOよりも優れた解釈可能性を提供できないのはなぜですか？

リッジ回帰とLASSOの長所と短所についてはすでに考えています。 pppんnnんnnんnnppp リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。特徴の範囲を正規化して（たとえば、0と1の間、または平均と単位の分散がゼロの場合）、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます（最も重要な特徴には係数の最高絶対値）。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか？ LASSOは、その機能選択の性質上、推奨されますか？私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果（スパースベクトル）を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット（たとえば、100万のうち500）をフィードするだけなので、予測を少し速くすることができます。 LASSOが一般化する機能に適している場合は、リッジ回帰（または他の種類の正則化）を使用して同じ目標を達成することもできます。なぜ再びLASSO（またはエラスティックネット）が必要なのですか？なぜリッジ回帰だけに固執できないのですか？誰かがこれにいくつかの光を当ててもらえますか？ありがとう！

12 feature-selection lasso regularization ridge-regression elastic-net

タグ付けされた質問 「feature-selection」

タグ付けされた質問「feature-selection」