タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

2
「F回帰」と
フィーチャをF-regressionラベルと個別に関連付け、値を観察するのと同じ方法を使用してフィーチャを比較していますか?R2R2R^2 私は同僚F regressionが機械学習パイプラインで機能の選択にを使用するのをよく見ていますsklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 教えてください-なぜそれをラベル/依存変数と単に相関させるのと同じ結果を与えるのですか? F_regression機能選択で使用することの利点が私には明らかではありません。 ここに私のコードがあります:私はmtcarsからのデータセットを使用していRます: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical columns as features ['mpg', 'disp', 'drat', 'wt'] # …

1
ベイジアン投げ縄vsスパイクとスラブ
質問:変数選択に一方を他方よりも優先的に使用することの利点/欠点は何ですか? :私は可能性があると Iを置くことができるいずれかの事前確率のいずれかを: wはI〜π δ 0 + (1 - π )N(0 、100 )y〜N(Xw 、σ2私)y〜N(バツw、σ2私)y\sim\mathcal{N}(Xw,\sigma^2I) または: W I〜EXP (- λ | W I |)w私〜πδ0+ (1 - π)N(0 、100 )π= 0.9、w私〜πδ0+(1−π)N(0、100)π=0.9、 w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,, w私〜EXP(- λ | ワット私| )λ 〜Γ (1 、1 )。w私〜exp⁡(−λ|w私|)λ〜Γ(1、1)。 w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,. π= 0.9π=0.9\pi=0.9λλ\lambda しかし、私の教授は、なげなわバージョンが係数を「縮小」し、実際に適切な変数選択を行っていない、つまり関連するパラメーターでさえ過剰に縮小していると主張し続けています。 個人的には、バリエーションベイズを使用しているため、Lassoバージョンの実装が簡単になっています。実際、事前分布を効果的に配置するスパースベイジアン学習ペーパー1| …

3
ニューラルネットワークに特徴選択/エンジニアリングが必要なのはなぜですか?
特にkaggleコンペティションのコンテキストでは、モデルのパフォーマンスはすべて機能の選択とエンジニアリングに関するものであることに気付きました。従来の/古い学校のMLアルゴリズムを処理する場合にそうなる理由は十分に理解できますが、ディープニューラルネットワークを使用する場合にそうなる理由はわかりません。 深層学習の本の引用: ディープラーニングは、他のより単純な表現で表現される表現を導入することにより、表現学習におけるこの中心的な問題を解決します。深層学習により、コンピューターはより単純な概念から複雑な概念を構築できます。 したがって、「情報がデータ内にある」場合、十分に深く、十分にパラメーター化されたニューラルネットワークは、十分なトレーニング時間が与えられた場合に適切な機能を取得すると常に考えていました。

3
機械学習パイプラインで機能選択とハイパーパラメーター最適化をどのように順序付けすればよいですか?
私の目的は、センサー信号を分類することです。これまでの私のソリューションのコンセプトは次のとおりです。i)生の信号からのエンジニアリング機能ii)ReliefFおよびクラスタリングアプローチを使用して関連する機能を選択するiii)NN、ランダムフォレスト、SVMを適用する しかし、私はジレンマに陥っています。ii)とiii)には、ReliefFのk-Nearest Neigboursのようなハイパーパラメーター、またはセンサー信号が評価されるウィンドウの長さ、またはNNの各レイヤーの隠れたユニットの数があります。 ここに3つの問題があります。1)特徴選択パラメーターの調整は分類子のパフォーマンスに影響します。2)分類子のハイパーパラメーターを最適化すると、特徴の選択に影響します。3)構成の可能な組み合わせをそれぞれ評価することは困難です。 だから私の質問は次のとおりです:a)単純化の仮定を行うことができますか?stチューニング機能選択パラメーターをチューニング分類子パラメーターから分離できますか?b)他に可能な解決策はありますか?

2
なげなわと比較して、最適なサブセット選択が好ましくないのはなぜですか?
統計学習の本の中で最良のサブセット選択について読んでいます。3つの予測子場合、2 3 = 8個のサブセットを作成します。x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 予測子のないサブセット 予測子x 1のサブセットx1x1x_1 予測子x 2のサブセットx2x2x_2 予測子x 3のサブセットx3x3x_3 予測子x 1、x 2のサブセットx1,x2x1,x2x_1,x_2 予測子x 1、x 3のサブセットx1,x3x1,x3x_1,x_3 予測子x 2、x 3のサブセットx2,x3x2,x3x_2,x_3 予測子x 1、x 2、x 3のサブセットx1,x2,x3x1,x2,x3x_1,x_2,x_3 次に、テストデータでこれらすべてのモデルをテストして、最適なモデルを選択します。 今、私の質問は、なぜなげなわと比較して最良のサブセット選択が好まれないのかということです。 最適なサブセットとなげなわのしきい値関数を比較すると、最適なサブセットは、なげなわのようにいくつかの係数をゼロに設定することがわかります。ただし、他の係数(ゼロ以外の係数)にはまだols値があり、バイアスはかけられません。一方、なげなわでは、係数の一部がゼロになり、その他(ゼロ以外の係数)にはバイアスがかかります。下の図はそれをより良く示しています: 写真から、最適なサブセットの場合の赤い線の部分は灰色の線の上にあります。他の部分は、いくつかの係数がゼロであるx軸上にあります。灰色の線は、偏りのないソリューションを定義します。投げ縄では、いくつかのバイアスが導入されますます。この図から、最適なサブセットは投げ縄よりも優れていることがわかります!最適なサブセットを使用することの欠点は何ですか?λλ\lambda

2
変数選択に対する矛盾するアプローチ:AIC、p値、またはその両方?
私が理解していることから、(少なくとも回帰コンテキストでは)p値に基づいた変数選択には大きな欠陥があります。AIC(または同様の)に基づく変数の選択も、同様の理由でいくつかの欠陥があると考えられますが、これは少し不明瞭に見えます(たとえば、このトピックに関する私の質問といくつかのリンクを参照してください。)。 ただし、これら2つの方法のいずれかを使用して、モデル内の最適な予測子のセットを選択するとします。 Burnham and Anderson 2002(モデル選択およびマルチモデル推論:実用的な情報理論的アプローチ、83ページ)では、AICに基づく変数選択と仮説検定に基づく変数選択を混在させないでください:「帰無仮説および情報理論的アプローチのテスト一緒に使用しないでください。これらは非常に異なる分析パラダイムです。」 一方、Zuur et al。2009(R、ページ541とエコロジーで拡張子を持つ混合効果モデル)の使用を提唱するように見える最初の最適なモデルを見つけ、その後、仮説検定を使用して「微調整」を実行するAICを:「欠点はAICが保守的であることができるということです、AICが最適なモデルを選択したら、(アプローチ1からの仮説検定を使用して)微調整を適用する必要がある場合があります。」 これにより、どちらのアプローチに従うべきかについて、両方の本の読者が混乱していることがわかります。 1)これらは、統計的思考の異なる「キャンプ」であり、統計学者の間の不一致のトピックですか?これらのアプローチの1つは、単に「時代遅れ」になっていますが、執筆時点では適切と考えられていましたか?または、最初から単純に間違っているのでしょうか? 2)このアプローチが適切となるシナリオはありますか?たとえば、私は生物学的背景から来ています。そこでは、どの変数が応答に影響を与えているか、またはそれを推進しているように見えるかを判断しようとしています。多くの場合、説明変数の候補がいくつかありますが、どちらが「重要」かを(相対的な観点から)見つけようとしています。また、候補予測変数のセットは、生物学的関連性があると考えられるものに既に削減されていますが、これには5-20の候補予測変数が含まれている場合があります。


2
p> nの場合、投げ縄は最大n個の変数を選択します
エラスティックネットの動機の1つは、LASSOの次の制限でした。 では理由は凸最適化問題の性質のそれが飽和する前に、ほとんどのn個の変数の場合、投げ縄選択します。これは、変数選択方法の制限機能のようです。さらに、係数のL1ノルムの境界が特定の値より小さい場合を除き、投げ縄は明確に定義されていません。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) LASSOは2次計画問題であるが、LARSまたは要素ごとの勾配降下法によっても解決できることを理解しています。しかし、(pは予測子の数、nはサンプルサイズ)の場合、これらのアルゴリズムのどこで問題が発生するかわかりません。そして、なぜこの問題がエラスティックネットを使用して解決されるのですか?ここで、pを明らかに超えるp + n変数に問題を拡大します。p>np>np > npppnnnp+np+np+nppp

2
段階的回帰を使用する必要がある状況はありますか?
過去に多くの生物医学論文で段階的回帰が多用されていましたが、これは多くの問題のより良い教育により改善しているようです。ただし、多くの古いレビュアーはまだそれを求めています。ステップワイズ回帰に​​役割があり、使用する必要がある場合、どのような状況ですか?

2
なげなわの代わりにグループなげなわを使用する理由
私は、グループのなげなわが変数のグループの変数選択とスパース性に使用されることを読みました。この主張の背後にある直感を知りたい。 グループ投げ縄が投げ縄よりも優先されるのはなぜですか? なぜグループラッソソリューションパスが区分的に線形ではないのですか?

2
LASSOは相関予測変数をいつ選択しますか?
Rのパッケージ「lars」を次のコードで使用しています。 > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > cor(cbind(y,x)) y x1 x2 …

2
相互作用モデルで最適な機能を見つける
タンパク質のリストとその特徴値があります。サンプル表は次のようになります。 ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行はタンパク質であり、列は機能です。 また、相互作用するタンパク質のリストもあります。例えば Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 問題:予備的な分析のために、どの機能がタンパク質相互作用に最も寄与するかを知りたい。 私の理解では、通常、決定木はエントロピーに基づいて最も重要な機能を取得するために使用できますが、タンパク質ペア(つまり、相互作用)に拡張する方法はわかりません。そのような目的のための方法はありますか?

3
クラスタリング確率分布-メソッドとメトリック?
いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。) K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。 私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。 繰り返しますが、どのような分布があるのか​​わからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。 最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。 それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか? 編集:データの明確化。 各データポイント(Objクラスター化する各オブジェクト)には5 vectors、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N。 これらのベクターの各々は(それを呼び出すvector i)整数の確率分布であるx-values各対応するY値が測定される確率を表し、N、スルー1のvalue x中phase iのオブジェクトのをObj。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。 これらの確率は次の方法で決定します。 私はシングルを取り、各トライアルで測定を行うためObjにそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase ik trials ベクトル1. [90、42、30、9、3、4、0、1、0、0、1] ベクトル2。[150、16、5、0、1、0、0、0、0、0、0] ... ベクトル5. [16、... ...、0] 次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さvalue xれる確率を表しphase iます。

1
ランダムフォレストでは、ツリーレベルではなくノードレベルでフィーチャのランダムサブセットが選択されるのはなぜですか?
私の質問:ランダムフォレストは、ツリーレベルではなく各ツリー内のノードレベルで分割するために、フィーチャのランダムサブセットを考慮するのはなぜですか? 背景:これは歴史の質問です。ティン・カム・ホーが公開され、この論文をランダムにそれぞれ成長させるために使用する機能のサブセットを選択することにより、「意思決定の森」を構築する上で木を 2001年に、後に1998数年で、レオ・ブレイマンは彼の独創性に富んランダムフォレストの公表論文特徴サブセットがランダムであるが、各ツリーではなく、各ツリー内の各ノードで選択されます。ブライマンはHoを引用しましたが、ツリーレベルからノードレベルのランダムな特徴選択への移行については特に説明しませんでした。 この開発の具体的な動機は何だと思います。ツリーレベルでフィーチャサブセットを選択すると、ツリーの目的の非相関化が依然として達成されるようです。 私の理論:これは他の場所で明確に表現されていませんが、ランダムなサブスペース法は、特徴の重要性の推定値を取得するという点では効率が低いようです。変数の重要度の推定値を取得するために、各ツリーについて、特徴が1つずつランダムに並べ替えられ、誤判別の増加またはアウトオブバッグ観測のエラーの増加が記録されます。このランダムな順列から生じる誤分類またはエラーの増加が大きい変数は、最も重要です。 ランダム部分空間法を使用する場合、ツリーごとに、特徴のうちだけを考慮します。すべての予測子を一度でも考慮するには、いくつかの木が必要になる場合があります。我々は異なるサブセット考える一方、の特徴各ノードで、私たちは私たちにフィーチャー重要性のより堅牢な見積もりを与え、少数の木の後に、各機能に多くの時間を考慮します。mmmppppppm私m私m_ippp これまで見てきたこと:これまでのところ、私はブライマンの論文とホーの論文を読み、決定的な答えを見つけることなく方法の比較のために広範なオンライン検索を行いました。同様の質問が以前に聞かれたことに注意してください。この質問は、考えられる解決策に向けた私の推測/作業を含めることで、さらに先へと進みます。答え、関連する引用、または2つのアプローチを比較するシミュレーション研究に興味があります。予定されていない場合は、2つの方法を比較して独自のシミュレーションを実行する予定です。

2
p値に基づいて特徴を選択するのは間違っていますか?
機能の選択方法に関する投稿がいくつかあります。メソッドの1つは、t統計に基づく機能の重要性を説明します。標準化された特徴をvarImp(model)持つ線形モデルに適用されるRでは、各モデルパラメーターのt統計量の絶対値が使用されます。したがって、基本的には、t統計に基づいて特徴を選択します。つまり、係数の精度を意味します。しかし、私の係数の正確さは、特徴の予測能力について何かを教えてくれますか? 私の機能は低いt統計量を持っていますが、それでもモデルの精度を向上させることができますか?「はい」の場合、t統計に基づいて変数をいつ除外したいでしょうか?それとも、重要でない変数の予測能力をチェックするための出発点にすぎませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.