タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

2
ランダムフォレストを使用した機能選択
ほとんどが相関性が高く、非常にノイズが多い(たとえばテクニカルインジケーター)ほとんどが金融変数(120の機能、4 kの例)のデータセットがあるため、モデルトレーニング(バイナリ分類)で使用するために最大20-30を選択したいと思います-増加/減少)。 機能のランキングにランダムフォレストを使用することを考えていました。それらを再帰的に使用するのは良い考えですか?たとえば、最初のラウンドで最悪の20%をドロップし、2番目も同様に、目的の数の機能を取得するまで続けます。RFで相互検証を使用する必要がありますか?(CVを使用しないのは直感的です。なぜなら、CVはRFで既に行われていることだからです。) また、ランダムフォレストを使用する場合、機能の重要性を取得するために、実際の増加/減少のバイナリまたはリグレッサーの分類子として使用する必要がありますか? ちなみに、特徴選択後に試してみたいモデルは、SVM、ニューラルネット、局所加重回帰、ランダムフォレストです。私は主にPythonで働いています。

4
低い分類精度、次に何をすべきか?
だから、私はML分野の初心者であり、分類を試みます。私の目標は、スポーツイベントの結果を予測することです。いくつかの履歴データを収集し、分類器のトレーニングを試みました。約1200個のサンプルを取得しましたが、そのうちの0.2個はテスト目的で分割し、その他は異なる分類器を使用してグリッド検索(クロス検証を含む)に入れました。今のところ、線形カーネル、rbfカーネル、多項式カーネル、およびランダムフォレストを使用してSVMを試しました。残念ながら、0.5を大きく超える精度を得ることができません(クラスのランダム選択と同じです)。そのような複雑なイベントの結果を予測できないということですか?または、少なくとも0.7-0.8の精度を得ることができますか?実行可能であれば、次に何を検討する必要がありますか? より多くのデータを取得しますか?(データセットを最大5倍まで拡大できます) 別の分類器を試してみませんか?(ロジスティック回帰、kNNなど) 機能セットを再評価しますか?分析するMLツールはありますか?機能セットを減らす必要があるかもしれません(現在、12個の機能があります)。

4
テキストマイニング:人工知能でテキスト(ニュース記事など)をクラスター化する方法は?
Pongのプレイ、手書きの数字の分類など、さまざまなタスクのために、いくつかのニューラルネットワーク(MLP(完全接続)、Elman(繰り返し))を構築しました... さらに、複数桁の手書きノートを分類するなど、いくつかの最初の畳み込みニューラルネットワークを構築しようとしましたが、25x25サイズの画像などの標準化された入力に依存できる画像認識/クラスタリングタスクなど、テキストを分析およびクラスター化することはまったく新しいです。 RGBまたはグレースケールなど...前提条件の機能がたくさんあります。 テキストマイニング、たとえばニュース記事の場合、入力のサイズは常に変化しています(異なる単語、異なる文、異なるテキスト長など)。 人工知能、できればニューラルネットワーク/ SOMを利用した最新のテキストマイニングツールをどのように実装できますか? 残念ながら、簡単なチュートリアルを最初から見つけることができませんでした。複雑な科学論文は読みにくく、トピックを学ぶための最良の選択肢ではありません(私の意見では)。MLP、ドロップアウトテクニック、畳み込みニューラルネットワークなどに関するかなりの論文をすでに読んでいますが、テキストマイニングに関する基本的なものを見つけることができませんでした-私が見つけたのは、非常に限られたテキストマイニングスキルにはあま​​りにも高レベルでした。

1
子ノードのジニ減少とジニ不純物
ランダムフォレストのGini機能重要度測定に取り組んでいます。したがって、ノードの不純物のGini減少を計算する必要があります。ここに私がそうする方法があり、それは定義との矛盾につながり、私はどこかに間違っている必要があることを示唆しています... :) 二分木の場合、左と右の子の確率を考えると、ノード Gini不純性を計算できます。nnn i(n)=1−p2l−p2ri(n)=1−pl2−pr2 i(n) = 1 - p_l^2 - p_r^2 そして、Giniが減少します。 Δi(n)=i(n)−pli(nl)−pri(nr)Δi(n)=i(n)−pli(nl)−pri(nr) \Delta i(n) = i(n) - p_li(n_l) - p_ri(n_r) したがって、ノードに110個の観測があるこの例の場合: - node (110) - left (100) - left_left (60) - left_right (40) - right (10) - right_left (5) - right_right (5) 次のようにノードのGiniの減少を計算します。 私(left)i (r i g ht)i …

2
LASSO / LARS vs一般から特定(GETS)メソッド
私は、基本的には段階的な前方選択の単なるバリエーションであり、したがってパス依存性に苦しんでいるにもかかわらず、なぜLASSOおよびLARSモデル選択方法がそんなに人気があるのだろうと思いました。 同様に、モデル選択の一般から特定(GETS)メソッドは、ステップワイズ回帰の問題がないためLARS / LASSOよりも優れているにもかかわらず、ほとんど無視されるのはなぜですか?(GETSの基本リファレンス:http : //www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-この中で最も新しいアルゴリズムは、パスの依存関係を回避する広範なモデルとツリー検索で始まり、多くの場合、LASSO / LARSよりも優れています)。 奇妙に思えますが、LARS / LASSOはGeneral to Specific(GETS)よりもはるかに多くの露出と引用を得ているようです。 激しい議論を始めようとせず、文献がGETSではなくLASSO / LARSに焦点を当てている理由の合理的な説明を探しており、実際にLASSO / LARSの欠点を指摘している人はほとんどいません。

5
小サンプル臨床研究における機械学習技術の応用
目的が分類コンテキストで興味深い予測因子を分離することである場合、ランダムフォレストやペナルティ付き回帰(ペナルティ付き回帰(L1またはL2ペナルティ、またはそれらの組み合わせ))などの機械学習手法を小規模サンプル臨床研究に適用することについてどう思いますか?モデルの選択に関する問題ではなく、変数の効果/重要性の最適な推定値を見つける方法についても質問していません。強力な推論を行うつもりはありませんが、多変量モデリングを使用するだけであるため、各予測変数を一度に1つずつ対象の結果に対してテストすることを避け、それらの相互関係を考慮に入れます。 この特定の極端なケースで、そのようなアプローチが既に適用されているのかと思っていました。たとえば、10〜15のカテゴリ変数または連続変数のデータを持つ20〜30の被験者です。それは正確にはないn≪pn≪pn\ll p場合、私はここでの問題は、(多くの場合、うまくバランスされていない)私たちが説明しようとするクラスの数に関係していると思うし、(非常に)小さなN。私はバイオインフォマティクスの文脈でこのトピックに関する膨大な文献を知っていますが、心理測定的に測定された表現型を用いた生物医学研究に関連する参考文献は見つかりませんでした(例:神経心理学的アンケートを通して)。 関連する論文へのヒントや指針はありますか? 更新 この種のデータを分析するためのその他のソリューション、たとえばC4.5アルゴリズムまたはその派生物、アソシエーションルールメソッド、および教師付きまたは半教師付き分類のためのデータマイニング手法を受け入れています。

3
線形分類器の場合、係数が大きいほど重要な機能を意味しますか?
私は機械学習に取り組んでいるソフトウェアエンジニアです。私の理解から、線形回帰(OLSなど)および 線形分類(ロジスティック回帰やSVMなど)は、トレーニング済み係数 と特徴変数内積に基づいて予測を行います。w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 私の質問は、モデルがトレーニングされた後(つまり、係数が計算された後)、モデルがより正確に予測するために重要な特徴変数の係数が大きくなるということですか?wiwiw_i つまり、変数を係数値で並べ替えてから、最も高い係数を持つフィーチャを選択するだけで、係数の相対的な大きさをフィーチャ選択に使用できるかどうかを尋ねています。このアプローチが有効な場合、機能の選択について(ラッパーメソッドやフィルターメソッドなどとともに)言及されていないのはなぜですか。 私がこれを尋ねる理由は、L1対L2の正規化に関する議論に出くわしたためです。次のような宣伝文句があります: 組み込み機能の選択は、L1-normの有用なプロパティとして頻繁に言及されていますが、L2-normはそうではありません。これは実際にはL1ノルムの結果であり、スパース係数を生成する傾向があります(以下で説明します)。モデルに100個の係数があり、そのうちの10個のみが非ゼロ係数を持つと仮定すると、これは事実上「他の90個の予測変数は目標値の予測には役に立たない」と言っています。 行間を読むと、係数が0に近い場合、その係数を持つ特徴変数にはほとんど予測力がないはずだと思います。 編集:私はまた、数値変数にZスケーリングを適用しています。

2
連続データとバイナリデータを線形SVMと混合しますか?
だから私はSVMで遊んでいますが、これが良いことかどうか疑問に思います: 一連の連続フィーチャ(0〜1)と、ダミー変数に変換した一連のカテゴリフィーチャがあります。この特定のケースでは、測定の日付をダミー変数にエンコードします。 データを取得する期間は3つあり、3つの機能番号を予約しました。 20:21:22: そのため、データの取得期間に応じて、異なる機能に1が割り当てられます。その他は0になります。 SVMはこれで適切に動作しますか、これは悪いことですか? SVMLightと線形カーネルを使用します。

1
カイ二乗特徴選択はどのように機能しますか?
各フィーチャクラスペアについて、カイ二乗統計の値が計算され、しきい値と比較されることを知っています。 私は少し混乱しています。特徴とクラスが場合、分割表をどのように作成しますか?どの機能を保持し、どの機能を削除するかをどのように決定しますか?mmmkkk どんな説明でも大歓迎です。前もって感謝します

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

3
ベイジアン変数選択—本当に機能しますか?
素敵なブログ投稿とそこにリンクされている論文に従って、私はベイジアン変数の選択をいじるかもしれないと思った。私はrjagsでプログラムを作成し(私は非常に新人です)、Exxon Mobilの価格データを、そのリターンを説明する可能性が低いもの(パラジウム価格など)およびその他の関連性の高いもの(SP500など)とともに取得しました)。 実行するlm()と、過剰パラメーター化モデルの強力な証拠がありますが、パラジウムは間違いなく除外する必要があります。 Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error t value Pr(>|t|) SP 0.51913 0.19772 2.626 0.010588 * Palladium 0.01620 0.03744 0.433 …

1
前方段階的回帰アルゴリズムとは何ですか?
たぶん疲れているだけなのかもしれませんが、Forward Stagewise Regressionアルゴリズムを理解しようとすると問題が発生します。「統計的学習の要素」ページ60: 前方段階的回帰(FS)は、前方段階的回帰よりもさらに制約されます。これは、[平均] yに等しい切片を持つフォワードステップワイズ回帰のように始まり、最初は係数がすべて0である中心予測子です。 各ステップで、アルゴリズムは現在の残差と最も相関する変数を識別します。次に、この選択した変数の残差の単純な線形回帰係数を計算し、その変数の現在の係数に追加します。これは、どの変数も残差と相関関係がなくなるまで続けられます。つまり、N> pのときに最小二乗が適合します。 だから、これはアルゴリズムですか?: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) bは係数の列ベクトル、Xは入力の行列、yは出力の列ベクトルです。すなわち、y = X * b + error。 このアルゴリズムは、テストしているデータセットにいくつかの非ゼロ係数のみを提供し(しきい値= .0001)、予測精度はまったく良くないので、質問します。

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?

5
トレーニングデータセットのみで探索的データ分析を行う方が良いでしょうか?
データセットに対して探索的データ分析(EDA)を行っています。次に、いくつかの機能を選択して、従属変数を予測します。 問題は 、トレーニングデータセットのみでEDAを実行する必要があるかどうかです。または、トレーニングデータセットとテストデータセットを結合し、それらの両方でEDAを実行し、この分析に基づいて機能を選択する必要がありますか?

1
ディープニューラルネットワークの感度分析
既に回答された質問(1層フィードフォワードネットワークからの重みの重要性の抽出)に続いて、ニューラルネットワークの入力の関連性に関する推論を探しています。 対象の出力ノードからレイヤーを逆方向にたどって入力の重要度を再構築するのが難しいか時間がかかる深いネットを考えると、ニューラルネットワークの感度分析を実行する際に、基本的にわずかに変化する理論的な枠組みがあるのではないかと思いました入力し、対象のouptutノードがどのように変化するかを検討します。 ニューラルネットワークで何らかの感度分析を実行する標準的な方法はありますか? もしあれば、Pythonコードを歓迎します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.