統計とビッグデータ underdetermined

5

2つの重複しない母集団（患者と健康、合計n=60n=60n=60）のデータセットで、（300300300独立変数から）連続従属変数の有意な予測子を見つけたいと思います。予測変数間の相関が存在します。予測変数のいずれかが（可能な限り正確に従属変数を予測するのではなく）「実際に」従属変数に関連しているかどうかを調べることに興味があります。多数の可能なアプローチに圧倒されたので、どのアプローチが最も推奨されるかを尋ねたいと思います。私の理解から、予測因子の段階的な包含または除外は推奨されませんたとえば、予測子ごとに個別に線形回帰を実行し、FDRを使用した多重比較のためにp値を修正します（おそらく非常に保守的ですか？）主成分回帰：個々の予測変数の予測力については説明できず、コンポーネントについてのみ説明できるため、解釈が困難です。他の提案はありますか？

31 regression pca feature-selection stepwise-regression underdetermined

1

メチル化データのglmnetを使用した機能の選択とモデル（p >> N）

GLMとElastic Netを使用してそれらの関連機能を選択し、線形回帰モデルを構築します（つまり、予測と理解の両方であるため、比較的少ないパラメーターを残しておく方が良いでしょう）。出力は連続的です。それはだあたりの遺伝子例でした。私はパッケージについて読んでいますが、従うべき手順について100％確信が持てません。200002000020000505050glmnet CVを実行してラムダを選択します： cv <- cv.glmnet(x,y,alpha=0.5) （Q1）入力データが与えられたら、別のアルファ値を選択しますか？（Q2）モデルを構築する前に他に何かする必要がありますか？モデルに適合： model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) （Q3）「共分散」よりも優れているものはありますか？（Q4）ラムダがCVによって選択された場合、なぜこのステップが必要なのnlambda=ですか？（Q5）lambda.minまたはを使用する方が良いlambda.1seですか？係数を取得して、どのパラメーターが抜けているか（ "。"）を確認します。 predict(model, type="coefficients") ヘルプページでは、多くがあるpredict方法（例えば、predict.fishnet、predict.glmnet、predict.lognet、など）。しかし、例で見たように、「プレーン」は予測します。（Q6）またはその他を使用する必要がありますpredictかpredict.glmnet？正則化方法について読んだことにもかかわらず、私はRとこれらの統計パッケージがまったく新しいので、問題をコードに適合させているかどうかを確認することは困難です。どんな提案も歓迎します。 UPDATE に基づいて、クラス列のオブジェクトがという要素が含まれ先に述べたように、」finalModelリサンプリングによって選択されたチューニングパラメータの値を装着したモデルで、このオブジェクトはことを使用して、新しいサンプルの予測を生成するために、伝統的な方法で使用することができますモデルの予測関数。」 caretアルファとラムダの両方を調整するために使用： trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") fitM前のステップ2を交換しますか？その場合、glmnetオプション（type.gaussian="naive",lambda=cv$lambda.min/1se）を今指定する方法は？そして、次predictのステップでは、私は置き換えることができますmodelにfitM？私が行った場合 trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") …

29 r regularization glmnet elastic-net underdetermined

2

重みよりも少ないトレーニングサンプルでニューラルネットワークを（理論的に）トレーニングできますか？

まず、ニューラルネットワークをトレーニングするために必要なサンプルサイズの一般的な数はありません。それは、タスクの複雑さ、データのノイズなど、あまりにも多くの要因に依存します。そして、私が持っているトレーニングサンプルが多いほど、私のネットワークは良くなります。しかし、疑問に思っていました。タスクが十分に「単純」であると仮定すると、重みよりも少ないトレーニングサンプルでニューラルネットワークをトレーニングすることは理論的に可能ですか？これがうまくいった例を誰かが知っていますか？それとも、このネットワークはほぼ確実にパフォーマンスが低下しますか？たとえば、多項式回帰を考えると、4次の多項式（つまり、5つの自由パラメーター）を4つのデータポイントにのみ適合させることはできません。重みの数を自由パラメーターの数と見なして、ニューラルネットワークに同様のルールはありますか？

12 neural-networks overfitting underdetermined

1

不確定な方程式系にリッジ回帰を適用しますか？

場合、球状制限を課す最小二乗問題の値にのように書くことができる for the overdetermined system。\ | \ cdot \ | _2は、ベクトルのユークリッドノルムです。y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 \\ \operatorname{s.t.}\ \ \|\beta\|^2_2 \le \delta^2 \end{array} \end{equation}∥⋅∥2‖⋅‖2\|\cdot\|_2 \ betaの対応する解ββ\betaは、\ begin {equation} \ hat {\ beta} = \ left（X ^ TX + \ lambda …

9 regression least-squares regularization ridge-regression underdetermined

1

ベイズの定理を使用する場合の信頼区間

いくつかの条件付き確率と、95％の信頼区間を計算しています。私のケースの多くでは、（分割表からの）試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合：baaabbb P（a | b ）= P（B |）⋅ P（a ）P（b ）P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}（\＃\ left（b \ cap {} a）、\＃（a）\ right）を使用してP（b | a）の周りの95％信頼区間を計算でき、比率P（a）/ P（b）を周波数比\＃（a）/ \＃（b）として。この情報を使用してP（a | b）の周囲の信頼区間を導出することは可能ですか？P（b | a ）P(b|a)P(b|a)binom.confint（＃（B ∩a ）、＃（a ））binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P（a ）/ P（b ）P(a)/P(b)P(a)/P(b)＃（a ）/＃（b ）#(a)/#(b)\#(a)/\#(b)P（a | b ）P(a|b)P(a|b) ありがとう。

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

タグ付けされた質問 「underdetermined」

タグ付けされた質問「underdetermined」