タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

4
モデルに線形項ではなく二次項を追加するのは理にかなっていますか?
私は(混合)モデルを持っています。このモデルでは、予測子の1つが(実験的な操作のために)予測子に2次関数的にのみ関連付けられる必要があります。したがって、二次項のみをモデルに追加したいと思います。次の2つの理由により、そうすることができません。 高次の多項式をあてはめるときは、常に低次の多項式を含めるべきだと読んだと思います。見つけた場所を忘れてしまい、調べた文献(たとえば、Faraway、2002; Fox、2002)では、良い説明が見つかりません。 線形項と二次項の両方を追加すると、両方が重要になります。それらの1つだけを追加する場合、それらは重要ではありません。ただし、予測変数とデータの線形関係は解釈できません。 私の質問のコンテキストは、具体的にはを使用した混合モデルlme4ですが、なぜ高次の多項式ではなく高次の多項式を含めるのが良いのか、なぜいけないのかを説明できる答えを得たいと思います。 必要に応じて、データを提供できます。

2
ベイズ回帰:標準回帰と比較してどのように行われますか?
ベイジアン回帰についていくつか質問がありました。 として標準回帰をます。これをベイジアン回帰に変更したい場合、と両方の事前分布が必要ですか(またはこの方法では機能しませんか)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 標準回帰では、残差を最小化しておよび単一の値を取得しようとします。これはベイズ回帰でどのように行われますか?β0β0\beta_0β1β1\beta_1 私はここで本当に苦労しています: posterior=prior×likelihoodposterior=prior×likelihood \text{posterior} = \text{prior} \times \text{likelihood} 尤度は現在のデータセットから得られます(したがって、それは私の回帰パラメーターですが、単一の値としてではなく、尤度分布としてですよね?)。事前は、以前の研究から得られます(言いましょう)。だから私はこの方程式を得ました: y=β1x+εy=β1x+ε y = \beta_1 x + \varepsilon 私の可能性または後部であること(または、これは単に完全に間違っていますか)? β1β1\beta_1 標準回帰がベイズ回帰に​​どのように変換されるのか、単純に理解できません。

6
L2正則化はガウス事前分布と同等です
私はこれを読み続け、直感的にこれを見ることができますが、L2の正則化から分析的にガウス事前分布であると言うにはどうすればよいですか?L1がラプラシアンの事前分布と同等であることも同じです。 それ以上の参照は素晴らしいでしょう。

1
Rのロジスティック回帰により、完全な分離が発生しました(Hauck-Donner現象)。それで?
50の連続した説明変数を使用してバイナリの結果を予測しようとしています(ほとんどの変数の範囲はから)。私のデータセットにはほぼ24,000行あります。Rで実行すると、次のようになります。−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 完全な分離が発生している可能性があることを示唆する他の応答を読みましたが、データにはそうではないと確信しています(準完全な分離が存在する可能性がありますが、そうであるかどうかを確認するにはどうすればよいですか?) 。一部の変数を削除すると、「収束しませんでした」エラーがなくなる可能性があります。しかし、それは常に起こることではありません。 bayesglm関数で同じ変数を使用しようとすると、同じエラーが発生しました。 ここで何が起こっているのかを正確に把握するには、どのようなステップを踏むでしょうか?どの変数が問題を引き起こしているのかをどのように把握しますか?

2
変数選択のより決定的な議論
バックグラウンド 私は医学の臨床研究を行っており、いくつかの統計コースを受講しています。私は線形/ロジスティック回帰を使用した論文を公開したことがなく、変数の選択を正しく行いたいと考えています。解釈可能性は重要なので、凝った機械学習技術はありません。変数選択についての私の理解をまとめました-誰かが誤解に光を当てることを気にしますか?私が見つかりました。2(1)と同様のこの1の(2)CVの記事、しかし、彼らは非常に完全に私の懸念に答えませんでした。どんな考えでも大歓迎です!最後に3つの主要な質問があります。 問題と議論 私の典型的な回帰/分類問題には、200-300の観測値、15%の有害事象率(分類の場合)、および文献で「統計的に有意な」効果があると主張された、またはもっともらしいと主張されている40の変数のうち25の情報がありますドメイン知識によるセンス。 「統計的に有意」を引用符で囲みます。これは、全員と母親がステップワイズ回帰を使用しているように見えますが、Harrell(3)とFlom(4)は多くの正当な理由でそれを好まないようです。これは、Gelmanブログ投稿ディスカッション(5)でさらにサポートされています。ステップワイズが受け入れられるのは、これが本当に探索的分析であるか、予測に関心があり、相互検証スキームが関係している場合のみです。特に、多くの医学的併存症は共線性に悩まされ、研究は小さなサンプルサイズに悩まされるため、私の理解では、文献には多くの偽陽性が存在するということです。また、これにより、含める可能性のある変数について文献を信頼する可能性が低くなります。 別の一般的なアプローチは、予測変数と独立変数間の一連の単変量回帰/関連付けを開始点として使用することです。特定のしきい値未満(たとえば、p <0.2)。このStackExchangeの投稿(6)で概説されている理由により、これは間違っているか、少なくとも誤解を招くように思われます。 最後に、機械学習で一般的に見られる自動化アプローチは、L1(Lasso)、L2(Ridge)、L1 + L2コンボ(Elastic Net)などのペナルティを使用することです。私の理解では、これらにはOLSやロジスティック回帰と同じ簡単な解釈はありません。 Gelman + Hillは以下を提案します。 Statsコースでは、Fテストまたは逸脱分析を使用して、完全なモデルとネストされたモデルを比較し、変数ごとにモデル/変数選択を行うことも思い出します。これは理にかなっているように思えますが、dfごとの逸脱の最大の低下を引き起こす変数を見つけるために、順番にネストされたモデルをフィッティングすることは、簡単に自動化できるように思えるので(少し心配です)、次の順序の問題に苦しんでいるようにも見えます変数の包含をテストします。私の理解では、これは多重共線性と残差プロット(残差対予測)を調べることによっても補足されるべきであるということです。 質問: ゲルマンの要約は進むべき道ですか?彼の提案した戦略で何を追加または変更しますか? 潜在的な相互作用と変換(非常に偏り/エラー/脱落が発生しやすいようです)について純粋に考える以外に、潜在的なものを発見する別の方法はありますか?多変量適応回帰スプライン(MARS)が推奨されましたが、非線形性/変換は標準回帰モデルの同じ変数に変換されないことが通知されました。 私の目標が非常に単純だとしましょう:「Y上のX1の関連付けを推定したいのですが、X2のみを考慮します」。Y〜X1 + X2を単に回帰するだけで、実際の予測能力を参照せずに結果を報告するだけで十分ですか(クロス検証RMSEまたは精度測定によって測定される場合があります)?これは、イベントレートやサンプルサイズに応じて、またはR ^ 2が非常に低い場合に変化しますか(R ^ 2はオーバーフィッティングによって常に増加させることができるため、R ^ 2は良くないことを認識しています)。一般的に、予測力を最適化するよりも推論/解釈可能性に興味があります。 結論の例: 「X2の制御、X1はX1の参照レベルと比較してYと統計的に有意に関連していませんでした。」(ロジスティック回帰係数) 「X1はYの統計的に有意な予測因子ではありませんでした。モデルではdfの変化に対して逸脱度の低下が十分ではなかったからです。」(逸脱の分析) 相互検証は常に必要ですか?その場合、SMOTE、サンプリングなどを介してクラスのバランスを取ることもできます。

6
Rのロジスティック回帰の代替
ロジスティック回帰と同じタスクを実行する多くのアルゴリズムが欲しいです。それは、説明変数(X)を使用してバイナリ応答(Y)に予測を与えることができるアルゴリズム/モデルです。 アルゴリズムに名前を付けた後、Rでそれを実装する方法も示すことができれば嬉しいです。他のモデルで更新できるコードは次のとおりです。 set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

5
多重比較のために重回帰のp値を調整するのは良い考えですか?
あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります(サービスのyes / noおよび機会の数を使用)。需要を理論的に説明できる予測変数/独立変数が10個あります(年齢、性別、収入、価格、人種など)。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。 私の質問:回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか?先行研究への言及は大歓迎です。



6
効率的なオンライン線形回帰
私は通常の線形回帰を実行したいいくつかのデータを分析していますが、入力データの連続ストリーム(メモリにはすぐに大きくなります)と必要なオンライン設定を扱っているため、これは不可能ですこれが消費されている間にパラメータ推定値を更新します。つまり、すべてをメモリにロードして、データセット全体に対して線形回帰を実行することはできません。 私は単純な線形多変量回帰モデル、すなわち、 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 線形回帰パラメータおよびbの継続的に更新される推定値を作成するための最適なアルゴリズムは何ですか?AA\mathbf Abb\mathbf b 理想的には: 私が最もあるアルゴリズムたい更新当たりの空間と時間の複雑さ、Nは、独立変数の次元である(X)とMは従属変数(の次元であるY)。O(N⋅ M)O(N⋅M)\mathcal O(N\cdot M)NNNバツx\mathbf xMMMyy\mathbf y 新しいサンプルごとにパラメーターが更新される量を決定するパラメーターを指定できるようにしたいと思います。たとえば、0.000001は、次のサンプルがパラメーター推定の100万分の1を提供することを意味します。これは、遠い過去のサンプルの効果に対してある種の指数関数的な減衰を与えます。

2
線形回帰モデルに「一定の分散」があるとはどういう意味ですか?
エラー項に「一定の分散」があるとはどういう意味ですか?ご覧のとおり、1つの従属変数と1つの独立変数を持つデータがあります。定数分散は、線形回帰の仮定の1つです。ホモ分散性が何を意味するのか疑問に思っています。500行あるとしても、明らかに一定の単一の分散値を持つことになります。どの変数で分散を比較する必要がありますか?

3
なぜ必要ないのに、線形回帰の正規分布誤差項(および同次分散性)にそれほど注意を払うのですか?
残差の非正規性および/または不均一分散性がOLSの仮定に違反していると誰かが言うのを聞くたびにイライラするでしょう。OLSモデルのパラメーターを推定するには、これらの仮定はどちらもガウスマルコフの定理では必要ありません。OLSモデルの仮説検定で、これがどのように重要であるかがわかります。これらのことから、t検定、F検定、およびより一般的なWald統計のきちんとした公式が得られるからです しかし、それらなしで仮説検定を行うことはそれほど難しくありません。等分散性だけを落とすと、ロバストな標準誤差とクラスター化された標準誤差を簡単に計算できます。正規性を完全に落とす場合は、ブートストラップを使用し、エラー項、尤度比、およびラグランジュ乗数検定の別のパラメーター仕様を指定できます。 多くの人がそもそも満たす必要のない仮定に苦しんでいるのを見るので、このように教えるのは残念です。 より堅牢な手法を簡単に適用できる能力があるのに、なぜこれらの仮定にそれほど重点を置いているのでしょうか?重要なものが欠けていますか?




弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.