タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。


9
ニューラルネットワークの予測の信頼性を判断する方法
私の質問を説明するために、たとえば入力にはある程度のノイズがあり、出力にはないトレーニングセットがあるとします。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ここで、出力は、ノイズがない場合の入力配列の勾配です(実際の勾配ではありません)。 ネットワークをトレーニングした後、特定の入力に対して出力は次のようになります。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

3
シンプソンのパラドックスを理解する:性別と身長で収入が減少するアンドリュー・ゲルマンの例
Andrew Gelmanは最近のブログ投稿の1つで次のように述べています。 私はシンプソンのパラドックスに反事実または潜在的な結果が必要だとは思わない。シンプソンのパラドックスを、操作できない変数で設定したり、操作に直接興味がない変数で設定したりできるためです。 シンプソンのパラドックスは、より多くの予測変数を追加すると回帰係数が変化するというより一般的な問題の一部であり、符号の反転は実際には必要ありません。 以下は、両方のポイントを説明する私の指導で使用する例です。 性別と身長から収入を予測する回帰を実行できます。性別の係数は10,000 ドル(つまり、同じ高さの男性と女性を比較すると、平均して男性は10,000 ドル多くなります)、高さの係数は500 ドル(つまり、2人の男性または2人の女性を比較)身長が異なる場合、平均して背の高い人は身長1インチあたり500 ドル多くなります)。 これらのcoefをどのように解釈できますか?私は確かにそれは高さに退行に何らかの形で「間違っている」と思われる、(それは高さの異なる同性の2人を比較すると想像するのは簡単です)高のCOEFが解釈しやすいと感じずに生の限り、セックスのための制御します背の低い人と背の高い人の違いは、男性と女性の違いであることによって「説明」できます。しかし、上記のモデルの性別を解釈するのは非常に難しいようです。たとえば、両方の身長が66インチの男性と女性を比較するのはなぜでしょうか。これは、背の低い男性と背の高い女性の比較になります。この推論はすべて漠然と因果関係にあるように見えますが、潜在的な結果を使用してそれを考えることは理にかなっていないと思います。 私はそれについて熟考し(そして投稿にコメントしさえしました)、ここでより明確に理解されるように懇願する何かがあると思います。 性別の解釈に関する部分までは大丈夫です。しかし、私は背の低い男性と背の高い女性を比較することの背後にある問題が何であるかわかりません。私のポイントは次のとおりです。実際、それはさらに意味があります(男性は平均して背が高いと仮定すると)。収入の違いは高さの違いによって何らかの部分で説明されるというまったく同じ理由で、「背の低い男性」と「背の低い女性」を比較することはできません。同じことは背の高い男性と背の高い女性にも当てはまり、さらに背の低い女性と背の高い男性にも言えます(いわば、それはさらに問題外です)。したがって、基本的に身長の影響は、背の低い男性と背の高い女性を比較する場合にのみ排除されます(これは、性別の係数の解釈に役立ちます)。人気のマッチングモデルの背後にある同様の基礎概念に鐘を鳴らしていませんか? シンプソンのパラドックスの背後にある考え方は、人口効果がサブグループごとの効果とは異なる可能性があるということです。これはある意味で彼のポイント2と、高さを単独で制御すべきではないことを認めているという事実に関連しています(変数バイアスの省略)。しかし、私はこれを性別の係数に関する論争と関連付けることはできませんでした。 それをもっとはっきりと表現できるかもしれませんか?または私の理解についてコメントしますか?

2
回帰におけるWaldテスト(OLSおよびGLM):t分布とz分布
回帰係数のWald検定は、漸近的に保持される次のプロパティに基づいていることを理解しています(たとえばWasserman(2006):All Statistics、pages 153、214-215): ここで推定回帰係数を示し、は回帰係数の標準誤差を示し、は係数の値をテストするために関心のある値(は通常0です) 0とは大きく異なります)。サイズようワルドテストがある:リジェクト場合β^SE(β)β0β0αH0| W| >Zα/2(β^- β0)seˆ(β^)〜 N(0 、1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}seˆ(β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}|W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}ここで、 W= β^seˆ(β^)。W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. ただしlm、Rで線形回帰を実行する場合、回帰係数が0(with )と大きく異なるかどうかをテストするために、値の代わりに値が使用されます。さらに、in R の出力は、テスト統計として値と値を提供する場合があります。明らかに、分散パラメータが既知であると想定される場合は値が使用され、分散パラメータが推定される場合は値が使用されます(このリンクを参照)。z z t z ttttzzzsummary.lmglmzzztttzzzttt 係数とその標準誤差の比率が標準正規分布として分布していると想定されているのに、なぜWald検定に分布が使用されることがあるのか、誰か説明できますか?ttt 質問に答えた後に編集する この投稿は、質問に役立つ情報も提供します。

3
LarsとGlmnetがLa​​sso問題に対して異なるソリューションを提供するのはなぜですか?
私は、より良好なRパッケージを理解したいLarsとGlmnet:ラッソ問題解決するために使用され、 (p変数およびNサンプルについては、3ページのwww.stanford.edu/~hastie/Papers/glmnet.pdfを参照)M I nは(β0β)∈ Rp + 1[ 12N∑私 = 1N( y私− β0− xT私β)2+ λ | |β| |l1]m私n(β0β)∈Rp+1[12N∑私=1N(y私−β0−バツ私Tβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN したがって、同じおもちゃのデータセットに両方を適用しました。残念ながら、2つの方法は同じデータ入力に対して同じソリューションを提供しません。誰が違いがどこから来るのかを知っていますか? 結果を次のように取得しました。いくつかのデータ(8個のサンプル、12個の特徴、Toeplitzデザイン、すべてが中心)を生成した後、Larsを使用してLassoパス全体を計算しました。次に、Larsによって計算されたラムダのシーケンス(0.5を乗算)を使用してGlmnetを実行し、同じソリューションを取得したいと考えましたが、実行しませんでした。 ソリューションが似ていることがわかります。しかし、どのように違いを説明できますか?以下に私のコードを見つけてください。関連する質問があります:LASSOソリューションを計算するためのGLMNETまたはLARS?、しかし、私の質問に対する答えは含まれていません。 セットアップ: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 …

5
回帰における不均衡なデータのサンプリング
分類のコンテキストで不均衡なデータを処理することに関して良い質問がありましたが、私は人々が回帰のためにサンプリングするために何をするのかと思っています。 問題の領域はサインに対して非常に敏感ですが、ターゲットの大きさに対してはわずかに敏感であるとします。ただし、その大きさは十分に重要であるため、モデルは分類(ポジティブクラスとネガティブクラス)ではなく回帰(連続ターゲット)である必要があります。そして、この問題領域では、トレーニングデータのセットはポジティブターゲットよりも10倍多いネガティブになると言います。 このシナリオでは、ポジティブターゲットの例をオーバーサンプリングしてネガティブターゲットの数と一致させ、モデルをトレーニングして2つのケースを区別します。明らかに、不均衡なデータではトレーニングアプローチがひどく機能するため、何らかのサンプリングを行う必要があります。予測を行うときに、このオーバーサンプリングを「元に戻す」適切な方法は何でしょうか?おそらく、自然なトレーニングデータのターゲットの(負の)平均または中央値で翻訳しますか?

5
生または直交多項式回帰?
変数をに回帰させたい。生の多項式または直交多項式を使用してこれを行う必要がありますか?私はこれらを扱っているサイトで質問を見ましたが、私はそれらを使用することの違いが何であるかを本当に理解していません。 x 、x 2、… 、x 5yyyx 、x2、… 、x5x,x2,…,x5x,x^2,\ldots,x^5 なぜだけ係数を取得するために「正常な」回帰を行うことはできませんの、Yが= Σ 5 iは= 0 β I X Iをβ私βi\beta_iy= ∑5i = 0β私バツ私y=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i(p値及び全ての他の素敵なものと一緒に)、代わりに生の多項式を使用するか直交多項式を使用するかを心配する必要がありますか?この選択は、私がやりたいことの範囲外にあるように思えます。 私が現在読んでいる統計書(TibshiraniらによるISLR)では、これらのことは言及されていませんでした。実際、彼らはある意味で軽視されていました。 その理由は、lm()R の関数で、y ~ poly(x, 2)直交多項式の使用にy ~ x + I(x^2)量を使用し、生の多項式の使用に量を使用することです。しかし116ページで著者は最初のオプションを使用すると言っています。後者は「面倒」であり、これらのコマンドが実際に完全に異なるものに影響を与える(そして結果として異なる出力を持つ)ことを示しません。 (3番目の質問)ISLRの著者は、なぜ読者をそのように混乱させるのでしょうか?

1
アブレーション研究とは何ですか?そしてそれを実行する体系的な方法はありますか?
アブレーション研究とは何ですか?そしてそれを実行する体系的な方法はありますか?たとえば、モデルとして呼び出す線形回帰には予測子があります。nnn これに対してアブレーション研究をどのように実行しますか?どの指標を使用すればよいですか? 包括的な情報源または教科書をいただければ幸いです。

4
相関の基礎となる仮定と有意性の回帰勾配検定の違い
私の質問は、別の質問のコメントでの@whuberとの議論から生まれました。 具体的には、@ whuberのコメントは次のとおりです。 驚くかもしれない理由の1つは、相関テストと回帰スロープテストの基礎となる仮定が異なることです。そのため、相関とスロープが実際に同じものを測定していることを理解したとしても、なぜそれらのp値は同じである必要があるのでしょうか?これは、これらの問題が単にとが数値的に等しいかどうかよりも深くなることを示しています。rrrββ\beta これは私の考えを得て、私はさまざまな興味深い答えに出くわしました。たとえば、「相関係数の仮定」という質問を見つけましたが、上記のコメントがどのように明確になるかわかりません。 ピアソンのと傾きの関係について、単純な線形回帰でもっと面白い答えを見つけました(こことここを例に参照)私に)。rrrββ\beta 質問1:相関テストと回帰スロープテストの基礎となる仮定は何ですか? 2番目の質問では、次の出力を検討してRください。 model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.3807 4.4224 1.895 0.0789 . …

1
同じ箱とひげのプロット(平均/標準/中央値/ MAD /最小/最大)を持つAnscombeのようなデータセット
編集:この質問が膨らんだので、要約:同じ混合統計(平均、中央値、ミッドレンジ、およびそれらに関連する分散、および回帰)を持つ異なる意味のある解釈可能なデータセットを見つけます。 Anscombeカルテット(高次元データを視覚化する目的を参照してください)は、同じ周辺平均/標準偏差(4つのと4つので別々に)と同じOLS線形フィットを持つ4つの -データセットの有名な例です、回帰および残差平方和、相関係数。したがって、タイプの統計(周辺および結合)は同じですが、データセットはまったく異なります。y x yxxxyyyxxxyyyℓ 2R2R2R^2ℓ2ℓ2\ell_2 編集(OPコメントから)小さいデータセットサイズを別にして、いくつかの解釈を提案させてください。セット1は、分布ノイズとの標準的な線形(アフィン、正確には)関係として見ることができます。セット2は、より高度な適合の絶頂である可能性のあるきれいな関係を示しています。セット3は、1つの外れ値を持つ明確な線形統計依存性を示しています。セット4はよりトリッキーですからを「予測」する試みは失敗に結びついているようです。の設計により、値の範囲が不十分なヒステリシス現象、量子化効果(が過度に量子化される可能性があります)、またはユーザーが従属変数と独立変数を切り替えました。x x xyyyxxxxxxxxx したがって、サマリー機能は非常に異なる動作を隠します。セット2は、多項式近似によりうまく対処できます。セット4と同様に、外れ値に耐性のあるセット(など)およびセット4。編集(OPコメントから):ブログ投稿Curious Regressionsは次のように述べています:ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1 ちなみに、Frank Anscombeがこれらのデータセットをどのように思いついたかは明らかにしなかったと聞いています。要約統計量と回帰結果をすべて同じにすることが簡単な作業だと思う場合は、試してみてください! でアンスコムの例と同様の目的のために構築されたデータセット、いくつかの興味深いデータセットは、同じ位数ベースのヒストグラムと、たとえば、与えられています。意味のある関係と統計の混合が見られませんでした。 私の質問は次のとおりℓ2ℓ2\ell_2です。同じタイプの統計を持つことに加えて、2変量(または視覚化を維持するための3変量)Anscombeのようなデータセットがあります。 それらのプロットは、測定と測定の間の法則を探しているかのように、と 関係として解釈できます。yxxxyyy それらは同じ(より堅牢な)限界特性(同じ中央値と絶対偏差の中央値)を持ち、ℓ1ℓ1\ell_1 同じ境界ボックス:同じ最小値、最大値(したがってタイプのミッドレンジおよびミッドスパン統計)。ℓ∞ℓ∞\ell_\infty このようなデータセットは、各変数に同じ「箱ひげ」プロットの要約(最小、最大、中央値、絶対偏差/ MADの中央値、平均、標準)を持ち、解釈がまったく異なります。 少なくとも絶対回帰がデータセットで同じである場合はさらに興味深いでしょう(しかし、私はすでにあまりにも多くを求めています)。ロバストな回帰とロバストでない回帰について説明する際の注意点として、リチャードハミングの引用を覚えておいてください。 計算の目的は、数値ではなく洞察です 編集(OPコメントから)同様の問題は、同一の統計情報を使用したデータの生成、非類似グラフィックス、Sangit Chatterjee&Aykut Firata、The American Statistician、2007、またはクローンデータ:まったく同じ多重線形回帰近似Jでのデータセットの生成で扱われますオースト。N.-Z. 統計 J. 2009。 Chatterjee(2007)の目的は、同じ平均と初期データセットからの標準偏差を持つ新しいペアを生成し、異なる「相違/相違」目的関数を最大化することです。これらの関数は非凸関数または非微分関数になる可能性があるため、遺伝的アルゴリズム(GA)を使用します。重要な手順はオルソ正規化で構成されます。これは、平均と(単位)分散の保存と非常に一貫しています。論文の数字(論文の内容の半分)は、入力データとGA出力データを重ね合わせます。私の意見では、GA出力は元の直感的な解釈の多くを失います。(x,y)(x,y)(x,y) 技術的には、中央値も中間値も保持されず、論文では、、および統計を保持する繰り込み手順については言及されていません。ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

2
不均衡なデータのロジスティック回帰に重みを追加する
不均衡なデータ(9:1)でロジスティック回帰をモデル化します。glmR の関数でweightsオプションを試してみたかったのですが、それが何をするのか100%確信できません。 私の出力変数がであるとしましょうc(0,0,0,0,0,0,0,0,0,1)。今、私は「1」に10倍の重みを与えたいです。だから私は重みの引数を与えますweights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 私がそれをするとき、それは最尤法の計算で考慮されます。私は正しいですか?「1」の誤分類は、「0」の誤分類よりも10倍悪いだけです。

2
なぜ残差の正規性は、回帰直線を推定するために「非常に重要」なのですか?
Gelman and Hill(2006)はp46に次のように書いています。 一般的に最も重要でない回帰の仮定は、エラーが正規分布しているということです。実際、(個々のデータポイントの予測と比較して)回帰直線を推定する目的では、正規性の仮定はほとんど重要ではありません。したがって、多くの回帰テキストとは対照的に、回帰残差の正常性の診断はお勧めしません。 ゲルマンとヒルはこの点についてこれ以上説明していないようです。 ゲルマンとヒルは正しいですか?その場合、次に: なぜ「まったく重要」なのですか?なぜ重要でもまったく無関係でもないのですか? 個々のデータポイントを予測するときに残差の正規性が重要なのはなぜですか? ゲルマン、A。、&ヒル、J。(2006)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局


2
重み付き最小二乗回帰の重みをどのように見つけますか?
WLS回帰のプロセスで少し迷っています。データセットが与えられましたが、私のタスクは異分散があるかどうかをテストすることです。そうであれば、WLS回帰を実行する必要があります。 私はテストを実施し、異分散の証拠を見つけたので、WLSを実行する必要があります。WLSは基本的に変換されたモデルのOLS回帰であると言われましたが、変換関数を見つけることについて少し混乱しています。私は、変換がOLS回帰からの二乗残差の関数になり得ることを示唆するいくつかの記事を読みましたが、誰かが正しい軌道に乗るのを手伝ってくれれば幸いです。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.