統計とビッグデータ regression

3

変数が異なる場合の通常の重回帰/単純回帰と多重回帰/単純回帰の関係を理解しようとしています。例えば、私は預金残高（関係分析しています市場レート（対）私は回帰直線的シンプルを実行する場合、私は、ログを取る場合）、相関が、しかし（-.74周り）負のとはかなり重要であり、従属変数の差と独立変数の差なので、私の方程式ははで回帰され、相関とR ^ 2はまったく重要ではありません（）。YTYTY_TRTRTR_Tdln(YT)dln⁡(YT)d\, \ln(Y_T)dR(T)dR(T)d\, R(T)R2=.004R2=.004R^2 = .004 この低い何か意味があるのかと思っていました。それは私のモデルが適合していないことを意味しますか、それとも異なるデータを見ているときにを無視しますか？データから、元の2つの変数の間に有意な相関関係があることがわかりますが、私のモデルでは、変数の違いを調べる必要があるので、どうすればよいのでしょうか。R2R2R^2R2R2R^2

13 regression time-series

3

ブートストラップされた回帰スロープを比較するにはどうすればよいですか？

それぞれ独立変数xと従属変数yのデータペアのn個の観測値を持つ2つのデータセットがあるとします。さらに、観測値を（置換を使用して）N回ブートストラップし、回帰y = a + bxを計算することにより、各データセットの回帰勾配の分布を生成すると仮定します。毎回。勾配が大幅に異なると言うために、2つの分布を比較するにはどうすればよいですか？分布の中央値間の差をテストするためのUテストはNに大きく依存します。つまり、ブートストラップを繰り返す頻度が高いほど、差は大きくなります。有意差を決定するために、分布間のオーバーラップをどのように計算する必要がありますか？

13 regression statistical-significance bootstrap

6

内因性と観察されていない異質性

内因性と観察されない異質性の違いは何ですか？内生性は、たとえば、省略された変数から来ることを知っていますか？しかし、私の知る限り、観測されていない不均一性が同じ問題を引き起こしています。しかし、これら2つの概念の違いはどこにあるのでしょうか？

13 regression assumptions

4

予測変数の異なるセットの重要性の比較

私は特定の問題を抱えている研究生にアドバイスをしていましたが、このサイトで他の人の意見を聞きたいと思いました。環境：研究者には3種類の予測変数がありました。各タイプには、異なる数の予測変数が含まれていました。各予測変数は連続変数でした：ソーシャル：S1、S2、S3、S4（4つの予測子）認知：C1、C2（つまり、2つの予測子）行動：B1、B2、B3（つまり、3つの予測子）結果変数も連続的でした。サンプルには約60人の参加者が含まれていました。研究者は、結果変数を説明する上でどのタイプの予測因子がより重要であるかについてコメントしたかった。これは、これらのタイプの予測因子の相対的な重要性に関するより広範な理論的懸念に関連していました。ご質問 1つの予測変数セットと別の予測変数セットの相対的な重要性を評価する良い方法は何ですか？各セットに異なる数の予測変数があるという事実に対処するための良い戦略は何ですか？解釈の際に注意すべき点は何ですか？例への参照や技術の議論も大歓迎です。

13 regression predictor importance

3

分散が大きい予測子は「より良い」ですか？

「基本統計」の概念に関する質問があります。学生として、私はこれが完全に間違っていると考えているかどうか、そしてそうである場合、その理由を知りたい：レッツは、私が仮に離婚を「怒りの管理の問題」との関係を見て、言うことをしようとしていますと言う（はい/いいえ）ロジスティック回帰で、私は二つの異なる怒りの管理スコアを使用するオプションがある- 100の両方でスコア1をアンケート評価ツール1と他の選択肢から得られます。スコア2は別のアンケートから得られます。仮に、怒りの管理の問題が離婚を引き起こすと以前の研究から信じる理由があります。私の500人のサンプルで、スコア1の分散がスコア2の分散よりもはるかに高い場合、スコア1がその分散に基づいて離婚の予測子として使用するのに適したスコアであると信じる理由はありますか？私には、これは本能的に正しいように思えますが、そうですか？

13 regression logistic

1

データが重複する時系列回帰

同じ株価指数、信用スプレッド（リスクフリー債と社債の月平均の差）の前年（12か月）の前年同期の株価収益率を回帰する回帰モデルを見ています利回り）、前年比インフレ率、鉱工業生産指数。このように見えます（ただし、この場合はインド固有のデータを置き換えます）。 SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) + b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2) SP500YOYはSP500インデックスの前年比リターンです。これを計算するために、SP500値の月間平均が計算され、各月の前年比リターンに変換されます（つまり、Jan'10-Jan'11、Feb'10- 2月11日、3月10日〜3月11日、…）。説明変数の側では、SP500YOYの12か月の遅れた値が、時間TのCREDITSPREADおよびINFLATIONおよびINDUSTRIALPRODUCTIONの2期間前に使用されます。INFLATIONASYMMは、インフレが5.0％のしきい値を超えているかどうかのダミーです。括弧内のインデックスは、各変数の時間インデックスを示しています。これは、標準のOLS線形回帰によって推定されます。このモデルを使用して、SP500のYOYリターンの1、2および3か月先を予測するには、インフレおよび鉱工業生産指数の3、4および5か月先の予測を生成する必要があります。これらの予測は、ARIMAモデルを2つのそれぞれに個別に適合させた後に行われます。1、2、3か月先のCreditSpread予測は、精神的な推定値として投入されています。このOLS線形回帰が正しい/正しくない、効率的/非効率的、または一般的に有効な統計的実践であるかどうかを知りたい。私が見る最初の問題は、重複するデータを使用することです。すなわち、株価指数の毎日の値は毎月平均化され、毎月ロールオーバーされる年間リターンの計算に使用されます。これにより、エラー用語が自己相関されます。次のいずれかの行で「修正」を使用する必要があると思います。ホワイトの不均一分散共分散推定量 Newey＆Westの不均一分散および自己相関整合（HAC）推定量 Hansen＆Hodrickの不均一分散一貫バージョンこのような重複データに標準のOLS線形回帰（補正なし）を適用することは本当に意味がありますか？さらに、SP500YOYを予測するために元のOLS線形回帰で使用する説明変数に3期間先のARIMA予測を使用しますか？私は以前にそのようなフォームを見たことがないので、重複する観測の使用を修正することを除いて、実際にそれを判断することはできません。

13 regression time-series autocorrelation

1

「単純な」測定誤差モデルをフィッティングする方法

「OLS」測定誤差モデルの推定に使用できる方法を探しています。 yi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xi=Xi+ex,ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yi=α+βXiYi=α+βXiY_{i}=\alpha + \beta X_{i} エラーは、未知の分散および独立した標準です。この場合、「標準」OLSは機能しません。σ2yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} ウィキペディアには魅力のない解決策がいくつかあります。2つは、「分散比」または信頼性比」は既知であり、は、真のリグレッサー分散です。私はこれに満足していません。なぜなら、分散を知らない人はどうして自分の比率を知ることができるのでしょうか？δ=σ2yσ2xδ=σy2σx2\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}λ=σ2Xσ2x+σ2Xλ=σX2σx2+σX2\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}σ2XσX2\sigma_{X}^2XiXiX_i とにかく、パラメータについて「知る」必要のないこれら2つ以外のソリューションはありますか？インターセプトとスロープのみのソリューションは問題ありません。

13 regression estimation errors-in-variables

3

LASSOソリューションを計算するためのGLMNETまたはLARS？

LASSO問題の係数を取得したい ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 問題は、glmnet関数とlars関数が異なる答えを与えることです。glmnet関数については、係数を求めます。| Y | | 単にλの代わりに、私はまだ異なる答えを得る。λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda これは予想されますか？ラースとの関係は何であるとglmnet λは？私はglmnetがLASSOの問題に対してより高速であることを理解していますが、どの方法がより強力かを知りたいですか？λλ\lambdaλλ\lambda deps_statsデータセットのサイズが大きすぎてLARSが処理できないのに対して、glmnetは大きなデータセットを処理できません。 mpiktas（Y-Xb）^ 2 + L \ sum | b_j |の解を見つけたいしかし、2つのアルゴリズム（larsとglmnet）から特定のLの計算された係数を求めると、異なる答えが得られます...そして、それは正しい/期待されているのでしょうか？または、2つの関数に間違ったラムダを使用しています。

13 r machine-learning regression lasso regularization

1

LARSと投げ縄の座標降下

L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか？私は主にパフォーマンスの側面に興味があります（私の問題はN数十万とp20未満にある傾向があります）。しかし、他の洞察も歓迎されます。編集：私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか？ [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート（2004）。「最小角度回帰」。統計32（2）：pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

3

相互作用効果を得るために係数を追加する-SEで何をすべきか？

相互作用を含む多変量回帰があります。たとえば、最貧五分位の治療効果の推定値を取得するには、治療回帰変数の係数を相互作用変数（治療と五分位1と相互作用する）の係数に追加する必要があります。回帰から2つの係数を追加するとき、どのように標準誤差を取得しますか？2つの係数から標準誤差を追加することは可能ですか？t-statsはどうですか？これらも追加することは可能ですか？私は推測していませんが、これに関するガイダンスを見つけることができません。よろしくお願いします！

13 regression standard-deviation standard-error

2

段階的回帰を使用する必要がある状況はありますか？

過去に多くの生物医学論文で段階的回帰が多用されていましたが、これは多くの問題のより良い教育により改善しているようです。ただし、多くの古いレビュアーはまだそれを求めています。ステップワイズ回帰に役割があり、使用する必要がある場合、どのような状況ですか？

13 regression multiple-regression feature-selection model-selection stepwise-regression

1

リッジ回帰のAIC：自由度とパラメーターの数

リッジ回帰モデルのAICcを計算します。問題はパラメーターの数です。線形回帰の場合、ほとんどの人は、パラメーターの数が推定係数とシグマ（誤差の分散）の数に等しいことを示唆しています。リッジ回帰に関しては、ハットマトリックスのトレース（自由度（df））がAIC式のパラメーターの項の数として単純に使用されることを読みました（たとえばhereまたはhere）。これは正しいです？dfを使用してAICcを計算することもできますか？エラー分散を説明するために、dfに+1を追加することはできますか？

13 regression aic ridge-regression degrees-of-freedom

2

UMPがないときに拒否領域を定義する方法は？

線形回帰モデルを考えます、y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u} 、u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}) 。E(u∣X)=0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0} LET 対H 1：σ 2 0 ≠ σ 2H0:σ20=σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1:σ20≠σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2。私たちは、その推測することができここで、Diは、m個（X）=N×K。そしてMXはアニヒレーターマトリックスのための典型的な表記法であるMXY= Y、 yは従属変数であるYに回帰X。yTMXyσ2∼χ2(n−k)yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dim(X)=n×kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy=y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}y^y^ \hat{\mathbf{y}}yy\mathbf{y}XX\mathbf{X} 私が読んでいる本は次のように述べています：以前に、拒否領域（RR）を定義するためにどの基準を使用する必要があるかを尋ねました。この質問た。主なものは、テストを可能な限り強力にするRRを選択することでした。この場合、二者間複合仮説である代替案では、通常UMPテストはありません。また、本で与えられた答えによって、著者はRRの力の研究をしたかどうかを示しません。それにもかかわらず、彼らは両側RRを選択しました。なぜ仮説は「一方的に」RRを決定しないのですか？編集：この画像は、演習4.14の解決策として本書の解決策マニュアルに記載されています。

13 regression hypothesis-testing mathematical-statistics inference

3

単純な線形回帰、p値、およびAIC

このトピックは、例えばhereの前に何度も出てきましたが、回帰出力をどのように解釈するのが最善かはまだわかりません。 x値の列とy値の列で構成される非常に単純なデータセットがあり、場所（loc）に従って2つのグループに分割されています。ポイントはこんな感じ同僚は、各グループに個別の単純な線形回帰を当てはめる必要があると仮定しましたy ~ x * C(loc)。出力を以下に示します。 OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.873 Model: OLS Adj. R-squared: 0.866 Method: Least Squares F-statistic: 139.2 Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27 Time: 14:18:50 Log-Likelihood: -27.981 No. Observations: 65 AIC: 63.96 Df Residuals: 61 BIC: 72.66 Df Model: …

13 regression p-value least-squares aic

2

なげなわの代わりにグループなげなわを使用する理由

私は、グループのなげなわが変数のグループの変数選択とスパース性に使用されることを読みました。この主張の背後にある直感を知りたい。グループ投げ縄が投げ縄よりも優先されるのはなぜですか？なぜグループラッソソリューションパスが区分的に線形ではないのですか？

13 regression feature-selection lasso regularization

タグ付けされた質問 「regression」

タグ付けされた質問「regression」