統計とビッグデータ regression

2

であることを知っていこれは分散を計算したときに得られる距離です。β0^=y¯−β1^x¯β0^=y¯−β1^x¯\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= Var(\bar{y} - \hat{\beta_1}\bar{x}) \\ &= Var((-\bar{x})\hat{\beta_1}+\bar{y}) \\ &= Var((-\bar{x})\hat{\beta_1})+Var(\bar{y}) \\ &= (-\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= (\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= \frac{\sigma^2 (\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} しかし、それは私が得た限りです。私が計算しようとしている最終的な式は Var(β0^)=σ2n−1∑i=1nx2i∑i=1n(xi−x¯)2Var(β0^)=σ2n−1∑i=1nxi2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= \frac{\sigma^2 n^{-1}\displaystyle\sum\limits_{i=1}^n x_i^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 私が取得するかどうかはわかりません私の数学と仮定するとそこに正しいアップしています。(x¯)2=1n∑i=1nx2i(x¯)2=1n∑i=1nxi2(\bar{x})^2 = \frac{1}{n}\displaystyle\sum\limits_{i=1}^n x_i^2 これは正しい道ですか？ …

17 regression self-study

3

順序独立変数を持つ連続従属変数

連続従属変数yおよび順序変数X 1を含む独立変数が与えられた場合、線形モデルをどのように当てはめRますか？このタイプのモデルに関する論文はありますか？

17 r regression lasso ordinal-data predictor

2

最初の差分変数で回帰をどのように解釈しますか？

私には2つの時系列があります：市場リスクプレミアムのプロキシ（ERP;赤線）国債によりプロキシされたリスクフリーレート（青線）リスクフリーレートがERPを説明できるかどうかをテストしたい。これにより、基本的にTsay（2010年、第3版、96ページ）のアドバイスに従いました：Financial Time Series：線形回帰モデルを近似し、残差のシリアル相関を確認します。残差系列が単位根の非定常性である場合、従属変数と説明変数の両方の最初の差を取ります。最初のステップを実行すると、次の結果が得られます。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.77019 0.25103 26.97 <2e-16 *** Risk_Free_Rate -0.65320 0.04123 -15.84 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 図から予想されるように、関係は負であり重要です。ただし、残差は連続的に相関しています。したがって、最初に従属変数と説明変数の両方を違います。ここに私が得るものがあります： Coefficients: Estimate Std. Error t …

17 regression time-series

4

移動平均モデルの誤差項

これは、Box-Jenkins MAモデルに関する基本的な質問です。私が理解しているように、MAモデルは基本的に以前のエラー項に対する時系列値線形回帰です。つまり、観測値は最初に以前の値に対して回帰され、次に1つ以上の値がMAのエラー項として使用されますモデル。YYYet,...,et−net,...,et−ne_t,..., e_{t-n}YYYYt−1,...,Yt−nYt−1,...,Yt−nY_{t-1}, ..., Y_{t-n}Y−Y^Y−Y^Y - \hat{Y} しかし、ARIMA（0、0、2）モデルで誤差項はどのように計算されますか？MAモデルが自己回帰部分なしで使用され、したがって推定値がない場合、どのようにしてエラー項を取得できますか？

17 regression time-series arima box-jenkins

4

線形回帰での残差の分布の確認

単純な線形回帰、残差を保存し、残差の分布のヒストグラムを描くと仮定します。おなじみの分布のようなものが得られた場合、エラー項にこの分布があると仮定できますか？たとえば、残差が正規分布に似ていることがわかった場合、母集団の誤差項の正規性を仮定するのは理にかなっていますか？私はそれが賢明だと思いますが、どのようにそれを正当化できますか？^ U Iy=β0+β1x+uy=β0+β1x+uy=\beta_0+\beta_1x+uui^ui^\hat{u_i}

17 r regression residuals

3

Rの時間依存係数-実行方法

更新：別の更新で申し訳ありませんが、分数多項式と競合するリスクパッケージを使用したいくつかの可能な解決策を見つけました。問題私はRにある時間依存係数分析を行う簡単な方法を見つけることができません。変数係数を取り、それを時間依存係数（変数ではない）に入れてから、時間に対する変動をプロットしたいです： βmy_variable=β0+β1∗t+β2∗t2...βmy_variable=β0+β1∗t+β2∗t2...\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... 可能な解決策 1）データセットの分割この例（ラボセッションのパート2）を見てきましたが、別のデータセットの作成は複雑で、計算コストがかかり、あまり直感的ではないようです... 2）ランクの低いモデル-coxvcパッケージ coxvcパッケージには、問題に対処するためのエレガントな方法を提供します-ここだマニュアル。問題は、作成者がパッケージを開発していないことです（最後のバージョンは2007年5月23日以降です）。電子メールでの会話の後、パッケージが機能するようになりましたが、データセットで1回の実行に5時間かかりました（140 000エントリ）、期間の終わりに極端な推定値を提供します。ここで少し更新されたパッケージを見つけることができます-私はほとんどプロット関数を更新しました。それは単に微調整の問題かもしれませんが、ソフトウェアは信頼区間を簡単に提供できず、プロセスは非常に時間がかかるため、他のソリューションを今見ています。 3）timeregパッケージ印象的なtimeregパッケージもこの問題に対処していますが、その使用方法は定かではなく、スムーズなプロットが得られません。 4）分数多項式時間（FPT）モデルアニカ・ブッフホルツは、「治療と予後因子の経時変化の長期的影響の評価」に関する優れた論文を見つけました。彼女は、Sauerbreiらの提案したFPTが時間依存係数に最も適切であると結論付けています。 FPTは時変効果の検出に非常に優れていますが、ランクの削減アプローチでは時変効果の選択が含まれないため、モデルが非常に複雑になります。研究は非常に完了しているように見えますが、私には少し手の届かないところにあります。彼女はたまたまザウアーブレイと仕事をしているので、私も少し不思議に思っています。それは健全に思えますが、mfpパッケージを使用して分析を行うことができると思いますが、どうすればよいかわかりません。 5）cmprskパッケージ私は競合するリスク分析を行うことを考えてきましたが、計算には時間がかかるため、通常のcox回帰に切り替えました。CRRは、時間依存の共変量のオプションをthougあります。 .... cov2 matrix of covariates that will be multiplied by functions of time; if used, often these covariates would also appear in cov1 to give a prop hazards effect plus a …

17 r regression survival cox-model

1

ロジスティック回帰の特性

いくつかのロジスティック回帰を使用しており、平均推定確率は常にサンプル内の確率の割合に等しいことがわかりました。つまり、近似値の平均はサンプルの平均に等しくなります。誰かが私に理由を説明したり、このデモを見つけることができる参照を教えてもらえますか？

17 regression logistic modeling generalized-linear-model maximum-likelihood

3

制限されたターゲット変数をモデル化する方法は？

5つの変数があり、0〜70の範囲内にある必要があるターゲット変数を予測しようとしています。この情報を使用してターゲットをよりよくモデル化するにはどうすればよいですか？

17 regression bounds

2

ロジスティック回帰ベータと生データを使用して確率を取得するにはどうすればよいですか

適合モデル（文献から）があります。予測変数の生データもあります。確率を得るために使用すべき方程式は何ですか？基本的に、生データと係数を組み合わせて確率を得るにはどうすればよいですか？

17 regression logistic

1

単純な線形回帰のANOVA F検定の背後にあるロジック

単純線形回帰分析のANOVA F検定の背後にあるロジックを理解しようとしています。私が持っている質問は次のようなものです。F値、つまりMSR/MSE大きい場合、モデルは有意であると受け入れます。この背後にあるロジックは何ですか？

17 regression anova

2

線形回帰のt検定について

私は線形回帰でいくつかの仮説検定を実行する方法を考えています（null仮説は相関関係なし）。私が遭遇した主題に関するすべてのガイドとページは、t検定を使用しているようです。しかし、線形回帰のt検定が実際に何を意味するのか理解できません。t検定は、2つの母集団を比較するために、完全に間違った理解または精神モデルがない限り使用されます。しかし、リグレッサーとリグレッサンドは類似した母集団のサンプルではなく、同じユニットでさえないかもしれないので、それらを比較することは意味がありません。それでは、線形回帰でt検定を使用する場合、実際に何をしているのでしょうか？

17 regression t-test

3

使用するglmファミリを決定する方法は？

いくつかの異なる収集手法を比較しようとしている魚の密度データがあり、データには多くのゼロがあり、ヒストグラムはポアソン分布に適しているように見えますが、密度としては整数データではありません。私はGLMに比較的不慣れで、使用するディストリビューションをどのように判断するかをオンラインで探していましたが、この決定に役立つリソースを見つけることができませんでした。データのサンプルヒストグラムは次のようになります。 GLMに使用する適切なファミリを決定する方法についてはわかりません。誰かがアドバイスをしたり、私がチェックアウトするリソースを私に提供できるなら、それは素晴らしいでしょう。

17 regression distributions generalized-linear-model link-function

3

負のR 2乗とはどういう意味ですか？

いくつかのデータがあり、そのデータをモデルに適合させたとしましょう（非線形回帰）。次に、Rの2乗（R2R2R^2）を計算します。 R-2が負の場合、それはどういう意味ですか？それは私のモデルが悪いということですか？の範囲はR2R2R^2[-1,1]になります。ときR2R2R^2平均のことだけでなく何をするか、0でありますか？

17 regression goodness-of-fit r-squared curve-fitting

3

ロジスティック回帰またはT検定？

人のグループが1つの質問に答えます。答えは「はい」または「いいえ」です。研究者は、年齢が回答のタイプに関連しているかどうかを知りたいと考えています。この関係は、年齢が説明変数であり、回答のタイプ（yes、no）が従属変数であるロジスティック回帰を行うことにより評価されました。それぞれ「はい」および「いいえ」と答えたグループの平均年齢を計算し、平均を比較するためにT検定を実施することにより、個別に対処しました。両方のテストは異なる人のアドバイスに従って実行されましたが、どちらも正しい方法であるかどうかはわかりません。研究の質問を考慮して、より良いテストはどれですか？仮説検定では、p値は有意（回帰）および有意（T検定）ではありませんでした。サンプルは20ケース未満です。

17 regression logistic t-test

2

相関行列を使用して回帰の予測変数を選択していますか？

数日前、私の心理学者である私の研究者は、線形回帰モデルに変数を選択する彼の方法について私に話しました。私はそれは良くないと思いますが、他の誰かに確かめてもらう必要があります。メソッドは次のとおりです。すべての変数（従属変数Yを含む）間の相関行列を見て、Yと最も相関する予測子Xを選択します。彼は基準について言及しなかった。 Q：彼は正しかったですか？ [この予測方法は間違っていると思う。なぜなら、どの予測変数を選択すべきか、あるいは変数バイアス（OVB）を省略すべきだという理論だからだ。]

17 regression correlation model-selection

タグ付けされた質問 「regression」

タグ付けされた質問「regression」