統計とビッグデータ regression

2

誰も非線形回帰に関する統計文献の良いレビュー記事を知っていますか？私は主に一貫性の結果と漸近に興味があります。特に興味深いのはモデルです y私トン= m （x私トン、θ ）+ ϵ私トン、y私t=m（バツ私t、θ）+ϵ私t、y_{it} = m(x_{it},\theta) + \epsilon_{it}, パネルデータ用。ノンパラメトリック法はあまり興味がありません。雑誌が調べるべき提案も大歓迎です。現在、私は計量経済学ハンドブックで雨宮（1983）を読んでいますが、おそらくもっと最新のものを手に入れたいと思っていました。 Journal of Econometricsの Wooldridge、JM（1996）「異なる方程式に対する異なる手段による方程式系の推定」は、上記のレビューよりも後の貢献の例であるため、含まれていません。

17 regression references nonlinear-regression

4

解釈可能なモデルが必要な場合、線形回帰以外の方法はありますか？

ランダムフォレストや勾配ブースティングなどの「MLモデル」は説明が難しい、または「解釈できない」と考えているため、予測に線形回帰以外のモデルを使用しない統計学者がいました。線形回帰では、仮定のセットが検証されると（エラーの正規性、等分散性、多重共線性なし）、t検定は変数の有意性をテストする方法を提供します。ランダムフォレストまたは勾配ブースティングモデル。したがって、私の質問は、独立変数のセットで従属変数をモデル化するかどうかです。解釈可能性のために、常に線形回帰を使用する必要がありますか？

16 regression machine-learning multiple-regression model-interpretation

3

回帰におけるnullモデルとは何ですか？またnull仮説とどのように関係しますか？

回帰におけるnullモデルとは何ですか？nullモデルとnull仮説の関係は何ですか？私の理解のために、それは意味します「応答変数の平均」を使用して連続応答変数を予測しますか？離散応答変数の予測に「ラベル分布」を使用していますか？その場合、帰無仮説間の関係が欠落しているようです。

16 regression hypothesis-testing classification terminology model

1

リッジ回帰の反転：与えられた応答行列と回帰係数、適切な予測子を見つける

標準的なOLS回帰問題：行列\ Yと\ Xがあり、L = \ | \ Y- \ X \ B \ | ^ 2を最小化するために\ Bを見つけたいです。解は\ hat \ B = \ argmin_ \ B \ {L \} =（\ X ^ \ top \ X）^ + \ X ^ \ top \ Yで与えられます。\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\Bβ = argmin β { …

16 regression least-squares ridge-regression

1

ロジスティック回帰におけるピアソンVS逸脱残差

標準化されたPearson Residualsは、従来の確率論的な方法で取得されることを知っています。 r私= y私- π私π私（1 - π私）−−−−−−−−√r私=y私−π私π私（1−π私） r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} および逸脱残差は、より統計的な方法（各ポイントの尤度への寄与）によって取得されます。 d私= s私− 2 [ y私ログπ私^+ （1 − y私）ログ（1 - π私）]−−−−−−−−−−−−−−−−−−−−−−−−−−√d私=s私−2[y私ログ⁡π私^+（1−y私）ログ⁡（1−π私）] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} ここで、 = 1の場合 = 1及び = -1であれば = 0。s私s私s_iy私y私y_is私s私s_iy私y私y_i 逸脱残差の式をどのように解釈するか、直感的に説明できますか？さらに、1つを選択したい場合、どちらがより適切で、なぜですか。ところで、いくつかの参考文献は、用語に基づいて逸脱残差を導出すると主張しています − 12r私2−12r私2-\frac{1}{2}{r_i}^2 ここで、は上記のとおりです。r私r私r_i

16 regression logistic generalized-linear-model residuals deviance

1

多重線形回帰では、なぜ予測点のプロットが直線上にないのですか？

YとX1、X2の関係を記述するために、多重線形回帰を使用しています。理論から、重回帰ではYと各X（YとX1、YとX2）の間の線形関係を仮定していることがわかりました。Xの変換は使用していません。そのため、R = 0.45とすべての有意なX（P <0.05）のモデルを取得しました。次に、X1に対してYをプロットしました。モデルの予測である赤色の円が線を形成しない理由がわかりません。前に言ったように、YとXの各ペアは線で近似されると予想しました。プロットは、Pythonで次のように生成されます。 fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

16 regression multiple-regression python linear

2

なぜリッジ回帰は、なげなわのようにいくつかの係数をゼロに縮小しないのですか？

LASSO回帰を説明するとき、ひし形と円の図がよく使用されます。LASSOの制約の形状はダイアモンドであるため、得られた最小二乗解がダイアモンドの角に接触し、何らかの変数の収縮につながる可能性があると言われています。ただし、リッジ回帰では、円であるため、多くの場合、軸に接触しません。なぜ軸に触れないのか、または特定のパラメーターを縮小する可能性がLASSOより低い可能性があるのか理解できませんでした。それに加えて、なぜLASSOとリッジの分散が通常の最小二乗よりも小さいのですか？上記はリッジとLASSOに対する私の理解であり、間違っているかもしれません。これら2つの回帰方法の分散が低い理由を理解してくれる人はいますか？

16 regression lasso ridge-regression

2

リッジ回帰の標準化に関する質問

ねえ、私はリッジ回帰を使用する1つまたは2つの論文を見つけました（バスケットボールのデータ用）。リッジ回帰を実行した場合は常に変数を標準化するように言われましたが、リッジはスケールバリアントであるため、単にこれを行うように言われました（リッジ回帰は実際にはコースの一部ではなかったので、講師はそれをざっと読みました）。私が読んだこれらの論文は変数を標準化していませんでした。また、クロスバリデーションによってラムダの値が大きくなり（2000〜4000レベル付近）、変数の標準化を行わなかったためだと言われました。変数を標準化されていないままにしておくと、どのようにラムダ値が高くなりますか？また、一般的に変数を標準化しないとどうなりますか？それは本当にそんなに大したことですか？どんな助けも大歓迎です。

16 regression standardization

1

リッジ回帰は、どのような条件下で通常の最小二乗回帰よりも改善できますか？

リッジ回帰は、線形モデルのパラメーター推定します byここで\ lambdaは正則化パラメーターです。多くの相関予測子がある場合、OLS回帰（\ lambda = 0を使用）よりもパフォーマンスがよく向上することがよく知られています。Y = X β β λ = （X ⊤ X + λ I ）- 1 X ⊤ Y、λ λ = 0ββ\boldsymbol \betay=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \betaβ^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,λλ\lambdaλ=0λ=0\lambda=0 リッジ回帰の存在定理によれば、パラメーター\ lambda ^ …

16 regression ridge-regression shrinkage

3

IV分位回帰に関する文献

ここ数ヶ月、私はこの夏の修士論文の準備として、分位点回帰について集中的に読みました。具体的には、このトピックに関するRoger Koenkerの2005年の本のほとんどを読みました。ここで、この既存の知識を拡張して、計測変数（IV）を可能にする分位点回帰手法にしたいと思います。これは活発な研究分野であり、急速に成長しているようです。誰かが私に提案することができます： IV分位回帰に関する論文またはその他の文献これらのさまざまな統計手法の概要さまざまな手法の長所と短所私は主に文学を探して、始めて、そこにあるものの良い概要を持っています。したがって、最初のポイントは重要なポイントです。2つ目と3つ目は良いでしょう！また、私の関心は主に断面法にありますが、パネル法も歓迎します。前もって感謝します。

16 regression references econometrics instrumental-variables quantile-regression

2

マップでの空間的および時間的相関の表示

私は全米の気象観測所のネットワークのデータを持っています。これにより、日付、緯度、経度、測定値を含むデータフレームが表示されます。データは1日に1回収集され、地域規模の天候によって駆動されると仮定します（いいえ、その議論に入るつもりはありません）。同時に測定された値が時間と空間にわたってどのように相関するかをグラフィカルに示したいと思います。私の目標は、調査されている価値の地域的な均質性（またはその欠如）を示すことです。データセットまず、マサチューセッツ州とメイン州の地域にあるステーションのグループに参加しました。NOAAのFTPサイトで利用可能なインデックスファイルから緯度と経度でサイトを選択しました。すぐに1つの問題が表示されます。同じような識別子を持つサイトや非常に近いサイトがたくさんあります。FWIW、私はUSAFとWBANコードの両方を使用してそれらを識別します。メタデータを詳しく見ると、座標と標高が異なり、データはあるサイトで停止してから別のサイトで開始することがわかりました。それで、私はそれ以上良く分からないので、それらを別々のステーションとして扱わなければなりません。これは、データが互いに非常に近いステーションのペアを含むことを意味します。予備分析暦月ごとにデータをグループ化して、異なるデータのペア間の通常の最小二乗回帰を計算してみました。次に、すべてのペア間の相関を、ステーションを結ぶ線としてプロットします（下図）。線の色は、OLS近似からのR2の値を示しています。図は、1月、2月などからの30以上のデータポイントが、対象エリアの異なるステーション間でどのように相関しているかを示しています。 6時間ごとにデータポイントがある場合にのみ1日の平均が計算されるように基礎となるコードを記述したため、データはサイト間で比較可能である必要があります。問題点残念ながら、1つのプロットで意味をなさないデータが多すぎます。行のサイズを小さくしても修正できません。領域内の最近傍間の相関をプロットしようとしましたが、それはすぐに混乱に変わります。以下のファセットは、ステーションのサブセットから最近傍を使用して、相関値のないネットワークを示しています。この図は、概念をテストするためのものです。 kkk ネットワークは複雑すぎるように見えるので、複雑さを軽減する方法、または何らかの空間カーネルを適用する方法を見つける必要があると思います。また、相関を示すのに最も適切なメトリックが何であるかはわかりませんが、意図した（非技術的な）対象者にとっては、OLSからの相関係数が最も簡単に説明できるかもしれません。勾配や標準誤差などの他の情報も提示する必要がある場合があります。ご質問私はこの分野とRへの道を同時に学んでいます。私がやろうとしていることの正式な名前は何ですか？より多くの文献を見つけることができる役立つ用語はありますか？私の検索は、一般的なアプリケーションでなければならないもののために空白を描いています。スペースで区切られた複数のデータセット間の相関を示すより適切な方法はありますか？ ...特に、視覚的に結果を簡単に表示できる方法はありますか？これらのいずれかがRに実装されていますか？これらのアプローチのいずれかが自動化に役立ちますか？

16 r regression data-visualization pca spatial

1

回帰係数を正規化する方法に関する質問

正規化がここで使用する正しい単語であるかどうかはわかりませんが、私が尋ねようとしていることを説明するために最善を尽くします。ここで使用される推定量は最小二乗です。、で平均を中心にできると仮定します。ここでおよび、それもはや推定には影響ありません。 Y = β ' 0 + β 1 X ' 1 β ' 0 = β 0 + β 1 ˉ X 1 、X ' 1 = X - ˉ X β ' 0 β 1y=β0+β1x1y=β0+β1x1y=\beta_0+\beta_1x_1y=β′0+β1x′1y=β0′+β1x1′y=\beta_0'+\beta_1x_1'β′0=β0+β1x¯1β0′=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1x′1=x−x¯x1′=x−x¯x_1'=x-\bar xβ′0β0′\beta_0'β1β1\beta_1 このI平均することにより中と同等です中。最小二乗計算を簡単にするために方程式を減らしました。、Y=β1、X ' 1 β 1、Y=β0+β1X1β^1β^1\hat\beta_1y=β1x′1y=β1x1′y=\beta_1x_1'β^1β^1\hat\beta_1y=β0+β1x1y=β0+β1x1y=\beta_0+\beta_1x_1 一般的にこの方法をどのように適用しますか？モデルがになりました。これをに削減しようとしています。y=β1ex1t+β2ex2ty=β1ex1t+β2ex2ty=\beta_1e^{x_1t}+\beta_2e^{x_2t}y=β1x′y=β1x′y=\beta_1x'

16 regression self-study least-squares regression-coefficients

2

残差の不均一分散性の測定

このウィキペディアのリンクには、OLS残差不均一性を検出するための多くの手法がリストされています。異分散の影響を受ける領域を検出するのに、どのハンズオン手法がより効率的かを知りたいと思います。たとえば、ここではOLSの「残差vs適合」プロットの中央領域は、プロットの側面よりも高い分散を持っているように見えます（事実は完全にはわかりませんが、質問のためだと仮定しましょう）。確認するには、QQプロットのエラーラベルを見ると、それらが残差プロットの中央のエラーラベルと一致していることがわかります。しかし、分散が著しく高い残差領域をどのように定量化できますか？

16 regression least-squares heteroscedasticity

2

回帰係数の逆変換

変換された従属変数を使用して線形回帰を実行しています。残差の正規性の仮定が保持されるように、次の変換が行われました。変換されていない従属変数は負に歪んでおり、次の変換によりそれが正常に近くなりました。 Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} ここで、YorigYorigY_{orig}は元のスケールの従属変数です。元のスケールに戻るには、ββ\beta係数に何らかの変換を使用するのが理にかなっていると思います。次の回帰式を使用して、 Y=50−Yorig−−−−−−−−√=α+β⋅XY=50−Yorig=α+β⋅XY=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X Xを修正することにより、X=0X=0X=0 α=50−Yorig−−−−−−−−√=50−αorig−−−−−−−−√α=50−Yorig=50−αorig\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}} そして最後に、 αorig=50−α2αorig=50−α2\alpha_{orig}=50-\alpha^2 同じロジックを使用して、私は見つけました βorig=α (α−2β)+β2+αorig−50βorig=α (α−2β)+β2+αorig−50\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50 これで、1つまたは2つの予測子を持つモデルで非常にうまく機能します。逆変換された係数は元の係数に似ていますが、標準誤差を信頼できるようになりました。問題は、次のような相互作用用語を含めるときに発生します Y=α+X1βX1+X2βX2+X1X2βX1X2Y=α+X1βX1+X2βX2+X1X2βX1X2Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2} そうすると、の逆変換は元のスケールの逆変換にそれほど近くなく、なぜ起こるのかわかりません。また、ベータ係数を逆変換するために見つかった式が、3番目のβ（相互作用項）でそのまま使用できるかどうかもわかりません。クレイジー代数に入る前に、私はアドバイスを求めると思いました...ββ\betaββ\beta

16 regression data-transformation

3

残差のサイズによってデータセットを階層化し、2サンプルの比較を行うことはまったく防御可能ですか？

これは一種のアドホックな方法として行われていると見られており、私には非常に怪しいように見えますが、おそらく何かが欠けています。私はこれを多重回帰で見ましたが、単純にしておきましょう： yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} 次に、近似モデルから残差を取得します ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) 残差のサイズに基づいてサンプルを階層化します。たとえば、最初のサンプルが残差の下部90％であり、2番目のサンプルが上部10％である場合、2つのサンプル比較を実行します-これはモデルの予測子で行われ、モデルにない変数。使用される非公式のロジックは、おそらく、モデルの下で予想される値をはるかに超える値を持つポイント（つまり、大きな残差）が何らかの方法で異なり、その違いがこの方法で調査されることです。xxx このテーマに関する私の考えは次のとおりです。モデルの予測変数に2サンプルの差がある場合、現在の状態ではモデルによって考慮されていない予測変数の効果（つまり、非線形効果）があります。モデルにない変数に2サンプルの差がある場合は、最初にモデルにあるはずです。私は（シミュレーションで）経験的に発見したことの一つは、モデルで予測値の平均値を比較している場合、つまりし、2つのサンプル手段を生成するために、このように階層化、¯ X 1及び¯ X 2、それらは互いに正の相関。両方のサンプルが依存するので、これは理にかなって¯のY、¯ X、σ X、σ Y及びρ X 、Yxxxx¯¯¯1x¯1\overline{x}_{1}x¯¯¯2x¯2\overline{x}_{2}y¯¯¯,x¯¯¯,σ^x,σ^yy¯,x¯,σ^x,σ^y\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}ρ^xyρ^xy\hat{\rho}_{xy}。その相関は、カットオフを下げると増加します（つまり、サンプルの分割に使用する％）。したがって、少なくとも、2サンプルの比較を行う場合、統計の分母の標準誤差を調整して、相関を考慮に入れる必要があります（ただし、共分散）。ttt とにかく、私の基本的な質問は次のとおりです。これを行う理由はありますか？もしそうなら、これはどのような状況でこれを行うのに役立つでしょうか？明らかに私は存在するとは思わないが、正しい方法で考えていないことがあるかもしれない。

16 regression residuals

タグ付けされた質問 「regression」

タグ付けされた質問「regression」