統計とビッグデータ regression

2

2つの期間の差モデルの差を推定すると、同等の回帰モデルは次のようになります。 a。 Y私のトン=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗（Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ここで、TreatmentTreatmentTreatmentはダミーであり、観測が治療グループからのものである場合は1に等しいおよび ddd、治療後の期間内に1に等しいダミーで発生しましたしたがって、方程式は次の値を取ります。対照群、治療前：αα\alpha 対照群、治療後：α+λα+λ\alpha +\lambda 治療群、治療前：α+γα+γ\alpha +\gamma 治療後の治療群： α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta したがって、2期間モデルでは、差の推定値の差はδδ\deltaです。しかし、治療前と治療後の期間が複数ある場合、に関してどうなりますか？治療の前後が1年かどうかを示すダミーを引き続き使用しますか？dtdtd_t または、各年が前処理期間に属するか後処理期間に属するかを指定せずに、代わりに年ダミーを追加しますか？このような： b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} または私は（すなわち、両方含むことができ、）？yeardummy+λdtyeardummy+λdtyeardummy +\lambda d_t c。Yist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \lambda d_t …

20 regression modeling econometrics panel-data difference-in-difference

2

回帰に平方変数を含めるとどうなりますか？

OLS回帰から始めますここで、Dはダミー変数で、推定値は低いp値でゼロとは異なります。次に、Ramsey RESETテストを実行し、方程式の誤認があることを発見しました。したがって、xの2乗を含みます Y = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 D + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 二乗項は何を説明しますか？（Yの非線形増加？）これを行うことにより、私のp推定値はゼロから変化せず、p値が高くなります。（一般的に）方程式の2乗項をどのように解釈しますか？編集：質問を改善します。

20 regression multiple-regression interpretation least-squares polynomial

3

ダミーコーディングとANCOVAで重回帰を使用する場合

私は最近、ANCOVAを使用して2つのカテゴリ変数と1つの連続変数を操作する実験を分析しました。しかし、レビューアーは、ダミー変数としてコード化されたカテゴリー変数を使用した重回帰が、カテゴリー変数と連続変数の両方を使用した実験により適したテストであることを示唆しました。 ANCOVAとダミー変数を使用した重回帰を使用するのが適切な場合と、2つのテストから選択する際に考慮すべき要因は何ですか？ありがとうございました。

20 regression multiple-regression ancova categorical-encoding

2

ANOVAの変数の順序は重要ではありませんか？

多因子ANOVAで変数が指定される順序は違いを生じるが、多重線形回帰を行う場合、順序は重要ではないことを理解するのは正しいですか？そのため、測定された失血 yや2つのカテゴリ変数などの結果を想定しますアデノイド切除術の方法 a、扁桃摘出方法 b。モデルy~a+bはモデルとは異なりますy~b+a（または、Rでの私の実装は示すようです）。ここでの用語は、ANOVAは階層モデルであるということを理解するのは正しいですか？最初の要因に残差の分散を割り当てる前に、最初の要因にできる限り多くの分散を割り当てるためですか？上記の例では、扁桃摘出術を行う前にアデノイド切除術を最初に行うので、階層は理にかなっていますが、固有の順序のない2つの変数があるとどうなりますか？

20 regression hypothesis-testing anova unbalanced-classes sums-of-squares

2

比率と割合の線形モデルを構築していますか？

何らかの種類の比率またはパーセンテージを予測するモデルを構築するとします。たとえば、パーティーに参加する男の子と女の子の数を予測したいとします。モデルで使用できるパーティーの特徴は、パーティーの広告の量、会場のサイズ、パーティーのアルコールなどになります（これは単なる例であり、機能はあまり重要ではありません。）私の質問は、比率とパーセンテージの予測の違いは何ですか？また、選択したモデルに応じてモデルはどのように変化しますか？一方が他方より優れていますか？他の機能はどちらよりも優れていますか？（比率と割合の具体的な数についてはあまり気にしません。どのパーティーが「男の子パーティー」と「女の子パーティー」のどちらである可能性が高いかを特定したいだけです。）たとえば、私は考え：パーセンテージ（たとえば、# boys / (# boys + # girls)）を予測する場合、依存フィーチャは0と1の間に制限されているため、おそらく線形回帰ではなくロジスティック回帰のようなものを使用する必要があります。比率を予測したい場合（たとえば、# boys / # girlsまたは# boys / (1 + # girls)ゼロ除算エラーを回避するため）、依存する特徴は正であるため、線形回帰を使用する前に何らかの種類の（ログ？）変換を適用する必要がありますか？（または、他のモデルですか？正の非カウントデータにはどのような回帰モデルが使用されていますか？）一般的に、比率ではなくパーセンテージを予測する方がよいでしょうか？

20 regression logistic

3

線形回帰で切片を抑制するのはなぜですか？

SAS、SPSSなどを含む多くの統計パッケージには、「傍受を抑制する」オプションがあります。なぜそれをしたいのですか？

20 regression

6

堅牢な（白）標準エラーを常に報告しますか？

AngristとPischkeは、Robust（すなわち、不均一分散または不均等な分散に対してロバスト）標準エラーは、テストではなく当然のこととして報告されていると示唆しています。2つの質問：等分散性がある場合の標準エラーへの影響は何ですか？誰かが実際に仕事でこれをしますか？

20 regression standard-error heteroscedasticity robust-standard-error

2

規範の文脈でのスーパースクリプト2サブスクリプト2の意味は何ですか？

最適化は初めてです。ノルムの右側に上付き文字2と下付き文字2がある方程式を見続けています。たとえば、ここに最小二乗方程式があります分| | Ax−b | |22||Aバツ−b||22 ||Ax-b||^2_2 上付き文字2を理解していると思います：それは標準の値を二乗することを意味します。しかし、下付き文字2とは何ですか？これらの方程式はどのように読むべきですか？

20 regression optimization notation

3

予想される予測エラー-導出

特に2.11および2.12の導出（条件付け、ポイントワイズ最小へのステップ）について、以下の予想予測誤差（ESL）の導出を理解するのに苦労しています。ポインタまたはリンクは大歓迎です。以下に、ESL pgからの抜粋を報告します。18.最初の2つの式は、順番に式2.11と2.12です。ましょX∈RpX∈RpX \in \mathbb{R}^p表す実数値ランダム入力ベクトル、および関節分布を有する実数値ランダム出力変数、。入力値を与えられたを予測するための関数を探します。この理論では、予測でエラーにペナルティを課すために損失関数必要であり、最も一般的で便利なのは2乗エラー損失です：。これは、を選択する基準につながります。Y∈RY∈RY \in \mathbb{R}Pr(X,Y)Pr(X,Y)\text{Pr}(X,Y)f(X)f(X)f(X)YYYXXXL （Y 、F （X ）） L(Y,f(X))L(Y,f(X))L(Y,f(X))L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split} 予想される（2乗）予測誤差。条件付けることにより、EPEを次のように記述できます。XXX EPE(f)=EXEY|X([Y−f(X)]2|X)EPE(f)=EXEY|X([Y−f(X)]2|X) \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X) EPEをポイント単位で最小化するだけで十分であることがわかります。 f(x)=argmincEY|X([Y−c]2|X)f(x)=argmincEY|X([Y−c]2|X) f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X) 解決策は f(x)=E(Y|X=x)f(x)=E(Y|X=x) f(x) = \text{E}(Y|X=x) 条件付き期待値、回帰関数とも呼ばれます。

20 regression prediction error

2

極端な学習マシン：それは何ですか？

エクストリームラーニングマシン（ELM）パラダイムについて1年以上考え、実装し、使用してきましたが、長くすればするほど、それが本当に良いことだとは思わなくなります。しかし、私の意見は、引用や新しい出版物を尺度として使用する場合、ホットなトピックのように見える科学コミュニティとは対照的であるようです。 ELMはHuang et。等基本的な考え方はかなり単純です。2層の人工ニューラルネットワークから始めて、最初の層の係数をランダムに割り当てます。これは、通常、バックプロパゲーションによって処理される非線形最適化問題を単純な線形回帰問題に変換します。詳細は、場合、モデルはx∈RDx∈RD\mathbf x \in \mathbb R^D f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk).f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk). f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. 現在、はすべてランダムに選択されていますが、のみが調整されます（二乗誤差損失を最小化するため）。自由度の損失に対する補償として、通常は、かなり多くの隠れノード（つまり、自由パラメーター）を使用することをお勧めします。wiwiw_ivikvikv_{ik}wiwiw_i 別の観点（ニューラルネットワーク側から来た文献で通常宣伝されているものではありません）から見ると、手順全体は単なる線形回帰ですが、基底関数ランダムに選択する場合などは、ϕϕ\phi ϕi(x)=σ(vi0+∑k=1Dvikxk).ϕi(x)=σ(vi0+∑k=1Dvikxk). \phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. （シグモイド以外の多くの選択肢がランダム関数に使用できます。たとえば、動径基底関数を使用しても同じ原理が適用されます。）この観点からすると、方法全体がほとんど単純化しすぎており、これは、この方法が本当に良い方法であると疑い始める点でもあります（...科学的マーケティングは確かですが）。だから、ここに私の質問があります：私の意見では、ランダム基底関数を使用して入力空間をラスタ化するという考え方は、低次元に適しています。高次元では、合理的な数の基底関数を持つランダム選択を使用して適切な選択を見つけることは不可能だと思います。したがって、ELMは高次元で低下しますか（次元の呪いのため）？この意見を支持/矛盾する実験結果をご存知ですか？リンクされた論文には、メソッドがSVMと同様に実行される27次元回帰データセット（PYRIM）が1つしかありません（一方、逆伝播ANNとの比較を確認したいのですが）より一般的には、ここでELMメソッドに関するコメントをしたいと思います。

20 regression

5

回帰での過剰適合の回避：正則化の代替

回帰の正則化（線形、ロジスティック...）は、過剰適合を減らす最も一般的な方法です。目標が予測精度（説明ではない）である場合、特にビッグデータセット（mi / billionの観測値とmillionsの機能）に適した、正則化の代替手段はありますか？

19 regression regularization overfitting

1

線形回帰での循環予測子の使用

風のデータ（0、359）と時刻（0、23）を使用してモデルを近似しようとしていますが、線形パラメーターではないため、線形回帰にうまく適合しないことが心配です。Pythonを使用してそれらを変換したいと思います。少なくとも風の場合には、度のsinとcosを使用してベクトル平均を計算することについて言及しましたが、全体ではありません。役立つかもしれないPythonライブラリまたは関連するメソッドはありますか？

19 regression python circular-statistics

1

このなげなわプロット（glmnet）の結論

以下は、mtcarsRのデータセットをmpgDVとして、その他を予測子変数として使用して、デフォルトのalpha（1、したがってlasso）を使用したglmnetのプロットです。 glmnet(as.matrix(mtcars[-1]), mtcars[,1]) さまざまな変数、特にam、cylおよびwt（赤、黒、水色の線）に関するこのプロットから何を結論付けることができますか？公開するレポートの出力をどのように表現しますか？私は次のことを考えました： wtはの最も重要な予測因子ですmpg。に悪影響を及ぼしていmpgます。 cylは弱い負の予測因子ですmpg。 amはの正の予測因子である可能性がありmpgます。他の変数は、のロバストな予測子ではありませんmpg。これについてのあなたの考えをありがとう。（注：cyl非常に近いまで0に到達しない黒い線です。）編集：以下はplot（mod、xvar = 'lambda'）であり、x軸を上記のプロットの逆順に表示します。（PS：この質問がおもしろい/重要だと思う場合は、賛成してください。）

19 regression feature-selection lasso glmnet

2

「ロジスティック回帰」という名前の意味は何ですか？

ここからロジスティック回帰の実装を確認しています。その記事を読んだ後、重要な部分はシグモイド関数を決定するための最良の係数を見つけることであるようです。それで、なぜこの方法が「ロジスティック回帰」と呼ばれるのか疑問に思います。対数関数に関連していますか？それをよりよく理解するために、おそらく歴史的な背景情報が必要です。

19 regression machine-learning logistic

3

リッジ回帰とPCA回帰の関係

私はウェブ上のどこかでリッジ回帰（正則化）とPCA回帰の関係を読んだことを覚えています：ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 なぜこれが本当ですか？これは最適化手順と関係がありますか？単純に、私はそれがOLSと同等であると予想していました。誰かがこれに関するリファレンスを持っていますか？

19 regression pca regularization ridge-regression

タグ付けされた質問 「regression」

タグ付けされた質問「regression」