統計とビッグデータ regression

2

最小二乗と線形回帰の違いは何ですか？同じことですか？

12 regression least-squares terminology

2

argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n しかし、私はLPの初心者なので、段階的に解決する考えはありません。何かアイデアはありますか？前もって感謝します！編集：これが私がこの問題に到達した最新の段階です。私はこのメモに続く問題を解決しようとしています：ステップ1：標準形式に定式化する minZ=∑ni=1uiminZ=∑i=1nui\min Z=\sum_{i=1}^{n}u_{i} xTw−ui+s1=yii=1,…,nxTw−ui+s1=yii=1,…,n \textbf{x}^T\textbf{w} -u_i+s_1=y_{i} \; i = 1,\ldots,n xTw+ui+s2=−yii=1,…,nxTw+ui+s2=−yii=1,…,n \textbf{x}^T\textbf{w} +u_i+s_2=-y_{i} \; i = 1,\ldots,n s_1 \ ge 0の対象s1≥0;s2≥0;ui≥0 i=1,...,ns1≥0;s2≥0;ui≥0 i=1,...,ns_1 \ge 0; s_2\ge 0; …

12 regression optimization quantile-regression linear-programming least-absolute-deviations

1

GLMのMLEを見つけるためのIRLSメソッドの簡単で直感的な説明を提供できますか？

バックグラウンド： GLMのMLE推定に関するプリンストンのレビューをフォローしようとしています。私はMLE推定の基礎を理解：likelihood、score、観察し、期待Fisher informationとFisher scoring技術。そして、私はMLE推定で単純な線形回帰を正当化する方法を知っています。質問：このメソッドの最初の行すら理解できません:( 次のように定義された作業変数の背後にある直観は何ですか？ziz私z_i zi=η^i+(yi−μ^i)dηidμizi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} なぜβを推定するために代わりに使用されるのですか？yiyiy_iββ\beta そしてresponse/link function、とμの間の接続であるとの関係は何ですかηη\etaμμ\mu 誰もが簡単な説明をしているか、これについてより基本的なレベルのテキストに私を導くことができるならば、私は感謝するでしょう。

12 regression generalized-linear-model maximum-likelihood link-function irls

1

GBMパッケージとGBMを使用したキャレット

私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5％の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。私の質問は次のとおりです。 1）これらの2つのパッケージは同じであっても違いがあるのはなぜですか（確率的ですが、5％がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの）。 2）両方のパッケージを使用する利点または欠点はありますか？ 3）無関係：irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

12 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

モデレート回帰：予測子間の*積*項を計算するのはなぜですか？

モデレート回帰分析は、2つ以上の予測変数/共変量間の相互作用を評価するために、社会科学でよく使用されます。通常、2つの予測変数を使用して、次のモデルが適用されます。 Y=β0+β1∗X+β2∗M+β3∗XM+eY=β0+β1∗X+β2∗M+β3∗XM+eY = β_0 + β_1*X + β_2*M + β_3*XM + e モデレーションのテストは、積項XMXMXM（独立変数XXXとモデレーター変数間の乗算）によって操作可能になっていることに注意してくださいMMM。私の非常に根本的な質問は、なぜXXXと間の積項を実際に計算するのMMMですか？なぜ、たとえば、絶対的な違いはありません|M−X||M−X||M-X|または単に合計X+MX+MX + M？興味深いことに、この問題へのケニーの暗示がここhttp://davidakenny.net/cm/moderation.htmと言って：「としては見られますが、節度のテストは常に、製品の長期XMことによって操作されていない」が、さらに説明が与えられていません。正式なイラストや証拠は啓発的なものになると思います。

12 regression interaction

1

LASSOの自由度の直観

ゾウ他「なげなわの「自由度」」（2007）は、非ゼロ係数の数がなげなわの自由度の公平で一貫した推定値であることを示しています。それは私には少し直感に反しているようです。回帰モデルがあると仮定します（変数は平均がゼロです）。 y= βX + ε 。y=βバツ+ε。y=\beta x + \varepsilon. 無制限のOLS推定値がます。これは、非常に低いペナルティ強度に対する LASSO推定値とほぼ一致する可能性があります。ββ\betaβ^O L S= 0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta さらに、特定のペナルティ強度 LASSO推定値がます。たとえば、は、クロス検証を使用して見つかったデータセットの「最適な」になります。 λ∗λ∗\lambda^*β^L A SSO 、λ∗= 0.4β^LASSO、λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4λ∗λ∗\lambda^*λλ\lambda 正しく理解すれば、どちらの場合も1つの非ゼロ回帰係数があるため、どちらの場合も自由度は1です。質問：はよりもフィッティングの「自由」が少ないことを示唆しているのに、どちらの場合も自由度は同じなのでしょうか？ β OLS=0.5β^L A SSO 、λ∗= 0.4β^LASSO、λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4β^O L S= 0.5β^OLS=0.5\hat\beta_{OLS}=0.5 参照： Zou、Hui、Trevor Hastie、およびRobert Tibshirani。「投げ縄の「自由度」について。」統計学年報35.5（2007）：2173-2192。

12 regression lasso degrees-of-freedom shrinkage

3

完全な多重共線性の例は何ですか？

設計行列Xに関する完全な共線性の例は何ですかXXXですか？私は、例えばたいβ =を（X ' X ）- 1 X ' Yがので、推定することができない（X ' Xが）可逆ではありません。β^=(X′X)−1X′Yβ^=(X′X)−1X′Y\hat \beta = (X'X)^{-1}X'Y(X′X)(X′X)(X'X)

12 regression multicollinearity matrix matrix-inverse

1

ポアソン回帰の過分散に対処する方法：準尤度、負の二項GLM、または被験者レベルのランダム効果？

ポアソン応答変数の過分散とすべての固定効果開始モデルに対処するための3つの提案に出会いました。準モデルを使用します。負の二項GLMを使用します。被験者レベルのランダム効果を持つ混合モデルを使用します。しかし、実際に選択するのはなぜですか？これらの間に実際の基準はありますか？

12 regression negative-binomial poisson-regression overdispersion quasi-likelihood

3

Normalエラーの仮定は、YもNormalであることを意味しますか？

誤解しない限り、線形モデルでは、応答の分布には系統的な成分とランダムな成分があると想定されます。エラー項は、ランダム成分をキャプチャします。したがって、エラー項が正規分布であると仮定した場合、応答も正規分布であることを意味しないのでしょうか？私はそれを行うと思いますが、その後、次のようなステートメントはかなり混乱しているように見えます：そして、このモデルの「正規性」の唯一の仮定は、残差（または「エラー」）が正規分布することであることが明確にわかります。予測子x iまたは応答変数y iの分布に関する仮定はありません。ϵiϵi\epsilon_ixixix_iyiyiy_i 出典：予測子、応答、および残差：正規分布に実際に必要なものは何ですか？

12 regression assumptions

2

ロジスティック回帰はいつ適していますか？

現在、分類方法を教えています。具体的には、サポートベクターマシン、ニューラルネットワーク、ロジスティック回帰の3つの方法を検討しています。私が理解しようとしているのは、ロジスティック回帰が他の2つよりも優れたパフォーマンスを発揮する理由です。ロジスティック回帰の私の理解から、アイデアはデータ全体にロジスティック関数を適合させることです。したがって、データがバイナリの場合、ラベル0のすべてのデータは値0（またはそれに近い）にマッピングされ、値1のすべてのデータは値1（またはそれに近い）にマッピングされる必要があります。ロジスティック関数は連続的で滑らかなので、この回帰を実行するには、すべてのデータが曲線に適合する必要があります。決定境界付近のデータポイントに適用される重要性はこれ以上なく、すべてのデータポイントが異なる量で損失に寄与します。ただし、サポートベクターマシンとニューラルネットワークでは、決定境界付近のデータポイントのみが重要です。データポイントが決定境界の同じ側にある限り、同じ損失をもたらします。したがって、決定の周りの難しいデータだけに焦点を合わせるのではなく、多くの重要でない（分類しやすい）データに曲線を当てはめようとすると「リソースを浪費する」ため、ロジスティック回帰はサポートベクターマシンまたはニューラルネットワークよりも優れています。境界？

12 regression machine-learning logistic classification regression-strategies

2

各ポイントに

Iが行わnnn 2つの変数の測定値をxxxとyyy。どちらも不確実性が知られているσxσx\sigma_x及びσyσy\sigma_yそれらに関連します。と関係を見つけたい。どうすればできますか？xxxyyy 編集：各には異なる関連付けられており、でも同じです。xixix_iσx,iσx,i\sigma_{x,i}yiyiy_i 再現可能なRの例： ## pick some real x and y values true_x <- 1:100 true_y <- 2*true_x+1 ## pick the uncertainty on them sigma_x <- runif(length(true_x), 1, 10) # 10 sigma_y <- runif(length(true_y), 1, 15) # 15 ## perturb both x and y with noise noisy_x <- rnorm(length(true_x), true_x, …

12 r regression deming-regression

1

比率が独立変数である場合、比率を変換する最も適切な方法は何ですか？

私はこの問題を理解したと思っていましたが、今は確信が持てず、先に進む前に他の人に確認したいと思います。私には2つの変数がXありYます。Yは比率であり、0と1に制限されず、通常正規分布します。Xは割合であり、0と1で区切られます（0.0から0.6まで実行されます）。の線形回帰を実行するY ~ Xと、それが判明しX、Y大幅に線形に関連しています。ここまでは順調ですね。しかし、その後、さらに調査し、多分Xand Yの関係は線形より曲線的であると考え始めます。私には、それは関係のように見えるXとYに近いかもしれないY ~ log(X)、Y ~ sqrt(X)またはY ~ X + X^2、またはそのような何か。関係が曲線的であると仮定する経験的理由がありますが、ある非線形関係が他より優れていると仮定する理由はありません。ここから関連する質問がいくつかあります。最初に、X変数は4つの値（0、0.2、0.4、および0.6）を取ります。これらのデータを対数変換または平方根変換すると、これらの値の間隔がゆがんで、0の値が他のすべての値からはるかに離れます。より良い質問方法がないため、これは私が望むものですか？そうではないと思います。なぜなら、私が受け入れる歪みのレベルに応じて非常に異なる結果が得られるからです。これが私が望むものではない場合、どうすればそれを避けるべきですか？第二に、これらのデータを対数変換Xするには、0の対数を取ることができないため、各値にいくらかの量を追加する必要があります。より多く、たとえば1を追加しても、歪みはほとんどありません。X変数に追加する「正しい」量はありますか？または、代替の変換（キューブルートなど）またはモデル（ロジスティック回帰など）を選択する代わりに、変数に何かを追加することは不適切Xですか？この問題に関して私が見つけられたことはほとんどないので、慎重に踏み込む必要があると感じています。仲間のRユーザーの場合、このコードは、私のものと同様の構造を持つデータを作成します。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) …

12 r regression data-transformation nonlinear-regression proportion

2

ベイジアン最適化のためのGP回帰における不良条件共分散行列

背景と問題回帰とその後のベイズ最適化（BO）にガウス過程（GP）を使用しています。回帰の場合、MATLABでgpmlパッケージを使用し、いくつかのカスタムメイドの変更を加えますが、問題は一般的です。 2つのトレーニング入力が入力空間内で近すぎる場合、共分散行列が非正定値になる可能性があることはよく知られています（このサイトにはいくつかの質問があります）。その結果、さまざまなGP計算に必要な共分散行列のコレスキー分解は、数値誤差により失敗する場合があります。これは、私が使用している目的関数でBOを実行したときにいくつかのケースで発生し、修正したいと思います。提案されたソリューション悪条件を緩和するための標準ソリューションであるAFAIKは、共分散行列の対角線にリッジまたはナゲットを追加することです。GP回帰の場合、これは観測ノイズの追加（または、既に存在する場合は増加）に相当します。ここまでは順調ですね。コードを修正してgpmlを正確に推論し、コレスキー分解が失敗するたびに、ジョンD' Errico によるこのMATLABコードに触発されたフロベニウスノルムの最も近い対称正定（SPD）行列に共分散行列を修正しようとします。理論的根拠は、元のマトリックスへの介入を最小限にすることです。この回避策は仕事をしますが、いくつかの機能でBOのパフォーマンスが大幅に低下することに気付きました-おそらくアルゴリズムが特定の領域にズームインする必要があるときはいつでも（たとえば、最小に近づくか、長さのスケールのため問題の不均一に小さくなります）。2つの入力ポイントが近づきすぎるとノイズが効果的に増加するため、この動作は理にかなっていますが、もちろん理想的ではありません。または、問題のあるポイントを削除することもできますが、繰り返しますが、入力ポイントを近づける必要がある場合があります。質問 GPの共分散行列のコレスキー因数分解に関する数値的な問題は新しい問題ではないと思いますが、驚いたことに、ノイズを増やしたり、互いに近すぎる点を削除したりすることを除けば、これまでのところ多くの解決策を見つけることができませんでした。一方で、私の機能のいくつかは非常に悪い振る舞いをしているので、おそらく私の状況はそれほど典型的ではありません。ここで役立つ可能性のある提案/参照はありますか？

12 regression covariance-matrix gaussian-process bayesian-optimization

1

帰無仮説での決定係数

私が作っ文の好奇心、このテキストの最初のページの下部に係るR2adjustedRadjusted2R^2_\mathrm{adjusted}調整 R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). テキストの状態：調整の論理は次のとおりです。通常の重回帰では、ランダムな予測子が平均して応答の変動の割合を説明するため、ランダムな予測子が平均して応答の変動。つまり、期待値はです。[ ]式をその値に適用すると、すべての予測変数がランダムであり、ます。m m /（n – 1 ）1/(n–1)1/(n–1)1/(n – 1)mmmm/(n–1)m/(n–1)m/(n – 1)R2R2R^2E(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)R2adjustedRadjusted2R^2_\mathrm{adjusted}R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0 これは、非常にシンプルで解釈可能な動機のようです。ただし、単一のランダム（つまり、無相関）予測子に対してであると判断することはできませんでした。 E（R 2）= 1 /（n – 1 ）R2adjustedRadjusted2R^2_\mathrm{adjusted}E(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1) 誰かが私をここで正しい方向に向けることができますか？

12 regression expected-value goodness-of-fit r-squared

4

問題が線形回帰に適しているという手がかり

Montgomery、Peck、およびViningによる「Introduction to Linear Regression Analysis」を使用して線形回帰を学習しています。データ分析プロジェクトを選択したいと思います。線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。しかし、線形回帰は非常に一般的です。経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。

12 regression data-transformation model linear regression-strategies

タグ付けされた質問 「regression」

タグ付けされた質問「regression」