タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

4
マクファデンの疑似R2解釈
支払い(1 =支払い、0 =支払いなし)と呼ばれる従属変数を持つMcFaddenの疑似R-2乗0.192のバイナリロジスティック回帰モデルがあります。この擬似R-2乗の解釈は何ですか? ネストされたモデルの相対比較ですか(たとえば、6変数モデルのMcFaddenの疑似R-2乗は0.192ですが、5変数モデル(前述の6変数モデルから1つの変数を削除した後)、この5変数モデルには疑似R 0.131の2乗。モデルにその6番目の変数を保持しますか?または絶対量です(たとえば、McFaddenの擬似Rが0.192の特定のモデルは、McFaddenの擬似を持つ既存のモデルよりも優れています) 0.180のR二乗(ネストされていないモデルでも)?これらはMcFaddenの擬似R二乗を見るための単なる可能な方法です;しかし、私はこれらの2つのビューが道を外れていると仮定しているため、ここでこの質問をしています。 私はこのトピックについて多くの研究を行ってきましたが、McFaddenの疑似R 2乗0.192を解釈できるという観点で、私が探している答えをまだ見つけていません。洞察や参考文献は大歓迎です!この質問に答える前に、これがロジスティック回帰モデルを説明するのに最適な尺度ではないことを認識していますが、この統計をより深く理解したいと思います!


3
scikit-learnを使用した多項式回帰
多項式回帰にscikit-learnを使用しようとしています。私が読んだ多項式回帰は、線形回帰の特殊なケースです。scikitの一般化された線形モデルのいずれかが、高次の多項式に適合するようにパラメーター化できるかもしれないと思っていましたが、それを行うオプションはありません。 私はポリカーネルでサポートベクターリグレッサーを使用することに成功しました。これは私のデータのサブセットでうまく機能しましたが、大きなデータセットに適合するにはかなり時間がかかりますので、(ある程度の精度を交換しても)さらに高速なものを見つける必要があります。 ここで明らかな何かを見逃していますか?

4
RMSLE(二乗平均平方根誤差)をどのように解釈しますか?
RMSLE(Root Mean Squared Logarithmic Error)を使用して機器のカテゴリの販売価格を予測するパフォーマンスを評価する機械学習コンテストを行っています。問題は、最終結果の成功をどのように解釈するかわからないことです。 たとえば、私はのRMSLE達成した場合に、私はそれ指数パワー上げることができるとRMSEのようにそれを解釈しますか?(つまり)?1.0521.0521.052E 1.052 = 2.863 = R M S Eeeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE それから、私の予測は実際の価格から平均でだったと言えますか または、メトリックを解釈するより良い方法はありますか?または、他のモデルの他のRMSLEと比較することを除いて、メトリックをまったく解釈できますか? ±$2.863±$2.863\pm \$2.863

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
ロジスティック回帰のコスト関数はどのように導出されますか
Courseraで機械学習のスタンフォードコースを受講しています。 ロジスティック回帰の章では、コスト関数は次のとおりです。 次に、ここから派生します。 コスト関数の導関数を取得しようとしましたが、まったく異なるものが得られました。 導関数はどのように取得されますか? 中間ステップはどれですか?

1
仮定が満たされない場合、回帰モデルはどの程度間違っていますか?
回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか: 残差が等分散でない場合はどうなりますか?残差対残差対適合プロットでパターンが増加または減少する場合。 残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか?Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。 1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか? 私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです: 正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか? 偏差はどの程度許容されますか、それともまったく許容されますか? 正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合(Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合)、または役に立たない場合(同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか?

1
閉じた形のなげなわソリューションの派生が正しくないのはなぜですか?
投げ縄問題には閉じた形式のソリューションがあります:\ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS }} |-\ alpha)^ + Xに正規直交列がある 場合。これは、このスレッドに示された:閉じた形投げ縄ソリューションの導出を。βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX ただし、一般に閉じた形式のソリューションがない理由はわかりません。亜微分を使用して、以下を取得しました。 (XXXはn×pn×pn \times p行列です) f(β)=∥y−Xβ∥22+α∥β∥1f(β)=‖y−Xβ‖22+α‖β‖1f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1 =∑i=1n(yi−Xiβ)2+α∑j=1p|βj|=∑i=1n(yi−Xiβ)2+α∑j=1p|βj| =\sum_{i=1}^n (y_i-X_i\beta)^2 + …

5
線形回帰の等分散性の仮定に違反する危険性は何ですか?
例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、 m <- lm(weight ~ Time*Diet, data=ChickWeight) 私の質問: モデルのどの側面に疑問があるか? 問題はTime範囲外の外挿に限定されていますか? この仮定の違反に対する線形回帰の許容度(つまり、問題を引き起こすためにはどの程度異分散が必要か)。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


4
GLMの疑似R 2乗式
擬似公式は、Rによる線形モデルの拡張、Julian J. Faraway(p。59)の本で見つけました。R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 これはGLMの疑似一般的な式ですか?R2R2R^2

6
多変量回帰が必要なのはなぜですか(一変量の回帰ではありません)?
私はちょうどこの素晴らしい本を読みました:Johnson and Wichernによる応用多変量統計分析。皮肉なことに、個別の単変量(回帰)モデルの代わりに多変量(回帰)モデルを使用する動機を理解することはできません。(a)多変量回帰と多変量回帰の違いと(b)多変量回帰の結果の解釈を説明するstats.statexchangeの投稿1および2を調べましたが、すべての情報から多変量統計モデルの使用を微調整することはできませんそれらについてオンラインで入手してください。 私の質問は: なぜ多変量回帰が必要なのですか?推論を引き出すために、結果を個別にではなく同時に考慮することの利点は何ですか。 多変量モデルを使用する場合、および複数の単変量モデルを使用する場合(複数の結果の場合)。 UCLAのサイトで、制御の軌跡、自己概念、および動機付けという3つの結果が得られた例を取り上げます。1.と2.に関して、3つの単変量多重回帰と1つの多変量多重回帰を行う場合の分析を比較できますか?互いに正当化する方法は? 多変量統計モデルを利用する学術論文にはあまり出会っていません。これは、多変量正規性の仮定、モデルのフィッティング/解釈の複雑さ、または他の特定の理由によるものですか?

3
なぜ独立変数を中央揃えすると、節度によって主効果が変わるのでしょうか?
このCVスレッドに触発された重回帰と相互作用に関連する質問があります:中心変数階層回帰分析を使用した相互作用項?どの変数を中心にすべきか? 節度効果を確認するとき、相互作用項を計算するために、独立変数を中央に配置し、中央に配置した変数を乗算します。次に、回帰分析を実行し、主効果と相互作用効果を確認します。 センタリングせずに分析をやり直した場合、明らかに決定係数()は変わりませんが、回帰係数()は変わります。それは明確で論理的なようです。R2R2R^2ββ\beta 理解できないこと:主効果のp値はセンタリングによって大幅に変化しますが、相互作用はそうではありません(正しい)。したがって、私の主な効果の解釈は劇的に変わる可能性があります-センタリングによって決定されるだけです。(両方の分析で同じデータです!) 誰かが明らかにできますか?-それは、変数を中央に配置するオプションが必須であり、誰もが同じデータで同じ結果を得るためにそれを行う必要があることを意味するためです。 その問題と包括的な説明を配布してくれてありがとう。あなたの助けが非常に高く評価されることを保証してください! 私にとって、センタリングの最大の利点は、多重共線性を回避することです。中央に配置するかどうかに関係なく、ルールを確立することは依然としてかなり混乱しています。私の印象では、ほとんどのリソースが集中することを示唆していますが、それを行う際に「リスク」がいくつかあります。繰り返しますが、同じ資料とデータを扱う2人の研究者が異なる結果を結論付ける可能性があるという事実を出したいと思います。私はちょうどボルツの本の一部を読みました(彼は教授であり、ドイツとヨーロッパの統計スターの一種でした)。彼はその手法についても言及していません。変数が相互作用に関与している場合、変数の主な効果を解釈する際には注意が必要であると指摘しています。 結局、1つのIV、1つのモデレーター(または2番目のIV)、およびDVを使用して回帰を実行する場合、中央に配置することをお勧めしますか?

2
RSSがカイ二乗倍npで配信​​されるのはなぜですか?
OLSモデルでは、RSS(残差平方和)が(はモデル内のパラメーター数、は観測数)に分布している理由を理解したいと思います。のP Nχ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn このような基本的な質問をしたことをおaびしますが、オンライン(またはアプリケーション指向の教科書)で答えを見つけることができないようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.