統計とビッグデータ regression

3

私のオフィスの同僚は、今日、「ツリーモデルは極端な観察に巻き込まれるため、良くない」と私に言いました。ここで検索した結果、このスレッドは基本的にクレームをサポートしています。それは私を疑問に導きます-どのような状況でCARTモデルは堅牢になりますか、そしてそれはどのように示されますか？

14 regression classification robust cart

1

ロジスティック回帰におけるインターセプトモデルの有無の違い

ロジスティック回帰における切片モデルの有無の違いを理解したいインターセプトでは係数がベースライングループと比較してlog（オッズ比）を考慮し、インターセプトなしではlog（odds）を考慮することを除いて、それらの間に違いはありますか？私が見たものから、係数は両方のケースで同じですが、重要性は常に同じではなく、なぜそれが理解されていない..さらに、どのケースで切片なしでモデルを使用するのが正しいでしょうか？これが私のモデルglm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)です。「実際の単語」では合計価格が50以下になることはないので、インターセプトを除外するかどうかはわかりませんが、確率は0ではなく1になるので混乱しています。

14 regression logistic interpretation model intercept

3

リッジ回帰で回帰係数

リッジ回帰では、最小化する目的関数はRSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. ラグランジュ乗数法を使用してこれを最適化できますか？それともまっすぐな差別化ですか？

14 regression regularization ridge-regression

3

GLMでは、飽和モデルの対数尤度は常にゼロですか？

一般化線形モデルの出力の一部として、ヌルと残差偏差を使用してモデルを評価します。飽和モデルの対数尤度で表されるこれらの量の式をよく見ます。たとえば、https：//stats.stackexchange.com/a/113022/22199、ロジスティック回帰：飽和モデルを取得する方法私が理解する限り、飽和モデルは観測された応答に完全に適合するモデルです。したがって、私が見たほとんどの場所で、飽和モデルの対数尤度は常にゼロとして与えられます。しかし、逸脱の公式が与えられる方法は、この量がゼロでない場合があることを示唆しています。（常にゼロであるかのように、なぜそれを含めるのが面倒ですか？）どのような場合にゼロ以外になる可能性がありますか？決してゼロ以外ではない場合、なぜ逸脱の式に含めるのですか？

14 regression generalized-linear-model deviance log-likelihood

4

単純なフォームとはどういう意味ですか？

計量経済学では、縮約形とはどういう意味ですか？また、「フォームの見積もりを減らしたい」と言ったときに、何を探しているのでしょうか。これは職場で放り出されており、個々の説明とGoogle検索は非常に専門的です。簡単な例を挙げることができる誰かを期待しています。

14 regression multiple-regression econometrics

1

回帰の比率、別名Kronmalに関する質問

最近、質問をランダムに閲覧すると、回帰モデルでの比率の使用に関する数年前の警告から私の教授の一人からのオフコメントの記憶がトリガーされました。だから私はこれについて読み始め、最終的には1993年のKronmalに至った。これらをモデル化する方法に関する彼の提案を正しく解釈していることを確認したいと思います。従属側と独立側の両方で同じ分母を持つ比率のモデルの場合： Z− 1Y= Z− 11nβ0+ Z− 1バツβバツ+ βZ+ Z− 1ϵZ−1Y=Z−11nβ0+Z−1バツβバツ+βZ+Z−1ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 他の比率に加えて、（逆）分母変数の回帰依存比率（逆）分母変数による重み比率として従属変数を持つモデルの場合： Y= β0+ βバツバツ+ Z1nα0+ Zバツαバツ+ Z− 1ϵY=β0+βバツバツ+Z1nα0+Zバツαバツ+Z−1ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 元の変数、分母、および分母の元の変数による分子の回帰[カテゴリ変数はどうですか？] （逆）分母による重み独立変数比のみのモデルの場合： Y= β0+ Xβバツ+ Z− 11nβZ− …

14 regression modeling interaction weighted-regression ratio

1

ポアソン回帰にはエラー用語がありますか？

ポアソン回帰にエラー項があるかどうか疑問に思っていましたか？ポアソン回帰には、ランダム効果と誤差項がありますか？私はこの点について混乱しています。ロジスティック回帰では、結果変数がバイナリであるため、エラー用語はありません。それは残差項を持たない唯一のglmモデルですか？

14 regression mixed-model generalized-linear-model poisson-regression

1

一般化線形モデルの仮定

単一の応答変数（連続/正規分布）と4つの説明変数（3つは因子で、4つ目は整数）を使用して、一般化線形モデルを作成しました。アイデンティティリンク関数でガウス誤差分布を使用しました。現在、モデルが一般化線形モデルの仮定を満たしていることを確認しています： Yの独立正しいリンク機能説明変数の正しい尺度影響のある観測はありません私の質問は、モデルがこれらの仮定を満たしていることをどのように確認できますか？最良の出発点は、各説明変数に対して応答変数をプロットすることです。ただし、説明変数のうち3つはカテゴリ（1〜4レベル）であるため、プロットで何を探す必要がありますか？また、説明変数間の多重共線性と相互作用をチェックする必要がありますか？はいの場合、カテゴリー説明変数を使用してこれを行うにはどうすればよいですか？

14 regression generalized-linear-model ancova assumptions scatterplot

8

複数の未知のノットで区分的線形回帰を行う方法は？

複数のノットを自動的に検出できる区分的線形回帰を実行するパッケージはありますか？ありがとう。strucchangeパッケージを使用する場合。変化点を検出できませんでした。変化点を検出する方法がわかりません。プロットから、それらを選択するのに役立つ可能性があるいくつかのポイントがあることがわかりました。誰かここに例を挙げていただけますか？

14 regression change-point

2

誰かが線形と非線形の混合効果に光を当てることができますか？

Rの学習に飛び込もうとしています。私の学習プロジェクトでは、予測式を作成するために、混合効果またはランダム効果の回帰をデータセットに適用する必要があります。この投稿で筆者の懸念を共有します。混合効果モデルでnlmeまたはlme4 Rライブラリを選択する方法は？NLMEとLME4のどちらが自分に馴染みやすいパッケージなのか疑問に思います。より基本的な質問は、線形混合効果と非線形混合効果のモデリングの違いは何ですか？背景については、MSの研究（MEではなくR）でMEモデリングを適用したため、固定変数とランダム変数の処理方法に精通しています。しかし、私が行った作業が線形MEと非線形MEのどちらであるかは定かではありません。それは単に使用された方程式の機能的な形なのか、それとも何か他のものなのか？

14 r regression random-effects-model

2

モデル調整をわかりやすい英語で説明する

特に疫学における統計分析の方法と結果について読むと、モデルの調整や制御についてよく耳にします。非統計学者に、その目的をどのように説明しますか？特定の変数を制御した後、結果をどのように解釈しますか？ StataまたはRでの小さなウォークスルー、またはオンラインへのポインターは、本当の宝石です。

14 regression modeling epidemiology

2

L2ノルム損失には独自のソリューションがあり、L1ノルム損失には複数のソリューションがあるのはなぜですか？

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ この投稿の上部を見ると、筆者は、L2ノルムには独自のソリューションがあり、L1ノルムにはおそらく多くのソリューションがあると述べています。これは正則化の観点から理解できますが、損失関数でのL1ノルムまたはL2ノルムの使用という点では理解できません。スカラーx（x ^ 2および| x |）の関数のグラフを見ると、両方に1つの一意の解があることが簡単にわかります。

14 regression lasso regularization

6

切片が含まれる場合、線形回帰の残差が常にゼロになるのはなぜですか？

私は回帰モデルのコースを取っていますが、線形回帰に提供されるプロパティの1つは、切片が含まれるときに残差が常にゼロになることです。なぜそうなのか、誰かが良い説明を提供できますか？

14 regression residuals

1

「RMSEの2.5倍」に基づく外れ値の削除

でカーネマンとDeaton（2010）†††^\dagger、著者は次のように記述します。この回帰により、分散の37％が説明され、二乗平均平方根誤差（RMSE）は0.67852です。外れ値と妥当でない収入レポートを排除するために、ログ収入とその予測の差の絶対値がRMSEの2.5倍を超える観測値を削除しました。これは一般的な慣習ですか？そうすることの背後にある直感は何ですか？そもそも明確に指定されていない可能性のあるモデルに基づいて外れ値を定義することは、やや奇妙に思えます。外れ値の決定は、モデルが実際の値をどれだけうまく予測するのではなく、もっともらしい値を構成するもののいくつかの理論的根拠に基づいてはいけませんか？ ††\dagger：Daniel Kahneman、Angus Deaton（2010）：高収入は人生の評価を改善しますが、感情的な幸福は改善しません。全米科学アカデミーの論文集2010年9月、107（38）16489-16493; DOI：10.1073 / pnas.1011492107

13 regression outliers

4

多変量回帰の前の単変量回帰のポイントは何ですか？

私は現在、小さなデータセットがあり、結果に対する治療の因果関係の影響に関心がある問題に取り組んでいます。アドバイザーは、結果を応答として、次に治療割り当てを応答として、各予測変数に対して単変量回帰を実行するように指示しました。つまり、回帰を一度に1つの変数に適合させ、結果の表を作成するように求められています。私は「なぜこれを行うべきなのか」と尋ねましたが、答えは「どの予測因子が治療の割り当てと結果に関連しているかに興味があります。私の顧問は訓練を受けた統計学者であり、異なる分野の科学者ではないので、私は彼らを信頼したいと思っています。これは理にかなっていますが、単変量解析の結果を使用する方法は明確ではありません。これからモデル選択を選択すると、推定値に大きなバイアスがかかり、信頼区間が狭くなりませんか？なぜこれを行う必要がありますか？私は混乱しており、私のアドバイザーは問題を提起したときにこの問題についてかなり不透明です。このテクニックに関するリソースはありますか？（注意：私のアドバイザーは、p値をカットオフとして使用していないが、「すべて」を考慮したいと言っています。）

13 regression multivariate-analysis model-selection causality univariate

タグ付けされた質問 「regression」

タグ付けされた質問「regression」