統計とビッグデータ regression

5

2つの重複しない母集団（患者と健康、合計n=60n=60n=60）のデータセットで、（300300300独立変数から）連続従属変数の有意な予測子を見つけたいと思います。予測変数間の相関が存在します。予測変数のいずれかが（可能な限り正確に従属変数を予測するのではなく）「実際に」従属変数に関連しているかどうかを調べることに興味があります。多数の可能なアプローチに圧倒されたので、どのアプローチが最も推奨されるかを尋ねたいと思います。私の理解から、予測因子の段階的な包含または除外は推奨されませんたとえば、予測子ごとに個別に線形回帰を実行し、FDRを使用した多重比較のためにp値を修正します（おそらく非常に保守的ですか？）主成分回帰：個々の予測変数の予測力については説明できず、コンポーネントについてのみ説明できるため、解釈が困難です。他の提案はありますか？

31 regression pca feature-selection stepwise-regression underdetermined

4

複雑なデータを使用した分析、何か違うものはありますか？

たとえば、線形モデルを実行しているが、データが複雑であるとします。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon すべての数値は形式であるため、データセットは複雑です。そのようなデータを操作する際に手順的に異なるものはありますか？yyy(a+bi)(a+bi）(a + bi) 複雑な共分散行列を取得し、複雑な値の統計をテストすることになるためです。最小二乗を行うときに、転置ではなく共役転置を使用する必要がありますか？複素数値共分散は意味がありますか？

31 regression anova data-transformation complex-numbers

3

他の予測変数を含めた後に符号を反転させる回帰係数

想像してみて 4つの数値予測子（IV1、...、IV4）で線形回帰を実行します IV1のみが予測子として含まれる場合、標準化されたベータは +.20 IV2からIV4も含めると、IV1の標準化回帰係数の符号が反転します-.25（つまり、負になります）。これにより、いくつかの質問が生じます。用語に関しては、これを「抑制効果」と呼んでいますか？この効果の説明と理解にどの戦略を使用しますか？実際にそのような効果の例はありますか？また、これらの効果をどのように説明し、理解しましたか？

31 regression predictor

2

線形回帰モデルの係数を見つけるために勾配降下が必要ですか？

Coursera教材を使用して機械学習を学習しようとしていました。この講義では、Andrew Ngは勾配降下アルゴリズムを使用して、誤差関数（コスト関数）を最小化する線形回帰モデルの係数を見つけます。線形回帰の場合、勾配降下が必要ですか？誤差関数を分析的に微分し、係数を解くためにゼロに設定できるようです。そうですか？

31 regression machine-learning linear-model gradient-descent

7

回帰分析では、なぜ独立変数を「独立」と呼ぶのですか？

これらの変数のいくつかは、それらの間で強く相関していることを意味します。どのように/なぜ/どのような文脈でそれらを独立変数として定義しますか？

30 regression terminology predictor

2

L1の正則化はL2よりもうまく機能しますか？

注：L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。使用する正則化（L1またはL2）の決定方法 L1 / L2正則化のそれぞれの長所と短所は何ですか？最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか？

30 regression lasso regularization ridge-regression

2

負の二項回帰の仮定は何ですか？

私は大規模なデータセット（機密情報なので、あまり共有することはできません）を使用しており、負の二項回帰が必要であるという結論に達しました。私は以前にglm回帰を行ったことがなく、仮定が何であるかについて明確な情報を見つけることができません。MLRでも同じですか？変数を同じ方法で変換できますか（自然変数である必要があるため、従属変数の変換は不適切な呼び出しであることが既にわかっています）。私はすでに、負の二項分布がデータの過剰分散に役立つと判断しました（分散は約2000、平均は48）。助けてくれてありがとう！！

30 regression generalized-linear-model data-transformation assumptions negative-binomial

6

ロジスティック回帰とパーセプトロンの違いは何ですか？

Andrew Ngの機械学習に関する講義ノートを読んでいます。このノートでは、ロジスティック回帰とパーセプトロンを紹介しています。パーセプトロンについて説明している間、注記では、ロジスティック回帰に使用されるしきい値関数の定義を変更するだけであると述べています。その後、パーセプトロンモデルを分類に使用できます。したがって、私の質問は-これを指定する必要があり、パーセプトロンを分類手法と見なす場合、ロジスティック回帰とは正確には何ですか？クラスの1つに属するデータポイントの確率を取得するためだけに使用されますか？

30 regression machine-learning self-study logistic perceptron

1

Cox Regressionにはポアソン分布がありますか？

私たちの小さなチームは議論をしていて行き詰まってしまいました。Cox回帰に基本的なポアソン分布があるかどうかは誰にもわかりますか。リスクが一定のCox回帰は、ロバストな分散を伴うポアソン回帰と類似する可能性があるという議論がありました。何か案は？

30 regression poisson-distribution cox-model

5

多重線形回帰の最小二乗推定量を導き出す方法は？

単純な線形回帰のケースでは、最小二乗推定量、あなたが知っている必要はないように推定するために、β 1 = Σ （X I - ˉ X）（Y I - ˉ Y）y= β0+ β1バツy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1= ∑ （x私− x¯）（y私− y¯）∑ （x私− x¯）2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 私がしたとし、どのように私は導出ん推定することなく？またはこれは不可能ですか？β 1 β 2y= β1バツ1+ β2バツ2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

30 regression multiple-regression generalized-linear-model linear-model

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

平均対ギャンブラーの誤acyへの回帰

一方で、平均への回帰があり、他方でギャンブラーの誤acyがあります。ギャンブラーの誤acyは、Miller and Sanjurjo（2019）によって定義されています。「ランダムシーケンスは反転の系統的傾向がある、つまり、同様の結果のストリークは継続するよりも終了する可能性が高いという誤った信念」。連続した時間は、次の試験で不釣り合いに尾を引く可能性が高いと考えられます。私は前回のゲームで良好なパフォーマンスを達成しましたが、平均への回帰によると、おそらく次のゲームではパフォーマンスが低下するでしょう。しかし、ギャンブラーの誤acyによると、次の2つの確率を考慮します。 20頭の確率、1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20頭の確率、その後1頭= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} その後... 簡単な例を考えてみましょう。生徒のクラスは、科目で100項目の正誤テストを行います。すべての生徒がすべての質問をランダムに選択するとします。次に、各学生のスコアは、平均50の期待値を持つ、独立した同じ分布のランダム変数のセットの1つを実現します。当然のことながら、一部の学生は50を大幅に上回り、一部の学生は偶然50を大幅に下回ります。学生の上位10％のみを取得し、2番目のテストを行って、すべてのアイテムで再びランダムに選択すると、平均スコアは再び50に近くなると予想されます。したがって、これらの学生の平均は、元のテストを受けたすべての学生の平均にまで「回帰」します。学生が元のテストで得点したものに関係なく、2番目のテストで得点の最高の予測は50です。特別に10％の学生のトップスコアのみを取得し、すべてのアイテムで再びランダムに選択する2回目のテストを行うと、平均スコアは再び50に近くなります。ギャンブラーの誤acyによると、得点の確率は同じで、必ずしも50に近いとは限らないと思われますか？ Miller、JB、およびSanjurjo、A.（2019）。サンプルサイズを無視した場合の経験によるギャンブラーの誤Fallの確認方法

29 regression mean fallacy gambling

1

OLSモデルの係数が（nk）自由度のt分布に従うことの証明

バックグラウンド回帰モデルに係数がある通常の最小二乗モデルがあるとします。 kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ここで、は係数のベクトル、は次で定義される設計行列です。ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X = ⎛⎝⎜⎜⎜⎜⎜⎜11⋮1バツ11バツ21バツn 1バツ12…⋱………バツ1（k − 1 ）⋮⋮バツn（k − 1 ）⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots …

29 regression linear-model least-squares t-distribution

1

ロジスティック回帰からの適合値の標準誤差はどのように計算されますか？

ロジスティック回帰モデルから近似値を予測する場合、標準誤差はどのように計算されますか？つまり、フィッシャーの情報マトリックスを含む係数ではなく、近似値についてです。私はのみで数を取得する方法を見つけたR（例えば、ここでは R-ヘルプ上、またはここにスタックオーバーフロー上）が、私は式を見つけることができません。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) （できれば大学のウェブサイトで）オンラインソースを提供できれば、それは素晴らしいことです。

29 r regression logistic mathematical-statistics references

3

ロジスティック回帰におけるオッズ比に対する単純な予測の解釈

私はロジスティック回帰を使用するのはやや新しいですが、次の値の解釈が同じだと思ったのに矛盾があるため、少し混乱しています。指数化されたベータ値ベータ値を使用した結果の予測確率。これは私が使用しているモデルの簡易版です。栄養不足と保険は両方ともバイナリであり、富は連続しています。 Under.Nutrition ~ insurance + wealth 私の（実際の）モデルは、保険のために.8の指数化されたベータ値を返します。「被保険者の栄養不足の確率は、保険のない個人の栄養不足の確率の0.8倍です。」ただし、0と1の値を保険変数と富の平均値に入れることで個人の確率の差を計算すると、栄養不足の差はわずか.04です。次のように計算されます。 Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) これらの値が異なる理由と、（特に2番目の値について）より良い解釈が何かを誰かが説明できれば、本当に感謝しています。さらなる明確化の編集私が理解するように、無保険の人（B1は保険に相当する）の栄養不足の可能性は次のとおりです。 Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 被保険者の栄養不足の可能性は次のとおりです。 Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

29 regression logistic interpretation prediction odds-ratio

タグ付けされた質問 「regression」

タグ付けされた質問「regression」