タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

5
多くの独立変数から重要な予測因子を検出する
2つの重複しない母集団(患者と健康、合計n=60n=60n=60)のデータセットで、(300300300独立変数から)連続従属変数の有意な予測子を見つけたいと思います。予測変数間の相関が存在します。予測変数のいずれかが(可能な限り正確に従属変数を予測するのではなく)「実際に」従属変数に関連しているかどうかを調べることに興味があります。多数の可能なアプローチに圧倒されたので、どのアプローチが最も推奨されるかを尋ねたいと思います。 私の理解から、予測因子の段階的な包含または除外は推奨されません たとえば、予測子ごとに個別に線形回帰を実行し、FDRを使用した多重比較のためにp値を修正します(おそらく非常に保守的ですか?) 主成分回帰:個々の予測変数の予測力については説明できず、コンポーネントについてのみ説明できるため、解釈が困難です。 他の提案はありますか?

4
複雑なデータを使用した分析、何か違うものはありますか?
たとえば、線形モデルを実行しているが、データが複雑であるとします。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon すべての数値は形式であるため、データセットは複雑です。そのようなデータを操作する際に手順的に異なるものはありますか?yyy(a+bi)(a+bi)(a + bi) 複雑な共分散行列を取得し、複雑な値の統計をテストすることになるためです。 最小二乗を行うときに、転置ではなく共役転置を使用する必要がありますか?複素数値共分散は意味がありますか?

3
他の予測変数を含めた後に符号を反転させる回帰係数
想像してみて 4つの数値予測子(IV1、...、IV4)で線形回帰を実行します IV1のみが予測子として含まれる場合、標準化されたベータは +.20 IV2からIV4も含めると、IV1の標準化回帰係数の符号が反転します-.25(つまり、負になります)。 これにより、いくつかの質問が生じます。 用語に関しては、これを「抑制効果」と呼んでいますか? この効果の説明と理解にどの戦略を使用しますか? 実際にそのような効果の例はありますか?また、これらの効果をどのように説明し、理解しましたか?

2
線形回帰モデルの係数を見つけるために勾配降下が必要ですか?
Coursera教材を使用して機械学習を学習しようとしていました。この講義では、Andrew Ngは勾配降下アルゴリズムを使用して、誤差関数(コスト関数)を最小化する線形回帰モデルの係数を見つけます。 線形回帰の場合、勾配降下が必要ですか?誤差関数を分析的に微分し、係数を解くためにゼロに設定できるようです。そうですか?


2
L1の正則化はL2よりもうまく機能しますか?
注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。 使用する正則化(L1またはL2)の決定方法 L1 / L2正則化のそれぞれの長所と短所は何ですか? 最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?

2
負の二項回帰の仮定は何ですか?
私は大規模なデータセット(機密情報なので、あまり共有することはできません)を使用しており、負の二項回帰が必要であるという結論に達しました。私は以前にglm回帰を行ったことがなく、仮定が何であるかについて明確な情報を見つけることができません。MLRでも同じですか? 変数を同じ方法で変換できますか(自然変数である必要があるため、従属変数の変換は不適切な呼び出しであることが既にわかっています)。私はすでに、負の二項分布がデータの過剰分散に役立つと判断しました(分散は約2000、平均は48)。 助けてくれてありがとう!!

6
ロジスティック回帰とパーセプトロンの違いは何ですか?
Andrew Ngの機械学習に関する講義ノートを読んでいます。 このノートでは、ロジスティック回帰とパーセプトロンを紹介しています。パーセプトロンについて説明している間、注記では、ロジスティック回帰に使用されるしきい値関数の定義を変更するだけであると述べています。その後、パーセプトロンモデルを分類に使用できます。 したがって、私の質問は-これを指定する必要があり、パーセプトロンを分類手法と見なす場合、ロジスティック回帰とは正確には何ですか?クラスの1つに属するデータポイントの確率を取得するためだけに使用されますか?


5
多重線形回帰の最小二乗推定量を導き出す方法は?
単純な線形回帰のケースでは、最小二乗推定量、あなたが知っている必要はないように推定するために、β 1 = Σ (X I - ˉ X)(Y I - ˉ Y)y= β0+ β1バツy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1= ∑ (x私− x¯)(y私− y¯)∑ (x私− x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 私がしたとし、どのように私は導出ん推定することなく?またはこれは不可能ですか?β 1 β 2y= β1バツ1+ β2バツ2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

10
平均対ギャンブラーの誤acyへの回帰
一方で、平均への回帰があり、他方でギャンブラーの誤acyがあります。 ギャンブラーの誤acyは、Miller and Sanjurjo(2019)によって定義されています。「ランダムシーケンスは反転の系統的傾向がある、つまり、同様の結果のストリークは継続するよりも終了する可能性が高いという誤った信念」。連続した時間は、次の試験で不釣り合いに尾を引く可能性が高いと考えられます。 私は前回のゲームで良好なパフォーマンスを達成しましたが、平均への回帰によると、おそらく次のゲームではパフォーマンスが低下するでしょう。 しかし、ギャンブラーの誤acyによると、次の2つの確率を考慮します。 20頭の確率、1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20頭の確率、その後1頭= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} その後... 簡単な例を考えてみましょう。生徒のクラスは、科目で100項目の正誤テストを行います。すべての生徒がすべての質問をランダムに選択するとします。次に、各学生のスコアは、平均50の期待値を持つ、独立した同じ分布のランダム変数のセットの1つを実現します。 当然のことながら、一部の学生は50を大幅に上回り、一部の学生は偶然50を大幅に下回ります。学生の上位10%のみを取得し、2番目のテストを行って、すべてのアイテムで再びランダムに選択すると、平均スコアは再び50に近くなると予想されます。 したがって、これらの学生の平均は、元のテストを受けたすべての学生の平均にまで「回帰」します。学生が元のテストで得点したものに関係なく、2番目のテストで得点の最高の予測は50です。 特別に10%の学生のトップスコアのみを取得し、すべてのアイテムで再びランダムに選択する2回目のテストを行うと、平均スコアは再び50に近くなります。 ギャンブラーの誤acyによると、得点の確率は同じで、必ずしも50に近いとは限らないと思われますか? Miller、JB、およびSanjurjo、A.(2019)。サンプルサイズを無視した場合の経験によるギャンブラーの誤Fallの確認方法

1
OLSモデルの係数が(nk)自由度のt分布に従うことの証明
バックグラウンド 回帰モデルに係数がある通常の最小二乗モデルがあるとします。 kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ここで、は係数のベクトル、は次で定義される設計行列です。ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X = ⎛⎝⎜⎜⎜⎜⎜⎜11⋮1バツ11バツ21バツn 1バツ12…⋱………バツ1(k − 1 )⋮⋮バツn(k − 1 )⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots …

1
ロジスティック回帰からの適合値の標準誤差はどのように計算されますか?
ロジスティック回帰モデルから近似値を予測する場合、標準誤差はどのように計算されますか?つまり、フィッシャーの情報マトリックスを含む係数ではなく、近似値についてです。 私はのみで数を取得する方法を見つけたR(例えば、ここでは R-ヘルプ上、またはここにスタックオーバーフロー上)が、私は式を見つけることができません。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) (できれば大学のウェブサイトで)オンラインソースを提供できれば、それは素晴らしいことです。

3
ロジスティック回帰におけるオッズ比に対する単純な予測の解釈
私はロジスティック回帰を使用するのはやや新しいですが、次の値の解釈が同じだと思ったのに矛盾があるため、少し混乱しています。 指数化されたベータ値 ベータ値を使用した結果の予測確率。 これは私が使用しているモデルの簡易版です。栄養不足と保険は両方ともバイナリであり、富は連続しています。 Under.Nutrition ~ insurance + wealth 私の(実際の)モデルは、保険のために.8の指数化されたベータ値を返します。 「被保険者の栄養不足の確率は、保険のない個人の栄養不足の確率の0.8倍です。」 ただし、0と1の値を保険変数と富の平均値に入れることで個人の確率の差を計算すると、栄養不足の差はわずか.04です。次のように計算されます。 Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) これらの値が異なる理由と、(特に2番目の値について)より良い解釈が何かを誰かが説明できれば、本当に感謝しています。 さらなる明確化の編集 私が理解するように、無保険の人(B1は保険に相当する)の栄養不足の可能性は次のとおりです。 Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 被保険者の栄養不足の可能性は次のとおりです。 Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.