タグ付けされた質問 「weighted-regression」

重み付き最小二乗回帰は、さまざまなデータポイントの重要度または「重み」が異なる場合に使用されるOLS回帰の一般化です。[加重データ]もご覧ください。

9
線形代数のリファレンスブックは統計に適用されますか?
私はRで少し働いていて、PCA、SVD、QR分解、および多くのそのような線形代数結果(重み付き回帰などの推定を検査するとき)のようなものに直面しているので、誰かが良いものに関する推奨事項を持っているかどうかを知りたい理論的ではないが数学的に厳密であり、これらのトピックすべてを網羅した包括的な線形代数の本。

2
重み付き最小二乗回帰の重みをどのように見つけますか?
WLS回帰のプロセスで少し迷っています。データセットが与えられましたが、私のタスクは異分散があるかどうかをテストすることです。そうであれば、WLS回帰を実行する必要があります。 私はテストを実施し、異分散の証拠を見つけたので、WLSを実行する必要があります。WLSは基本的に変換されたモデルのOLS回帰であると言われましたが、変換関数を見つけることについて少し混乱しています。私は、変換がOLS回帰からの二乗残差の関数になり得ることを示唆するいくつかの記事を読みましたが、誰かが正しい軌道に乗るのを手伝ってくれれば幸いです。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
回帰の比率、別名Kronmalに関する質問
最近、質問をランダムに閲覧すると、回帰モデルでの比率の使用に関する数年前の警告から私の教授の一人からのオフコメントの記憶がトリガーされました。だから私はこれについて読み始め、最終的には1993年のKronmalに至った。 これらをモデル化する方法に関する彼の提案を正しく解釈していることを確認したいと思います。 従属側と独立側の両方で同じ分母を持つ比率のモデルの場合: Z− 1Y= Z− 11nβ0+ Z− 1バツβバツ+ βZ+ Z− 1ϵZ−1Y=Z−11nβ0+Z−1バツβバツ+βZ+Z−1ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 他の比率に加えて、(逆)分母変数の回帰依存比率 (逆)分母変数による重み 比率として従属変数を持つモデルの場合: Y= β0+ βバツバツ+ Z1nα0+ Zバツαバツ+ Z− 1ϵY=β0+βバツバツ+Z1nα0+Zバツαバツ+Z−1ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 元の変数、分母、および分母の元の変数による分子の回帰[カテゴリ変数はどうですか?] (逆)分母による重み 独立変数比のみのモデルの場合: Y= β0+ Xβバツ+ Z− 11nβZ− …


2
R:family =“ binomial”および“ weight”仕様のglm関数
family = "binomial"を使用してglmで体重がどのように機能するか、非常に混乱しています。私の理解では、family = "binomial"のglmの可能性は次のように指定されます f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) ここで、yyyは「観察された成功の割合」であり、nnnは既知の試行回数です。 私の理解では、成功の確率pppは、ような線形係数とfamily = "binomial"のglm関数でパラメーター化されます: 次に、この最適化問題は次のように簡略化できます。ββ\betap=p(β)p=p(β)p=p(\beta)argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). argmaxβ∑ilogf(yi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]+log(niniyi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]argmaxβ∑ilog⁡f(yi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))]+log⁡(niniyi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))] \textrm{arg}\max_{\beta} \sum_i \log f(y_i)= \textrm{arg}\max_{\beta} \sum_i n_i \left[ y_i \log \frac{p(\beta)}{1-p(\beta)} - \left(-\log …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
lm()を使用する場合のRの重み引数の背後にある理論
聞かせて:大学院における年後、 "加重最小二乗"の私の理解は以下の通りである、いくつかのことデザイン行列、\をboldsymbol \ beta \ in \ mathbb {R} ^ pはパラメータベクトルであり、\ boldsymbol \ epsilon \ in \ mathbb {R} ^ nは、\ boldsymbol \ epsilon \ sim \ mathcal {N}(\ mathbf {0}、\ sigma ^ 2 \ mathbf {V})、ここで\ mathbf {V} = \ text {diag}(v_1、v_2、\ dots、v_n)および\ sigma ^ 2> 0。次に、モデル \ mathbf …

1
傾向スコアの重み付けにおける治療の重みの逆確率(IPTW)の直感的な説明?
傾向スコアを使用して重みを計算するメカニズムを理解しています: w i 、j = t r e a tp(xi)p(xi)p(x_i) そして、回帰分析で重みを適用し、重みは、治療および対照群集団における共変量の効果を結果変数と「制御」または分離する働きをします。wi,j=treatwi,j=control=1p(xi)=11−p(xi)wi,j=treat=1p(xi)wi,j=control=11−p(xi)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} しかし、腸レベルでは、重みがこれをどのように達成するのか、そしてなぜ方程式がそのままの形で構築されるのか理解できません。

3
バグ、JAGSの加重一般化回帰
では、weightsパラメータを使用しRてglm回帰を「事前に重み付け」できます。例えば: glm.D93 <- glm(counts ~ outcome + treatment, family = poisson(), weights=w) JAGSまたはBUGSモデルでこれをどのように達成できますか? これについて議論している論文を見つけましたが、どれも例を示していません。私は主にポアソンとロジスティック回帰の例に興味があります。

1
重み付き最小二乗重みの定義:R lm関数と
R重み付けされた最小二乗法とマトリックス演算による手動のソリューションから異なる結果が得られる理由を誰かに教えてもらえますか? 具体的には、を手動で解決しようとしています。ここで、は重みの対角行列、はデータ行列、は応答ですベクター。 W A bWAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 引数R lmを使用して結果を関数と比較しようとしていweightsます。

2
ロジスティック回帰における高度に歪んだデータセットの重みの追加
入力変数をバイナリ出力変数に合わせるために、標準バージョンのロジスティック回帰を使用しています。 しかし、私の問題では、負の出力(0)が正の出力(1)をはるかに上回ります。比率は20:1です。そのため、分類子をトレーニングすると、正の出力の可能性を強く示唆する機能でも、対応するパラメーターの値が非常に低い(非常に負の)ようです。これは、パラメーターをその方向に引っ張っている否定的な例が多すぎるために発生しているようです。 だから私は私が肯定的な例に重みを追加できるかどうか疑問に思っています(たとえば1ではなく20を使用して)。これはまったくメリットがありますか?もしそうなら、私はどのように重みを追加するべきですか(以下の方程式で)。 次のようなコスト関数ルックス J=(−1/m)⋅∑i=1my⋅log(h(x⋅θ))+(1−y)(1−log(h(x⋅θ)))J=(−1/m)⋅∑i=1my⋅log⁡(h(x⋅θ))+(1−y)(1−log⁡(h(x⋅θ)))J = (-1 / m) \cdot\sum_{i=1}^{m} y\cdot\log(h(x\cdot\theta)) + (1-y)(1 - \log(h(x\cdot\theta))) このコスト関数(WRTの勾配)次のとおりです。θθ\theta grad=((h(x⋅θ)−y)′⋅X)′grad=((h(x⋅θ)−y)′⋅X)′\mathrm{grad} = ((h(x\cdot\theta) - y)' \cdot X)' ここで、 =テストケースの数、x =特徴行列、y =出力ベクトル、h =シグモイド関数、θ =学習しようとしているパラメーター。mmmxxxyyyhhhθθ\theta 最後に、可能な限り低いを見つけるために勾配降下法を実行します。実装は正しく実行されているようです。JJJ

3
がゼロ以外の平均測定誤差で測定される可能性がある場合の回帰重みの使用
データを観察し、回帰モデルを近似したいとします。残念ながら、は平均値がゼロ以外の誤差で測定される場合があります。Y,XY,XY, XE[Y|X]E[Y|X]\mathbf{E}[Y \,|\, X]YYY ましょうかどうかを示す、それぞれ古典的なゼロ平均誤差又は非ゼロ平均誤差で測定されます。を推定し。残念ながら、は通常観測されず、です。我々はの回帰合う場合は上の、我々は偏った予測を取得します。Z∈{unbiased,biased}Z∈{unbiased,biased}Z \in \left\{\text{unbiased}, \text{biased}\right\}YYYE[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}]ZZZE[Y|X,Z=unbiased]≠E[Y|X]E[Y|X,Z=unbiased]≠E[Y|X]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}] \neq \mathbf{E}[Y \,|\, X]YYYXXX 一般的に観察することはできないが、モデルにアクセスできるとします(Zを小さなトレーニングセットで手動で学習し、Zをターゲット変数として分類モデルを近似したため)。 。\ Pr [Z = \ text {unbiased} \、| \、X、Y]を使用してXのYの回帰を当てはめますか?回帰の重みは\ mathbf {E} [Y \、| \、X、 Z = \ text {unbiased}](または、それに失敗すると、重みを使用しない場合よりもバイアスの少ない推定になります)?この方法は実際に使用されていますか、それとも名前がありますか?ZZZPr[Z|X,Y]Pr[Z|X,Y]\Pr[Z \,|\, X,Y]ZZZZZZYYYXXXPr[Z=unbiased|X,Y]Pr[Z=unbiased|X,Y]\Pr[Z = \text{unbiased} \,|\, X,Y]E[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, …

2
King and Zeng(2001)に記載されているまれなイベントの修正方法
バイナリ(生存)応答変数と3つの説明変数(A= 3レベル、B= 3レベル、C= 6レベル)のデータセットがあります。このデータセットでは、データはバランスが取れており、ABCカテゴリごとに100人の個人がいます。これらの、、および変数の影響についてAはB、Cこのデータセットですでに調査しました。それらの効果は重要です。 サブセットがあります。各ABCカテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています(12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD)。第4変数についてさらに調査されました()。ここに3つの問題があります。 KingとZeng(2001)で説明されているまれなイベントの修正を考慮して、およそ50%から50%が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。 この0と1のランダムでないサンプリングは、個人が各ABCカテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。 この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません(データの90%はこれらのレベルの1つ、たとえばlevel内にありますD2)。 King and Zeng(2001)の論文と、King and Zeng(2001)の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf(私はRを使用)を注意深く読みました。King and Zheng(2001)から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました: 以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片はA1B1C1カテゴリであり、このカテゴリの生存率は100%であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。 重み付け方法:w iを計算し、論文で理解したことから:「研究者が行う必要があるのは、式(8)でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分glmを走らせました: glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial) 私は含めるべきであることを確認していないA、BとC私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので(各カテゴリには50%の生死については含まれています)、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2(ほとんどの個人のレベル)によく適合しますが、他のレベルD(D2優勢)にはまったく適合しません。右上のグラフを参照してください。 重み付けされていないglmモデルとw iでglm重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big datasetABCProportion in the sub datasetABCModel predictionsglmpchDD2 後にが表示されたときにのみlogistf、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値(1を除く)とすべてのp値= 0(1を除く)を返します。 質問: KingとZeng(2001)を正しく理解しましたか?(私はそれを理解するのにどれくらい遠いですか?) 私にglmフィット、A、B、とC有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABCということです。そうではありませんか? タウの値と値を持っているという事実にもかかわらず、キングとゼンの(2001)の重み付け補正を適用できますか? y¯y¯\bar yABCグローバル値の代わりに各カテゴリについて? D変数のバランスが非常に悪いのは問題ですか?バランスが取れていない場合、どうすればそれを処理できますか?(考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか?)ありがとうございます! 編集:モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのか​​わかりません。 …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.