タグ付けされた質問 「errors-in-variables」

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
変数のエラー回帰:3つのサイトからのデータをプールすることは有効ですか?
サイトからのデータをプールするとき、分析には3つのサイトからのデータのプールが含まれるため、2つのサイトに含まれるサンプルが含まれるため同じ。 バックグラウンド クライアントは、既存の承認されたメソッドと「同等」であることを示したい新しいアッセイメソッドを持っていました。彼らのアプローチは、同じサンプルに適用された両方の方法の結果を比較することでした。テストには3つのサイトが使用されました。変数のエラー(デミング回帰)が各サイトのデータに適用されました。これは、回帰分析で勾配パラメーターが1に近く、切片が0に近い場合、2つのアッセイ手法でほぼ同じ結果が得られるため、新しい方法を承認する必要があるということです。サイト1には45のサンプルがあり、45のペアの観察結果が得られました。サイト2には40サンプル、サイト3には43サンプルがありました。彼らは、3つの別個のデミング回帰を行いました(2つの方法の測定誤差の比率を1と仮定)。そのため、アルゴリズムは垂直距離の二乗の合計を最小化しました。 クライアントは、サイト1とサイト2で使用されているサンプルの一部が同じであると指摘しました。レビューでは、FDAのレビューアは、モデルの仮定を無効にする「干渉」を引き起こす一般的なサンプルが使用されたため、デミング回帰は無効であると述べました。彼らは、この干渉を考慮して、ブートストラップ調整をデミング結果に適用することを要求しました。 その時点で、クライアントは私が持ち込まれたブートストラップの方法を知らなかったので、干渉という用語は奇妙であり、レビュアーが何を得ているのか正確にはわかりませんでした。プールされたデータには共通のサンプルがあるため、共通のサンプルに相関があり、したがってモデルの誤差項がすべて独立しているわけではない、というのが実際のポイントだと思いました。 クライアントの分析 3つの個別の回帰は非常に似ていました。それぞれが1に近い勾配パラメーターと0に近い切片を持ちました。95%信頼区間には、それぞれ勾配と切片にそれぞれ1と0が含まれていました。主な違いは、サイト3での残留分散がわずかに高いことでした。さらに、これをOLSの実行結果と比較し、非常に類似していることがわかりました(OLSに基づく勾配の信頼区間は1を含みませんでした)。勾配のOLS CIに1が含まれていない場合、区間の上限は0.99のようなものでした。 3つのサイトすべてで結果が非常に類似しているため、サイトデータをプールすることは妥当と思われました。クライアントはプールされたデミング回帰を行い、これも同様の結果をもたらしました。これらの結果を踏まえて、回帰が無効であるという主張に異議を唱えるクライアントのレポートを書きました。私の主張は、両方の変数に同様の測定誤差があるため、クライアントは同意/不一致を示す方法としてデミング回帰を使用するのが正しいということです。特定のサイト内でサンプルが繰り返されなかったため、個々のサイトの回帰には相関エラーの問題はありませんでした。データをプールして、信頼区間をより厳しくします。 この問題は、サイト1の一般的なサンプルでデータを単純にプールすることで解決できます。また、3つの個別のサイトモデルには問題がなく、有効です。これは、プーリングなしでも同意の強力な証拠を提供するようです。さらに、共通のサイトのサイト1と2で独立して測定が行われました。そのため、サイト1のサンプルの測定誤差はサイト2の対応するサンプルの測定誤差と相関しないため、すべてのデータを使用したプール分析でも有効であると思います。問題にならないスペース。相関/「干渉」を作成しません。 私のレポートでは、調整する相関関係がないため、ブートストラップ分析は不要であると書きました。3つのサイトモデルは有効であり(サイト内で「干渉」の可能性はありません)、プーリングを行うときにサイト1の共通サンプルを削除して、プールされた分析を行うことができました。このようなプールされた分析には干渉の問題はありません。調整するバイアスがないため、ブートストラップ調整は必要ありません。 結論 クライアントは私の分析に同意しましたが、FDAに持ち込むことを恐れていました。とにかく彼らは私にブートストラップの調整をしてほしい。 私の質問 A)(1)クライアントの結果の分析と(2)ブートストラップが不要であるという私の主張に同意しますか。 B)デミング回帰をブートストラップする必要があると仮定すると、ブートストラップサンプルでデミング回帰を実行するために利用可能なSASまたはRの手順はありますか? 編集:ビルフーバーの提案を考えると、私はx上のyとx上のxの両方の回帰による変数エラー回帰の限界を見ることを計画しています。OLSの1つのバージョンでは、2つの誤差分散が等しいと仮定した場合、答えは本質的に変数のエラーと同じであることをすでに知っています。これが他の回帰にも当てはまる場合、デミング回帰が適切なソリューションを提供することを示していると思います。同意しますか? クライアントの要求を満たすために、漠然と定義された要求されたブートストラップ分析を行う必要があります。倫理的には、ブートストラップを提供するだけでは、クライアントの実際の問題が解決されないため、アッセイ測定手順を正当化することは間違っていると思います。そこで、少なくとも分析と要求の両方を行い、ブートストラップに加えて、逆回帰を行い、より適切だと思うデミング回帰を制限したことをFDAに伝えるよう要求します。また、分析により、それらの方法が参照と同等であり、したがってデミング回帰も適切であることが示されると思います。 @whuberが彼の答えで提案したRプログラムを使用して、Deming回帰をブートストラップできるようにする予定です。私はRにあまり馴染みがありませんが、できると思います。R StudioとともにRをインストールしています。それは私のような初心者にとって十分に簡単になりますか? また、私はSASを所有しており、SASでより快適にプログラミングできます。SASでこれを行う方法を知っている人がいれば、それについて知っていただければ幸いです。

2
異なるサンプルサイズのグループ平均に基づく予測変数がある場合、何ができますか?
結果あり、それがいくつかの予測子とどのように関係するかという古典的なデータ分析の問題を考えてみましょう。ここで念頭に置いたアプリケーションの基本的なタイプは、 X I 1、。。。、X i pYiYiY_{i}Xi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip} YiYiY_{i}は、都市iの犯罪率などのグループレベルの結果iiiです。 予測子は、都市iの人口統計学的特徴などのグループレベルの特性ですiii。 基本的な目標は、回帰モデルを適合させることです(おそらくランダム効果を使用しますが、今のところは忘れてください)。 E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} 1つ(または複数)の予測変数が、ユニットごとに異なるサンプルサイズを持つ調査の結果である場合、いくつかの技術的な困難が生じますか?例えば、仮定Xi1Xi1X_{i1}都市の要約スコアであるiiiの都市からの個体の試料からの平均応答であるiiiが、サンプルは、これらの平均値をに基づいていたサイズが乱暴に異なっています。 C i t y12345⋮S a m p l e s i z e 2010030053⋮C私tySample s私ze120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} …

1
Error In Variables Modelの偏りのない推定値よりも良い結果を達成する回帰のバイアス推定器
私はいくつかの研究のために、Error In Variableモデルのいくつかの合成データに取り組んでいます。現在、単一の独立変数があり、従属変数の真の値の分散を知っていると仮定しています。 したがって、この情報を使用して、従属変数の係数の不偏推定量を実現できます。 モデル: x~=x+e1x~=x+e1\tilde{x} = x + e_1 y=0.5x−10+e2y=0.5x−10+e2y = 0.5x -10 + e_2 ここで、 e1~N(0,σ2)e1~N(0,σ2)e_1\text{~}N(0,\sigma^2)のためのいくつかのσσ\sigma e2~N(0,1)e2~N(0,1)e_2\text{~}N(0,1) 値はここでy,x~y,x~y,\tilde{x}唯一各サンプル、またの真の値の標準偏差のために知られているxxxのサンプルのために知られている:σxσx\sigma_x。 私は偏っ(取得β OLSを使用して)係数をした後、使用して調整を行います。β^β^\hat{\beta} β′=β^∗σ^2x~σ2xβ′=β^∗σ^x~2σx2\beta' = \hat{\beta} * \frac{\hat{\sigma}_\tilde{x}^2}{\sigma_x^2} このモデルでは、係数の新しい不偏推定量がはるかに優れている(実際の値に近い)ことがわかりますが、バイアス推定量を使用するよりもMSEが悪化しています。 何が起こっている?偏った推定器よりも、偏った推定器よりも良い結果が得られると期待していました。 Matlabコード: reg_mse_agg = []; fixed_mse_agg = []; varMult = 1; numTests = 60; for dataNumber=1:8 reg_mses = []; fixed_mses = []; …

1
「単純な」測定誤差モデルをフィッティングする方法
「OLS」測定誤差モデルの推定に使用できる方法を探しています。 yi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xi=Xi+ex,ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yi=α+βXiYi=α+βXiY_{i}=\alpha + \beta X_{i} エラーは、未知の分散および独立した標準です。この場合、「標準」OLSは機能しません。σ2yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} ウィキペディアには魅力のない解決策がいくつかあります。2つは、「分散比」または信頼性比」は既知であり、は、真のリグレッサー分散です。私はこれに満足していません。なぜなら、分散を知らない人はどうして自分の比率を知ることができるのでしょうか?δ=σ2yσ2xδ=σy2σx2\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}λ=σ2Xσ2x+σ2Xλ=σX2σx2+σX2\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}σ2XσX2\sigma_{X}^2XiXiX_i とにかく、パラメータについて「知る」必要のないこれら2つ以外のソリューションはありますか? インターセプトとスロープのみのソリューションは問題ありません。

1
制御機能アプローチとブートストラップ
のは、私は断面データを持っていると仮定してみましょう上、、(については以下を参照してください、、)。yyyバツ1バツ1x_1バツ2バツ2x_2yyyバツ1バツ1x_1バツ2バツ2x_2 変数と影響と、制御関数アプローチを使用して変数に対するそれらの相互作用()を推定したいのですが、とは内生的である可能性が高いです。と 2つのインストゥルメントがあり。次の2つの第1ステージの方程式を推定し、次の方法で予測残差を保存します。バツ1バツ1x_1バツ2バツ2x_2バツ3= x1∗ x2バツ3=バツ1∗バツ2x_3= x_1*x_2yyyバツ1バツ1x_1バツ2バツ2x_2z1z1z_1z2z2z_2 ivreg2 x1 z1 z2 predict error1hat, residuals ivreg2 x2 z1 z2 predict error2hat, residuals 予測された残差を保存したら、次の方法で第2段階の方程式を推定します。 ivreg2 y x1 x2 x3 error1hat error2hat 、、およびの推定された係数は理にかなっていますが、標準誤差はOKではないことを知っています(http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページを参照)。バツ1バツ1x_1バツ2バツ2x_2バツ3バツ3x_3 http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページで、著者はブートストラップを使用して、、修正された標準エラーを取得することをます。バツ1バツ1x_1バツ2バツ2x_2バツ3バツ3x_3 私の質問は: ブートストラップはどのように設定すればよいですか? ブートストラップは第2段階の方程式にのみ適用されますか、それとも第1段階と第2段階の両方の方程式に適用されますか? ここで、、、およびパネルデータがあるとします。まず、グループ内差異を使用して、観察されていない異質性を削除し、次に、データが断面データであるかのように、制御関数アプローチを使用してパラメーターを推定します(上記を参照)。上記のケースに関してパネルデータを使用する場合、追加の調整を行う必要がありますか?yyyバツ1バツ1x_1バツ2バツ2x_2

4
線形回帰の系統的/測定誤差
一連のデータがあり、測定の不確かさ{(\ Delta x_i、\ Delta y_i)}(測定装置からの系統誤差の伝搬から生じる)がそれぞれ異なると仮定しますポイント。データセットに対して線形回帰を行う場合、勾配の不確実性を計算するにはどうすればよいですか?明示的な手順または式を教えてください。(Δは、xはI、Δ Y I)(xi,yi)(xi,yi){(x_i,y_i)}(Δxi,Δyi)(Δxi,Δyi){(\Delta x_i,\Delta y_i)}

1
ショットノイズのある線形回帰
次の問題を説明するための適切な統計用語を探しています。 線形応答を持つ電子機器を特徴づけたい Y= β0+ β1バツ+ ϵY=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon ここで、は、デバイスの読み出しノイズによる項です。決定するために Iは、一連の応答を測定することになる標準線形回帰ツールボックスを適用します。しかし、ショットノイズの影響を受けるソースを使用しているため、が正確に何であるかわかりません。つまり、ソースのダイヤルを特定の値に設定すると、(平均および分散ガウスになることはわかっています。β 0、β 1、σ 2 R O { X I、Y I } X I J I X 、I〜N (μ 、μ )μ με 〜N(0 、σ2R O)ϵ∼N(0,σro2)\epsilon \sim N(0,\sigma^2_{ro})β0、β1、σ2R Oβ0,β1,σro2\beta_0, \beta_1, \sigma^2_{ro}{ X私、Y私}{Xi,Yi}\{X_i,Y_i\}バツ私XiX_iJ私JiJ_iバツ私〜N(μ 、μ )Xi∼N(μ,μ)X_i \sim N(\mu, \mu)μμ\muμμ\mu これは、線形回帰の変数内エラーモデル(http://en.wikipedia.org/wiki/Errors-in-variables_models)のように見えますが、入力範囲全体でデバイスを特徴付けるためではありません。 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.