統計とビッグデータ errors-in-variables

5

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

変数のエラー回帰：3つのサイトからのデータをプールすることは有効ですか？

サイトからのデータをプールするとき、分析には3つのサイトからのデータのプールが含まれるため、2つのサイトに含まれるサンプルが含まれるため同じ。バックグラウンドクライアントは、既存の承認されたメソッドと「同等」であることを示したい新しいアッセイメソッドを持っていました。彼らのアプローチは、同じサンプルに適用された両方の方法の結果を比較することでした。テストには3つのサイトが使用されました。変数のエラー（デミング回帰）が各サイトのデータに適用されました。これは、回帰分析で勾配パラメーターが1に近く、切片が0に近い場合、2つのアッセイ手法でほぼ同じ結果が得られるため、新しい方法を承認する必要があるということです。サイト1には45のサンプルがあり、45のペアの観察結果が得られました。サイト2には40サンプル、サイト3には43サンプルがありました。彼らは、3つの別個のデミング回帰を行いました（2つの方法の測定誤差の比率を1と仮定）。そのため、アルゴリズムは垂直距離の二乗の合計を最小化しました。クライアントは、サイト1とサイト2で使用されているサンプルの一部が同じであると指摘しました。レビューでは、FDAのレビューアは、モデルの仮定を無効にする「干渉」を引き起こす一般的なサンプルが使用されたため、デミング回帰は無効であると述べました。彼らは、この干渉を考慮して、ブートストラップ調整をデミング結果に適用することを要求しました。その時点で、クライアントは私が持ち込まれたブートストラップの方法を知らなかったので、干渉という用語は奇妙であり、レビュアーが何を得ているのか正確にはわかりませんでした。プールされたデータには共通のサンプルがあるため、共通のサンプルに相関があり、したがってモデルの誤差項がすべて独立しているわけではない、というのが実際のポイントだと思いました。クライアントの分析 3つの個別の回帰は非常に似ていました。それぞれが1に近い勾配パラメーターと0に近い切片を持ちました。95％信頼区間には、それぞれ勾配と切片にそれぞれ1と0が含まれていました。主な違いは、サイト3での残留分散がわずかに高いことでした。さらに、これをOLSの実行結果と比較し、非常に類似していることがわかりました（OLSに基づく勾配の信頼区間は1を含みませんでした）。勾配のOLS CIに1が含まれていない場合、区間の上限は0.99のようなものでした。 3つのサイトすべてで結果が非常に類似しているため、サイトデータをプールすることは妥当と思われました。クライアントはプールされたデミング回帰を行い、これも同様の結果をもたらしました。これらの結果を踏まえて、回帰が無効であるという主張に異議を唱えるクライアントのレポートを書きました。私の主張は、両方の変数に同様の測定誤差があるため、クライアントは同意/不一致を示す方法としてデミング回帰を使用するのが正しいということです。特定のサイト内でサンプルが繰り返されなかったため、個々のサイトの回帰には相関エラーの問題はありませんでした。データをプールして、信頼区間をより厳しくします。この問題は、サイト1の一般的なサンプルでデータを単純にプールすることで解決できます。また、3つの個別のサイトモデルには問題がなく、有効です。これは、プーリングなしでも同意の強力な証拠を提供するようです。さらに、共通のサイトのサイト1と2で独立して測定が行われました。そのため、サイト1のサンプルの測定誤差はサイト2の対応するサンプルの測定誤差と相関しないため、すべてのデータを使用したプール分析でも有効であると思います。問題にならないスペース。相関/「干渉」を作成しません。私のレポートでは、調整する相関関係がないため、ブートストラップ分析は不要であると書きました。3つのサイトモデルは有効であり（サイト内で「干渉」の可能性はありません）、プーリングを行うときにサイト1の共通サンプルを削除して、プールされた分析を行うことができました。このようなプールされた分析には干渉の問題はありません。調整するバイアスがないため、ブートストラップ調整は必要ありません。結論クライアントは私の分析に同意しましたが、FDAに持ち込むことを恐れていました。とにかく彼らは私にブートストラップの調整をしてほしい。私の質問 A）（1）クライアントの結果の分析と（2）ブートストラップが不要であるという私の主張に同意しますか。 B）デミング回帰をブートストラップする必要があると仮定すると、ブートストラップサンプルでデミング回帰を実行するために利用可能なSASまたはRの手順はありますか？編集：ビルフーバーの提案を考えると、私はx上のyとx上のxの両方の回帰による変数エラー回帰の限界を見ることを計画しています。OLSの1つのバージョンでは、2つの誤差分散が等しいと仮定した場合、答えは本質的に変数のエラーと同じであることをすでに知っています。これが他の回帰にも当てはまる場合、デミング回帰が適切なソリューションを提供することを示していると思います。同意しますか？クライアントの要求を満たすために、漠然と定義された要求されたブートストラップ分析を行う必要があります。倫理的には、ブートストラップを提供するだけでは、クライアントの実際の問題が解決されないため、アッセイ測定手順を正当化することは間違っていると思います。そこで、少なくとも分析と要求の両方を行い、ブートストラップに加えて、逆回帰を行い、より適切だと思うデミング回帰を制限したことをFDAに伝えるよう要求します。また、分析により、それらの方法が参照と同等であり、したがってデミング回帰も適切であることが示されると思います。 @whuberが彼の答えで提案したRプログラムを使用して、Deming回帰をブートストラップできるようにする予定です。私はRにあまり馴染みがありませんが、できると思います。R StudioとともにRをインストールしています。それは私のような初心者にとって十分に簡単になりますか？また、私はSASを所有しており、SASでより快適にプログラミングできます。SASでこれを行う方法を知っている人がいれば、それについて知っていただければ幸いです。

15 regression errors-in-variables deming-regression pooling

2

異なるサンプルサイズのグループ平均に基づく予測変数がある場合、何ができますか？

結果あり、それがいくつかの予測子とどのように関係するかという古典的なデータ分析の問題を考えてみましょう。ここで念頭に置いたアプリケーションの基本的なタイプは、 X I 1、。。。、X i pYiYiY_{i}Xi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip} YiYiY_{i}は、都市iの犯罪率などのグループレベルの結果iiiです。予測子は、都市iの人口統計学的特徴などのグループレベルの特性ですiii。基本的な目標は、回帰モデルを適合させることです（おそらくランダム効果を使用しますが、今のところは忘れてください）。 E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} 1つ（または複数）の予測変数が、ユニットごとに異なるサンプルサイズを持つ調査の結果である場合、いくつかの技術的な困難が生じますか？例えば、仮定Xi1Xi1X_{i1}都市の要約スコアであるiiiの都市からの個体の試料からの平均応答であるiiiが、サンプルは、これらの平均値をに基づいていたサイズが乱暴に異なっています。 C i t y12345⋮S a m p l e s i z e 2010030053⋮C私tySample s私ze120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} …

14 regression measurement-error errors-in-variables

1

Error In Variables Modelの偏りのない推定値よりも良い結果を達成する回帰のバイアス推定器

私はいくつかの研究のために、Error In Variableモデルのいくつかの合成データに取り組んでいます。現在、単一の独立変数があり、従属変数の真の値の分散を知っていると仮定しています。したがって、この情報を使用して、従属変数の係数の不偏推定量を実現できます。モデル： x~=x+e1x~=x+e1\tilde{x} = x + e_1 y=0.5x−10+e2y=0.5x−10+e2y = 0.5x -10 + e_2 ここで、 e1~N(0,σ2)e1~N(0,σ2)e_1\text{~}N(0,\sigma^2)のためのいくつかのσσ\sigma e2~N(0,1)e2~N(0,1)e_2\text{~}N(0,1) 値はここでy,x~y,x~y,\tilde{x}唯一各サンプル、またの真の値の標準偏差のために知られているxxxのサンプルのために知られている：σxσx\sigma_x。私は偏っ（取得β OLSを使用して）係数をした後、使用して調整を行います。β^β^\hat{\beta} β′=β^∗σ^2x~σ2xβ′=β^∗σ^x~2σx2\beta' = \hat{\beta} * \frac{\hat{\sigma}_\tilde{x}^2}{\sigma_x^2} このモデルでは、係数の新しい不偏推定量がはるかに優れている（実際の値に近い）ことがわかりますが、バイアス推定量を使用するよりもMSEが悪化しています。何が起こっている？偏った推定器よりも、偏った推定器よりも良い結果が得られると期待していました。 Matlabコード： reg_mse_agg = []; fixed_mse_agg = []; varMult = 1; numTests = 60; for dataNumber=1:8 reg_mses = []; fixed_mses = []; …

13 regression matlab unbiased-estimator errors-in-variables

1

「単純な」測定誤差モデルをフィッティングする方法

「OLS」測定誤差モデルの推定に使用できる方法を探しています。 yi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xi=Xi+ex,ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yi=α+βXiYi=α+βXiY_{i}=\alpha + \beta X_{i} エラーは、未知の分散および独立した標準です。この場合、「標準」OLSは機能しません。σ2yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} ウィキペディアには魅力のない解決策がいくつかあります。2つは、「分散比」または信頼性比」は既知であり、は、真のリグレッサー分散です。私はこれに満足していません。なぜなら、分散を知らない人はどうして自分の比率を知ることができるのでしょうか？δ=σ2yσ2xδ=σy2σx2\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}λ=σ2Xσ2x+σ2Xλ=σX2σx2+σX2\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}σ2XσX2\sigma_{X}^2XiXiX_i とにかく、パラメータについて「知る」必要のないこれら2つ以外のソリューションはありますか？インターセプトとスロープのみのソリューションは問題ありません。

13 regression estimation errors-in-variables

1

制御機能アプローチとブートストラップ

のは、私は断面データを持っていると仮定してみましょう上、、（については以下を参照してください、、）。yyyバツ1バツ1x_1バツ2バツ2x_2yyyバツ1バツ1x_1バツ2バツ2x_2 変数と影響と、制御関数アプローチを使用して変数に対するそれらの相互作用（）を推定したいのですが、とは内生的である可能性が高いです。と 2つのインストゥルメントがあり。次の2つの第1ステージの方程式を推定し、次の方法で予測残差を保存します。バツ1バツ1x_1バツ2バツ2x_2バツ３= x1∗ x2バツ３=バツ1∗バツ2x_3= x_1*x_2yyyバツ1バツ1x_1バツ2バツ2x_2z1z1z_1z2z2z_2 ivreg2 x1 z1 z2 predict error1hat, residuals ivreg2 x2 z1 z2 predict error2hat, residuals 予測された残差を保存したら、次の方法で第2段階の方程式を推定します。 ivreg2 y x1 x2 x3 error1hat error2hat 、、およびの推定された係数は理にかなっていますが、標準誤差はOKではないことを知っています（http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページを参照）。バツ1バツ1x_1バツ2バツ2x_2バツ３バツ３x_3 http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページで、著者はブートストラップを使用して、、修正された標準エラーを取得することをます。バツ1バツ1x_1バツ2バツ2x_2バツ３バツ３x_3 私の質問は：ブートストラップはどのように設定すればよいですか？ブートストラップは第2段階の方程式にのみ適用されますか、それとも第1段階と第2段階の両方の方程式に適用されますか？ここで、、、およびパネルデータがあるとします。まず、グループ内差異を使用して、観察されていない異質性を削除し、次に、データが断面データであるかのように、制御関数アプローチを使用してパラメーターを推定します（上記を参照）。上記のケースに関してパネルデータを使用する場合、追加の調整を行う必要がありますか？yyyバツ1バツ1x_1バツ2バツ2x_2

8 econometrics bootstrap instrumental-variables resampling errors-in-variables

4

線形回帰の系統的/測定誤差

一連のデータがあり、測定の不確かさ{（\ Delta x_i、\ Delta y_i）}（測定装置からの系統誤差の伝搬から生じる）がそれぞれ異なると仮定しますポイント。データセットに対して線形回帰を行う場合、勾配の不確実性を計算するにはどうすればよいですか？明示的な手順または式を教えてください。（Δは、xはI、Δ Y I）(xi,yi)(xi,yi){(x_i,y_i)}(Δxi,Δyi)(Δxi,Δyi){(\Delta x_i,\Delta y_i)}

8 linear-model measurement-error errors-in-variables

1

ショットノイズのある線形回帰

次の問題を説明するための適切な統計用語を探しています。線形応答を持つ電子機器を特徴づけたい Y= β0+ β1バツ+ ϵY=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon ここで、は、デバイスの読み出しノイズによる項です。決定するために Iは、一連の応答を測定することになる標準線形回帰ツールボックスを適用します。しかし、ショットノイズの影響を受けるソースを使用しているため、が正確に何であるかわかりません。つまり、ソースのダイヤルを特定の値に設定すると、（平均および分散ガウスになることはわかっています。β 0、β 1、σ 2 R O { X I、Y I } X I J I X 、I〜N （μ 、μ ）μ με 〜N（0 、σ2R O）ϵ∼N(0,σro2)\epsilon \sim N(0,\sigma^2_{ro})β0、β1、σ2R Oβ0,β1,σro2\beta_0, \beta_1, \sigma^2_{ro}{ X私、Y私}{Xi,Yi}\{X_i,Y_i\}バツ私XiX_iJ私JiJ_iバツ私〜N（μ 、μ ）Xi∼N(μ,μ)X_i \sim N(\mu, \mu)μμ\muμμ\mu これは、線形回帰の変数内エラーモデル（http://en.wikipedia.org/wiki/Errors-in-variables_models）のように見えますが、入力範囲全体でデバイスを特徴付けるためではありません。 …

8 regression maximum-likelihood heteroscedasticity errors-in-variables

タグ付けされた質問 「errors-in-variables」

タグ付けされた質問「errors-in-variables」