タグ付けされた質問 「measurement-error」

測定誤差は、数量の測定値とその真の値の差です。

4
回帰モデルのエラーを概念化する方法は?
私はデータ分析のクラスに参加していて、根強いアイデアが揺さぶられています。つまり、エラー(イプシロン)やその他の種類の分散は、グループ(サンプルまたは母集団全体)にのみ(そう考えると)適用されるという考えです。現在、回帰の仮定の1つは、分散が「すべての個人で同じ」であるということです。これは何となくショックです。常に一定であると想定されたのは、Xのすべての値にわたるYの分散であると常に思っていました。 私は教授と話をしました、彼は私たちに回帰を行うとき、私たちはモデルが真実であると仮定していると私に言いました。それが難しい部分だと思います。私にとって、エラー項(イプシロン)は常に、「私たちが知らない要素で、結果変数に影響を与える可能性のある要素に加えて、いくつかの測定エラー」のようなものを意味していました。クラスの教え方には、「その他」のようなものはありません。私たちのモデルは真実で完全であると想定されています。つまり、すべての残差は測定誤差の結果として考える必要があります(したがって、20回測定すると、20回測定すると同じ分散が生じることが予想されます)。 どこかおかしいと感じました。これについて専門家の意見を聞きたいのですが...概念的に言えば、エラーの用語が何であるかについて解釈の余地はありますか?

1
正規分布クロックの不正確さの修正
特定のイベントの発生を測定する、世界中に分散した何百ものコンピューターで実行される実験があります。各イベントは互いに依存しているので、それらを昇順に並べてから、時間差を計算できます。 イベントは指数的に分布する必要がありますが、ヒストグラムをプロットすると、次のようになります。 コンピュータのクロックが不正確であるため、一部のイベントには、依存するイベントよりも早いタイムスタンプが割り当てられます。 PDFのピークが0ではない(全体が右にシフトした)ために、クロック同期が非難されるのではないかと思いますか? クロックの差が正規分布している場合、影響が互いに相殺し、計算された時間差だけを使用すると仮定できますか?

1
測定誤差に基づく事前分布の選択
機器の測定誤差がある場合、どのように適切な事前計算を行いますか?この段落は、Cressieの本「時空間データの統計」からのものです。 多くの場合、測定誤差の分散に関するいくつかの事前情報が利用可能であり、かなり有益なパラメータモデルを指定できます。我々は条件付き独立した測定誤差を想定している場合、例えば、IIDされる 、我々はのために有益前指定する必要があり。周囲の気温に関心があり、計器メーカーの仕様に±0.1℃の「誤差」が示されていることがわかりました。この「エラー」が2つの標準偏差(チェックする必要があるという仮定)に対応していると仮定すると、\ sigma _ {\ epsilon} ^ {2}を指定して、以前の平均が(0.1 / 2)^ 2 = 0.0025になるようにします。Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)σ2ϵσϵ2\sigma_{\epsilon}^2±0.1°C±0.1°C±0.1°Cσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025。機器メーカーの仕様により、0.0025に明確に定義されたかなり狭いピーク(たとえば、逆ガンマ)を持つ分布を想定します。実際、0.0025に修正するだけで済みます。ただし、データモデルエラーには、他にも不確実性の要素がある場合があります(セクション7.1)。プロセスモデルのエラーによる識別可能性の問題の可能性を回避するには、データを複製するように設計されたサイドスタディを行うことを含め、モデル作成者がサイエンスの許す限り不確実性を減らすことが非常に重要です。 上記のように事前の値を取得するための一般的な手順は何か知っていますか(段落では事前の平均を取得することのみを参照していますが)。


4
バイアス、系統的バイアス、系統的誤差の違いは?
次の用語に違いはありますか、または同じですか? バイアス 体系的なバイアス 系統的エラー その際、違いがある場合は説明してください。サンプルサイズを大きくすると、これらのエラーを減らすことができますか? 更新: 私の関心分野は統計的推論です。これらの用語を統計学者としてどのように区別するかということです。

3
がゼロ以外の平均測定誤差で測定される可能性がある場合の回帰重みの使用
データを観察し、回帰モデルを近似したいとします。残念ながら、は平均値がゼロ以外の誤差で測定される場合があります。Y,XY,XY, XE[Y|X]E[Y|X]\mathbf{E}[Y \,|\, X]YYY ましょうかどうかを示す、それぞれ古典的なゼロ平均誤差又は非ゼロ平均誤差で測定されます。を推定し。残念ながら、は通常観測されず、です。我々はの回帰合う場合は上の、我々は偏った予測を取得します。Z∈{unbiased,biased}Z∈{unbiased,biased}Z \in \left\{\text{unbiased}, \text{biased}\right\}YYYE[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}]ZZZE[Y|X,Z=unbiased]≠E[Y|X]E[Y|X,Z=unbiased]≠E[Y|X]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}] \neq \mathbf{E}[Y \,|\, X]YYYXXX 一般的に観察することはできないが、モデルにアクセスできるとします(Zを小さなトレーニングセットで手動で学習し、Zをターゲット変数として分類モデルを近似したため)。 。\ Pr [Z = \ text {unbiased} \、| \、X、Y]を使用してXのYの回帰を当てはめますか?回帰の重みは\ mathbf {E} [Y \、| \、X、 Z = \ text {unbiased}](または、それに失敗すると、重みを使用しない場合よりもバイアスの少ない推定になります)?この方法は実際に使用されていますか、それとも名前がありますか?ZZZPr[Z|X,Y]Pr[Z|X,Y]\Pr[Z \,|\, X,Y]ZZZZZZYYYXXXPr[Z=unbiased|X,Y]Pr[Z=unbiased|X,Y]\Pr[Z = \text{unbiased} \,|\, X,Y]E[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, …


4
線形回帰の系統的/測定誤差
一連のデータがあり、測定の不確かさ{(\ Delta x_i、\ Delta y_i)}(測定装置からの系統誤差の伝搬から生じる)がそれぞれ異なると仮定しますポイント。データセットに対して線形回帰を行う場合、勾配の不確実性を計算するにはどうすればよいですか?明示的な手順または式を教えてください。(Δは、xはI、Δ Y I)(xi,yi)(xi,yi){(x_i,y_i)}(Δxi,Δyi)(Δxi,Δyi){(\Delta x_i,\Delta y_i)}

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
ロジット回帰の従属変数の測定エラーを修正するにはどうすればよいですか?
従属変数がごく一部のケースで誤ってコーディングされていることがわかっているバイナリロジット回帰を実行しています。だから私はこのモデルでを推定しようとしています:ββ\beta prob(yi)=1/(1+e−zi)prob(yi)=1/(1+e−zi)prob(y_i) = 1/(1 + e^{-z_i}) zi=α+Xiβzi=α+Xiβz_i = \alpha + X_i\beta 代わりにベクトルの、私は〜Yいくつかのランダムな誤差を含む(すなわち、Y I = 1、しかし〜Y iは = 0、いくつかのために、またはその逆をIを)。YYYY~Y~\tilde{Y}yi=1yi=1y_i = 1yi~=0yi~=0\tilde{y_i} = 0iii この問題に対する(合理的に)簡単な修正はありますか? ケースコントロール研究では、ロジットにいくつかの優れた特性があることを知っています。ここでも同様のことが当てはまるようですが、良い解決策を見つけることができませんでした。 その他のいくつかの制約:これはテキストマイニングアプリケーションであるため、の次元は大きくなります(数千または数万)。これにより、計算量の多い手順が除外される場合があります。XXX また、私は正しく推定することは気にせず、βだけを気にします。αα\alphaββ\beta
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.