統計とビッグデータ measurement-error

4

私はデータ分析のクラスに参加していて、根強いアイデアが揺さぶられています。つまり、エラー（イプシロン）やその他の種類の分散は、グループ（サンプルまたは母集団全体）にのみ（そう考えると）適用されるという考えです。現在、回帰の仮定の1つは、分散が「すべての個人で同じ」であるということです。これは何となくショックです。常に一定であると想定されたのは、Xのすべての値にわたるYの分散であると常に思っていました。私は教授と話をしました、彼は私たちに回帰を行うとき、私たちはモデルが真実であると仮定していると私に言いました。それが難しい部分だと思います。私にとって、エラー項（イプシロン）は常に、「私たちが知らない要素で、結果変数に影響を与える可能性のある要素に加えて、いくつかの測定エラー」のようなものを意味していました。クラスの教え方には、「その他」のようなものはありません。私たちのモデルは真実で完全であると想定されています。つまり、すべての残差は測定誤差の結果として考える必要があります（したがって、20回測定すると、20回測定すると同じ分散が生じることが予想されます）。どこかおかしいと感じました。これについて専門家の意見を聞きたいのですが...概念的に言えば、エラーの用語が何であるかについて解釈の余地はありますか？

11 regression variance error measurement-error

1

正規分布クロックの不正確さの修正

特定のイベントの発生を測定する、世界中に分散した何百ものコンピューターで実行される実験があります。各イベントは互いに依存しているので、それらを昇順に並べてから、時間差を計算できます。イベントは指数的に分布する必要がありますが、ヒストグラムをプロットすると、次のようになります。コンピュータのクロックが不正確であるため、一部のイベントには、依存するイベントよりも早いタイムスタンプが割り当てられます。 PDFのピークが0ではない（全体が右にシフトした）ために、クロック同期が非難されるのではないかと思いますか？クロックの差が正規分布している場合、影響が互いに相殺し、計算された時間差だけを使用すると仮定できますか？

10 error measurement-error exponential

1

測定誤差に基づく事前分布の選択

機器の測定誤差がある場合、どのように適切な事前計算を行いますか？この段落は、Cressieの本「時空間データの統計」からのものです。多くの場合、測定誤差の分散に関するいくつかの事前情報が利用可能であり、かなり有益なパラメータモデルを指定できます。我々は条件付き独立した測定誤差を想定している場合、例えば、IIDされる、我々はのために有益前指定する必要があり。周囲の気温に関心があり、計器メーカーの仕様に±0.1℃の「誤差」が示されていることがわかりました。この「エラー」が2つの標準偏差（チェックする必要があるという仮定）に対応していると仮定すると、\ sigma _ {\ epsilon} ^ {2}を指定して、以前の平均が（0.1 / 2）^ 2 = 0.0025になるようにします。Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)σ2ϵσϵ2\sigma_{\epsilon}^2±0.1°C±0.1°C±0.1°Cσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025。機器メーカーの仕様により、0.0025に明確に定義されたかなり狭いピーク（たとえば、逆ガンマ）を持つ分布を想定します。実際、0.0025に修正するだけで済みます。ただし、データモデルエラーには、他にも不確実性の要素がある場合があります（セクション7.1）。プロセスモデルのエラーによる識別可能性の問題の可能性を回避するには、データを複製するように設計されたサイドスタディを行うことを含め、モデル作成者がサイエンスの許す限り不確実性を減らすことが非常に重要です。上記のように事前の値を取得するための一般的な手順は何か知っていますか（段落では事前の平均を取得することのみを参照していますが）。

9 bayesian standard-error error prior measurement-error

1

エラーのあるデータに最適な線形回帰モデル

独立変数（x）に一定の測定誤差があり、従属変数（y）に信号依存誤差があるデータに最適な線形回帰アルゴリズムを探しています。上の画像は私の質問を示しています。

9 regression linear-model measurement-error measurement

4

バイアス、系統的バイアス、系統的誤差の違いは？

次の用語に違いはありますか、または同じですか？バイアス体系的なバイアス系統的エラーその際、違いがある場合は説明してください。サンプルサイズを大きくすると、これらのエラーを減らすことができますか？更新：私の関心分野は統計的推論です。これらの用語を統計学者としてどのように区別するかということです。

9 measurement-error bias

3

がゼロ以外の平均測定誤差で測定される可能性がある場合の回帰重みの使用

データを観察し、回帰モデルを近似したいとします。残念ながら、は平均値がゼロ以外の誤差で測定される場合があります。Y,XY,XY, XE[Y|X]E[Y|X]\mathbf{E}[Y \,|\, X]YYY ましょうかどうかを示す、それぞれ古典的なゼロ平均誤差又は非ゼロ平均誤差で測定されます。を推定し。残念ながら、は通常観測されず、です。我々はの回帰合う場合は上の、我々は偏った予測を取得します。Z∈{unbiased,biased}Z∈{unbiased,biased}Z \in \left\{\text{unbiased}, \text{biased}\right\}YYYE[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}]ZZZE[Y|X,Z=unbiased]≠E[Y|X]E[Y|X,Z=unbiased]≠E[Y|X]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}] \neq \mathbf{E}[Y \,|\, X]YYYXXX 一般的に観察することはできないが、モデルにアクセスできるとします（Zを小さなトレーニングセットで手動で学習し、Zをターゲット変数として分類モデルを近似したため）。。\ Pr [Z = \ text {unbiased} \、| \、X、Y]を使用してXのYの回帰を当てはめますか？回帰の重みは\ mathbf {E} [Y \、| \、X、 Z = \ text {unbiased}]（または、それに失敗すると、重みを使用しない場合よりもバイアスの少ない推定になります）？この方法は実際に使用されていますか、それとも名前がありますか？ZZZPr[Z|X,Y]Pr[Z|X,Y]\Pr[Z \,|\, X,Y]ZZZZZZYYYXXXPr[Z=unbiased|X,Y]Pr[Z=unbiased|X,Y]\Pr[Z = \text{unbiased} \,|\, X,Y]E[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, …

8 regression bias measurement-error weighted-regression

1

クロンバッハのアルファは直感的に何ですか？

クロンバックのアルファを直感的に理解しようとしています。この構成の背後にある一般的な考え方は何ですか？彼らが持っていることを確認するために彼らはどんな特性を試みていましたか？

8 reliability measurement-error psychometrics intuition cronbachs-alpha

4

線形回帰の系統的/測定誤差

一連のデータがあり、測定の不確かさ{（\ Delta x_i、\ Delta y_i）}（測定装置からの系統誤差の伝搬から生じる）がそれぞれ異なると仮定しますポイント。データセットに対して線形回帰を行う場合、勾配の不確実性を計算するにはどうすればよいですか？明示的な手順または式を教えてください。（Δは、xはI、Δ Y I）(xi,yi)(xi,yi){(x_i,y_i)}(Δxi,Δyi)(Δxi,Δyi){(\Delta x_i,\Delta y_i)}

8 linear-model measurement-error errors-in-variables

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

ロジット回帰の従属変数の測定エラーを修正するにはどうすればよいですか？

従属変数がごく一部のケースで誤ってコーディングされていることがわかっているバイナリロジット回帰を実行しています。だから私はこのモデルでを推定しようとしています：ββ\beta prob(yi)=1/(1+e−zi)prob(yi)=1/(1+e−zi)prob(y_i) = 1/(1 + e^{-z_i}) zi=α+Xiβzi=α+Xiβz_i = \alpha + X_i\beta 代わりにベクトルの、私は〜Yいくつかのランダムな誤差を含む（すなわち、Y I = 1、しかし〜Y iは = 0、いくつかのために、またはその逆をIを）。YYYY~Y~\tilde{Y}yi=1yi=1y_i = 1yi~=0yi~=0\tilde{y_i} = 0iii この問題に対する（合理的に）簡単な修正はありますか？ケースコントロール研究では、ロジットにいくつかの優れた特性があることを知っています。ここでも同様のことが当てはまるようですが、良い解決策を見つけることができませんでした。その他のいくつかの制約：これはテキストマイニングアプリケーションであるため、の次元は大きくなります（数千または数万）。これにより、計算量の多い手順が除外される場合があります。XXX また、私は正しく推定することは気にせず、βだけを気にします。αα\alphaββ\beta

8 logistic measurement-error

タグ付けされた質問 「measurement-error」

タグ付けされた質問「measurement-error」