観測されたイベントと期待されたイベントを比較する方法は?


9

4つの可能なイベントの頻度の1つのサンプルがあるとします。

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

そして、私は自分のイベントの発生が予想される確率を持っています:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

観測値と期待値を比較するにはどうすればよいですか?計算した確率が優れた予測因子かどうかをテストするには?

カイ二乗検定について考えましたが、サンプルサイズ(n = 18)によって結果が変化します。つまり、観測値に1342を掛けて同じ方法を使用すると、結果が異なります。たぶん、ウィルコックスの対応テストはうまくいきますが、あなたは何を提案しますか?

Rで提案できる場合、それがより良いでしょう。

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

回答:


4

すべての値にを掛けると、異なる結果が得られると述べています。これは問題ありません。あなたは必要があり非常に異なる結果が得られます。コインをめくって表に出ても、あまり意味がありません。コインを回裏返して、毎回表が出る場合、コインがであることを示唆する多くの情報があります。13421342

通常、カテゴリの大部分(たとえば、少なくとも)で予想される発生数が非常に少ない(たとえば未満)場合は、テストの代替手段を使用します。1つの可能性は、R実装されるフィッシャーの正確確率検定です。検定をフィッシャーの正確確率検定の近似として見ることができます。近似は、予想されるカウントの数が多い場合にのみ有効です。χ2520%χ2


ありがとう、これにはどちらが良いですか:フィッシャーテストだけですか?またはpシミュレーション値を使用したフィッシャーテスト?なぜ?
フアン

シミュレーションでは、小さなエラーが発生する可能性がありますが、小さな値の場合は必要ありません。あなたが持っている場合はカテゴリとのオブジェクトを、その後、可能な結果の数は。これがコンピューターの標準で小さい場合(おそらく未満)、正確な計算を使用します。正確な計算が遅い場合は、シミュレーションのエラーをテストして、速度の増加に許容できるかどうかを確認します。kn(n+k1n)107
ダグラスザレ2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.