試験の結果は二項式ですか?


31

ここに私が与えられた簡単な統計の質問があります。私はそれを理解しているのか本当にわかりません。

X =試験の獲得ポイントの数(複数選択と正解は1ポイント)。X二項分布はありますか?

教授の答えは次のとおりです。

はい、正解か不正解しかありません。

私の答え:

いいえ、各質問には異なる「成功確率」があります。私が理解したように、二項分布は単なる一連のベルヌーイ実験であり、それぞれが特定の成功確率pを持つ単純な結果(成功または失敗)を持ちます(そしてすべてがpに関して「同一」です)。たとえば、(公正な)コインを100回フリッピングすると、これは100ベルヌーイ実験であり、すべてp = 0.5になります。しかし、ここでの質問にはさまざまな種類がありますか?


14
要はさらに+1:これが実際に奇妙な試験でない限り、質問への回答は強く相関します。場合バツ総スコアである個体のため、これは二項分布を排除するであろう。質問は、すべての受験者が独立してランダムにすべての回答を推測する「帰無仮説」の仮定の下で動作している可能性はありますか?
whuber

2
少なくとも逆説的ですが、これについては少なくとも部分的な功績を主張していましたが、「答え」はそれを授与することへの偏見を反映しているようです:)(あなたはここにいると思います)。
AdamO

1
はい、ありがとう:D、私はそのポアソン二項分布(もしあれば)
Paul

2
参照してください@Zahava stats.stackexchange.com/search?q=poisson+binomial
whuber

2
私は質問が貧弱だったことに全員に同意しますが、ここにはフレーミング問題があります。これが初級コースであり、短い回答形式である場合(理由を説明する機会が得られるように)、最良の答えはおそらく「はい(各質問の独立性と同等の難易度を想定)」です。それは、教授に(1)質問の限界を理解し、(2)賢いことをしようとしているのではないことを示すものです。
ベンボルカー

回答:


25

あなたの答えに同意します。通常、この種のデータは、現在、何らかの種類のアイテム応答理論モデルでモデル化されています。たとえば、Raschモデルを使用した場合、バイナリ回答は次のようにモデル化されますバツn

Pr{バツn=1}=eβnδ1+eβnδ

ここで、は番目の人の能力、は番目の質問の難易度と考えることができます。そのため、このモデルを使用すると、人によって能力が異なり、質問の難易度も異なるという事実を把握できます。これは最も単純なIRTモデルです。のn δ I Iβnnδii

あなたの教授の答えは、すべての質問が同じ「成功」の確率を持ち、独立していると仮定しています。二項式は iidベルヌーイ試行の合計の分布であるためです 上記の2種類の依存関係は無視されます。n

コメントで気づいたように、特定の人の回答の分布を見た場合(したがって、個人間のばらつきを気にする必要はありません)、または同じアイテムの異なる人の回答を見て(したがって、アイテムの可変性)、分布はポアソン二項分布、つまり非iidベルヌーイ試行の合計の分布になります。分布二項またはポアソンで近似できますが、それだけです。そうでなければ、あなたはiidの仮定をしている。n

推測に関する「ヌル」の仮定の下でさえ、これは推測パターンがないことを前提としているので、人々は推測の方法に違いはなく、アイテムは推測の方法に違いがないため、推測は純粋にランダムです。


それは理にかなっている!私はあなたが質問の成功確率の確率を計算できると思いますが、「人の能力」は難しいように思えます:)私が持っていた別のアイデアは、ベルヌリ分布の合計としてこれをモデル化することですか?たとえば、2つの質問があるとしましょう。したがって、2つの成功確率p1とp2です。同様に、2つの変数X1およびX2がカウントされます(したがって、2つのbernulli-experiments)。たとえば、1つの合計スコアが1になる確率は、P(X1 = 1)* P(X2 = 0)+ P(X1 = 0)* P(X2 = 1)= p1(1-p2)+(p1 -1)p2。それは理にかなっていますか?
ポール

2
異なるpを持つ2つのベルヌーイの@ポール合計はポアソン二項
ティム

4
「ヌル」の仮定は、基本的に球牛のことであり、牛がどの程度球形であるかについては、常に口論することができます。
大井紅

5

この問題に対する答えは、質問の構成と情報がいつ得られるかによって異なります。全体的に、私は教授に同意する傾向がありますが、彼/彼女の答えの説明は貧弱であり、教授の質問には前もってより多くの情報を含めるべきだと思います。

潜在的な試験問題が無限にあると考え、質問1でランダムに1つ描いた場合、質問2でランダムに1つ描いてから、試験に進みます。

  1. 各質問には2つの結果があります(正誤)
  2. 一定の試行回数(質問)があります
  3. p

このフレームワークの下で、二項実験の仮定が満たされます。

残念ながら、不適切な統計問題は、試験だけでなく実際に非常に一般的です。教授への理論的根拠を擁護することをheしません。


ええ、私もそれは正しいと思います。情報はほとんど提供されないため、両方の方法で議論できるため、質問は「悪い」だけです。しかし、私は教授の与えられた答えに非常に不満でした。
ポール

4
@ポール、良い統計的な質問を書くのは実際にはかなり難しい。私は多くの機会にそれをたたきました。
GUNG -復活モニカ

1
If you consider an infinite number of potential exam questions, and you draw one at random for question 1, draw one at random for question 2, etc.-試験問題は潜在的な問題のプールから独立して描かれているという仮定を明確にすべきだと思います。それらを相互に関連付ける方がより現実的です。質問1が簡単な場合は、簡単な試験を受けている可能性が高く、質問2は簡単です。
エイドリアン

0

n個の質問があり、確率pで1つの質問に正しく答えることができ、すべての質問に答えるのに十分な時間があり、これらのテストを100回行った場合、スコアは平均npで正規分布します。

しかし、私がテストを100回繰り返すのではなく、100の異なる候補者が1つのテストを行い、それぞれが独自の確率pを持ちます。これらのpの分布が最も重要な要素になります。被験者をよく研究した場合はp = 0.9、そうでない場合はp = 0.1のテストがあり、0.1から0.9の間の人はほとんどいません。ポイントの分布は、0.1nと0.9nで非常に強い最大値を持ち、正規分布に近くなりません。

一方、すべての質問に答えることができるが、異なる時間を要するテストがあるため、n個すべての質問に答える人もいれば、時間が足りないために答える人が少ない人もいます。候補の速度が正規分布であると仮定できる場合、ポイントは正規分布に近くなります。

しかし、多くのテストには、いくつかの非常に難しい質問といくつかの非常に簡単な質問が含まれています。簡単な質問)。これにより、ポイントの分布が大きく変化します。


2

2
@Tim正規分布への不必要な依存と100のテストの謎にもかかわらず、この回答には、特定のケースが明らかに非二項分布につながる可能性があることを実証しようとするメリットがあります。そのため、これらの技術的な問題に対処した場合、回答への貴重な貢献になる可能性があります。
whuber

0

n n

n

  • 12
  • ある独立しました。多くの試験では、前の質問への回答に基づいて作成された質問をします。この質問の試験でそれが起こらないことを誰が確実に言うのですか?試験問題への回答が互いに独立している可能性のある他の要因がありますが、これは最も直感的に明白だと思います。

試験問題を二項式としてモデル化する統計クラスの質問を見てきましたが、次のような流れでフレーム化されています。

すべての質問に4つの選択肢があり、試験を受ける学生がすべての回答をランダムに推測する多肢選択式試験で正しく回答される質問の数をモデル化する確率分布はどれですか?

このシナリオでは、もちろん、二項分布として表されます。p=14


あなたの事実には何の問題もありませんが、論理は間違っています。(論理的に)いずれにせよ分布はまだ二項分布である可能性があるため、いくつかの仮定が成り立たないことを示すだけでは不十分ですまた、これらの仮定が、スコア分布が間違いなく非二項分布になるような方法で失敗する可能性があることを実証する必要があります。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.