教授との議論の問題は用語の1つであり、潜在的に有用なアイデアを伝えるのを妨げている誤解があります。異なる場所で、あなたは両方ともエラーを犯します。
最初に対処する必要があるのは、ディストリビューションとは何かを明確にすることが重要です。
正規分布は特定の数学的オブジェクトであり、値の無限母集団のモデルと見なすことができます。(有限の母集団が実際に連続分布を持つことはできません。)
大まかに言うと、この分布が行うこと(パラメーターを指定すると)は、実数直線上の任意の間隔内にある人口値の割合を(代数式を介して)定義します。ゆるやかではなく、その母集団からの単一の値が特定の間隔に存在する確率を定義します。
観測されたサンプルには実際には正規分布がありません。サンプルは、(存在する場合)正規分布から(潜在的に)抽出される場合があります。サンプルの経験累積分布関数を見ると、離散的です。(ヒストグラムのように)ビン化すると、サンプルには「度数分布」がありますが、それらは正規分布ではありません。分布は、母集団からのランダムなサンプルについて(確率的な意味で)いくつかのことを教えてくれます。また、標本は母集団についてのいくつかのことも教えてくれます。
「正規分布のサンプル」*のようなフレーズの合理的な解釈は、「正規分布の母集団からのランダムなサンプル」です。
*(私は通常、ここで十分に明らかにされた理由のために、自分でそれを言うことを避けようとします;通常、私は自分自身を第2の種類の表現に限定することに成功します。)
用語を定義したので(まだまだ大雑把ですが)、質問を詳細に見てみましょう。質問の特定の部分を取り上げます。
正規分布は、mean = median = modeでなければなりません
これは確かに正規確率分布の条件ですが、正規分布から抽出されたサンプルの要件ではありません。サンプルは非対称であったり、平均値が中央値と異なる場合があります。[ただし、サンプルが実際に正常な母集団からのものである場合に、それらがどれほど離れているかを知ることができます。]
すべてのデータは釣鐘曲線の下に含まれている必要があります
この意味で「下に含まれる」とはどういう意味かわかりません。
平均を中心に完全に対称です。
番号; ここでデータについて話しているので、(明確に対称な)通常の母集団からのサンプル自体は完全に対称ではありません。
したがって、技術的には、実際の研究では実質的に正規分布はありません。
私はあなたの結論に同意しますが、理由は正しくありません。データが完全に対称ではないという事実の結果ではありません(など)。人口自体が完全に正常ではないという事実です。
スキュー/尖度が1.0未満の場合、それは正規分布です
彼女がまさにそのように言ったなら、彼女は間違いです。
サンプルの歪度はそれよりも0にはるかに近く(実際の値ではなく絶対値で「より小さい」ことを意味します)、サンプルの過剰尖度もそれより0にはるかに近いことがあります(偶然か構築、潜在的にほぼ正確にゼロ)、それでもサンプルが抽出された分布は明らかに非正規である可能性があります。
さらに先へ進むことができます-たとえ人口の歪度と尖度がまさに正常なものであることを魔法のように知っていたとしても、それ自体では人口が正常であるとか、正常に近いものであるとかはわかりません。
データセットは、52の老人ホームのランダムサンプリングにおける1年あたりの転倒総数であり、これはより大きな母集団のランダムサンプルです。
カウントの人口分布は決して正常ではありません。カウントは離散的で非負であり、正規分布は連続しており、実際のライン全体にわたっています。
しかし、ここでは間違った問題に本当に焦点を当てています。確率モデルはまさにそのモデルです。モデルを本物と混同しないようにしましょう。
問題は「データ自体は正常ですか?」ではありません。(することはできません)、さらには「データが抽出された母集団は正常ですか?」(これはほとんどありません)。
議論するより有用な質問は、「母集団を正規分布として扱う場合、私の推論はどれほどひどく影響を受けるか」です。
また、よく答えることは非常に難しい質問であり、いくつかの簡単な診断を一見するよりもかなり多くの作業が必要になる場合があります。
示したサンプル統計は、正常と特に矛盾していません(通常の母集団からそのサイズのランダムなサンプルがあった場合、そのような統計がひどくめったに見られないか、または「悪化」することがあります)サンプルの抽出元は、何らかの特定の目的のために自動的に通常に「十分に近い」ものになります。目的(どの質問に答えているか)、およびそのために採用されている方法の堅牢性を考慮することが重要です。時には、アプリオリを仮定するのに十分な理由がないと単純に仮定しないほうがよい場合があります(たとえば、同様のデータセットの経験に基づいて)。
それは正規分布ではありません
データ-通常の母集団から取得したデータでさえ、母集団の特性を正確に持つことはありません。これらの数字だけでは、人口がここでは正常ではないと結論付ける根拠はありません。
一方で、正常に「十分に近い」と言う合理的な確固たる根拠もありません。正規性を仮定する目的すら考慮していないため、どの分布特徴に敏感かはわかりません。
たとえば、境界のある測定用に2つのサンプルがあり、(ほとんどの場合、いくつかの異なる値を取るだけでなく)大きく対称ではなく、適度に対称に近いことがわかっている場合、2つのサンプルを使用しても比較的満足ですそれほど小さくないサンプルサイズでのt検定。想定からのわずかな逸脱に対してやや堅牢です(ある程度堅牢であり、それほど強力ではありません)。しかし、たとえば、スプレッドの同等性をテストするとき、その仮定の下での最良のテストは仮定に非常に敏感であるため、正規性を因果的に仮定することについてはかなり慎重になります。
これらは両方とも-1と+1の臨界値の間にあるため、このデータは正規分布していると見なされます。」
それが本当に正規分布モデルを使用することを決定する基準である場合、それは時々非常に貧弱な分析に導くでしょう。
これらの統計の値は、サンプルが抽出された母集団についての手がかりを与えてくれますが、それらの値が何らかの方法で分析を選択するための「安全なガイド」であることを示唆することとはまったく異なります。
今、あなたが持っているような質問のより良い表現されたバージョンで根本的な問題に対処します:
サンプルを見てモデルを選択するプロセス全体に問題がたくさんあります。そうすると、見たものに基づいて分析の後続の選択のプロパティが変更されます。たとえば、仮説検定の場合、有意水準、p値、および検出力はすべて選択/計算するものではありません。これらの計算は、データに基づいていない分析に基づいているためです。
たとえば、Gelman and Loken(2014)、「The Statistical Crisis in Science」、American Scientist、Volume 102、Number 6、p 460(DOI:10.1511 / 2014.111.460)を参照してください。