「正規分布」にはmean = median = modeが必要ですか?


17

私は大学院レベルの統計学教授と「正規分布」について議論しています。真の正規分布を得るには、mean = median = modeでなければならず、すべてのデータがベル曲線の下に含まれ、平均に関して完全に対称でなければならない、と私は考えます。したがって、技術的には、実際の研究では事実上正規分布は存在せず、それらを他の何か、おそらく「ほぼ正常」と呼ぶ必要があります。

彼女は私がうるさすぎると言い、スキュー/尖度が1.0未満の場合、それは正規分布であり、試験でポイントを取りました。データセットは、52の老人ホームのランダムサンプリングにおける1年あたりの転倒総数であり、これはより大きな母集団のランダムサンプルです。洞察はありますか?

問題:

質問:3.このデータの歪度と尖度の測定値を計算します。通常の曲線のヒストグラムを含めます。調査結果について話し合います。データは正常に配信されていますか?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

a。複数のモードが存在します。最小値が表示されます

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

私の答え:

データは板状で、わずかな正のゆがみしかありません。また、平均と中央値およびモードが等しくなく、データが平均の周りに均等に分布していないため、正規分布ではありません。現実には、データが完全な正規分布となることはほとんどありませんが、大規模な人口グループの成人薬指の身長、体重、体温、または長さなどの「ほぼ正規分布」について説明できます。

教授の答え:

完全に正規分布がないことは正しいです。しかし、私たちは完璧を求めていません。ヒストグラムと中心傾向の尺度に加えて、データを調べる必要があります。歪度と尖度の統計は、分布について何を教えてくれますか?これらは両方とも-1と+1の重要な値の間にあるため、このデータは正規分布していると見なされます。


3
教授の正確な言葉遣いを知りたい。原則として、正規分布は平均、中央値、モードが同じであり(他の多くの分布も同様)、歪度0と(いわゆる過剰)尖度0(その他の分布も同様)を持っています。せいぜい(例えば)わずかな歪度や尖度のある分布は、ほぼ正常です。ほとんどすべての実際のデータは、せいぜい理論的動物園の名前付き分布の近似値であることに注意してください。
ニックコックス

22
@ user2974951には同意しません。すべての良いテキストを知っている私は、正規分布に中央値とモードがあると考えると完全に満足しています。そして、それは連続的な分布に広く当てはまりますが、病理学的な反例を特定できることは疑いありません。
ニックコックス

4
±1<1>1

6
私たちが真剣にニッピッキングの技術を受け入れるようにした場合、マイナスの転倒はなく、その転倒は離散的であるため、事実上の分布は正常にはなりません。これにより、そもそも質問が無効になります。より深刻な注意として、この質問は明らかに、特定の経験則をチェックすることを目的とした作り上げられた例です。実際には、調査の目的に応じて、正規分布を仮定することは合理的である場合とそうでない場合があります。実はサンプルしか持っていないので、実際にはわかりません。
イオアニス

5
@ user2974951最初のコメントを削除することを検討する必要があります。その場合は、今は反対です。これまでのところ、3人の読者をだまして、同意することを伝えています。
whuber

回答:


25

教授との議論の問題は用語の1つであり、潜在的に有用なアイデアを伝えるのを妨げている誤解があります。異なる場所で、あなたは両方ともエラーを犯します。

最初に対処する必要があるのは、ディストリビューションとは何かを明確にすることが重要です。

正規分布は特定の数学的オブジェクトであり、値の無限母集団のモデルと見なすことができます。(有限の母集団が実際に連続分布を持つことはできません。)

大まかに言うと、この分布が行うこと(パラメーターを指定すると)は、実数直線上の任意の間隔内にある人口値の割合を(代数式を介して)定義します。ゆるやかではなく、その母集団からの単一の値が特定の間隔に存在する確率を定義します。

観測されたサンプルには実際には正規分布がありません。サンプルは、(存在する場合)正規分布から(潜在的に)抽出される場合があります。サンプルの経験累積分布関数を見ると、離散的です。(ヒストグラムのように)ビン化すると、サンプルには「度数分布」がありますが、それらは正規分布ではありません。分布は、母集団からのランダムなサンプルについて(確率的な意味で)いくつかのことを教えてくれます。また、標本は母集団についてのいくつかのことも教えてくれます。

「正規分布のサンプル」*のようなフレーズの合理的な解釈は、「正規分布の母集団からのランダムなサンプル」です。

*(私は通常、ここで十分に明らかにされた理由のために、自分でそれを言うことを避けようとします;通常、私は自分自身を第2の種類の表現に限定することに成功します。)

用語を定義したので(まだまだ大雑把ですが)、質問を詳細に見てみましょう。質問の特定の部分を取り上げます。

正規分布は、mean = median = modeでなければなりません

これは確かに正規確率分布の条件ですが、正規分布から抽出されたサンプルの要件ではありません。サンプルは非対称であったり、平均値が中央値と異なる場合があります。[ただし、サンプルが実際に正常な母集団からのものである場合に、それらがどれほど離れているかを知ることができます。]

すべてのデータは釣鐘曲線の下に含まれている必要があります

この意味で「下に含まれる」とはどういう意味かわかりません。

平均を中心に完全に対称です。

番号; ここでデータについて話しているので、(明確に対称な)通常の母集団からのサンプル自体は完全に対称ではありません。

したがって、技術的には、実際の研究では実質的に正規分布はありません。

はあなたの結論同意しますが、理由は正しくありません。データが完全に対称ではないという事実の結果ではありません(など)。人口自体が完全に正常ではないという事実です。

スキュー/尖度が1.0未満の場合、それは正規分布です

彼女がまさにそのように言ったなら、彼女は間違いです。

サンプルの歪度はそれよりも0にはるかに近く(実際の値ではなく絶対値で「より小さい」ことを意味します)、サンプルの過剰尖度もそれより0にはるかに近いことがあります(偶然か構築、潜在的にほぼ正確にゼロ)、それでもサンプルが抽出された分布は明らかに非正規である可能性があります。

さらに先へ進むことができます-たとえ人口の歪度と尖度がまさに正常なものであることを魔法のように知っていたとしても、それ自体では人口が正常であるとか、正常に近いものであるとかはわかりません。

データセットは、52の老人ホームのランダムサンプリングにおける1年あたりの転倒総数であり、これはより大きな母集団のランダムサンプルです。

カウントの人口分布は決して正常ではありません。カウントは離散的で非負であり、正規分布は連続しており、実際のライン全体にわたっています。

しかし、ここでは間違った問題に本当に焦点を当てています。確率モデルはまさにそのモデルです。モデルを本物と混同しないようにしましょう。

問題は「データ自体は正常ですか?」ではありません。(することはできません)、さらには「データが抽出された母集団は正常ですか?」(これはほとんどありません)。

議論するより有用な質問は、「母集団を正規分布として扱う場合、私の推論はどれほどひどく影響を受けるか」です。

また、よく答えることは非常に難しい質問であり、いくつかの簡単な診断を一見するよりもかなり多くの作業が必要になる場合があります。

示したサンプル統計は、正常と特に矛盾していません(通常の母集団からそのサイズのランダムなサンプルがあった場合、そのような統計がひどくめったに見られないか、または「悪化」することがあります)サンプルの抽出元は、何らかの特定の目的のために自動的に通常に「十分に近い」ものになります。目的(どの質問に答えているか)、およびそのために採用されている方法の堅牢性を考慮することが重要です。時には、アプリオリを仮定するのに十分な理由がないと単純に仮定しないほうがよい場合があります(たとえば、同様のデータセットの経験に基づいて)。

それは正規分布ではありません

データ-通常の母集団から取得したデータでさえ、母集団の特性を正確に持つことはありません。これらの数字だけでは、人口がここでは正常ではないと結論付ける根拠はありません。

一方で、正常に「十分に近い」と言う合理的な確固たる根拠もありません。正規性を仮定する目的すら考慮していないため、どの分布特徴に敏感かはわかりません。

たとえば、境界のある測定用に2つのサンプルがあり、(ほとんどの場合、いくつかの異なる値を取るだけでなく)大きく対称ではなく、適度に対称に近いことがわかっている場合、2つのサンプルを使用しても比較的満足ですそれほど小さくないサンプルサイズでのt検定。想定からのわずかな逸脱に対してやや堅牢です(ある程度堅牢であり、それほど強力ではありません)。しかし、たとえば、スプレッドの同等性をテストするとき、その仮定の下での最良のテストは仮定に非常に敏感であるため、正規性を因果的に仮定することについてはかなり慎重になります。

これらは両方とも-1と+1の臨界値の間にあるため、このデータは正規分布していると見なされます。」

それが本当に正規分布モデルを使用することを決定する基準である場合、それは時々非常に貧弱な分析に導くでしょう。

これらの統計の値は、サンプルが抽出された母集団についての手がかりを与えてくれますが、それらの値が何らかの方法で分析を選択するための「安全なガイド」であることを示唆することとはまったく異なります。


今、あなたが持っているような質問のより良い表現されたバージョンで根本的な問題に対処します:

サンプルを見てモデルを選択するプロセス全体に問題がたくさんあります。そうすると、見たものに基づいて分析の後続の選択のプロパティが変更されます。たとえば、仮説検定の場合、有意水準、p値、および検出力はすべて選択/計算するものではありません。これらの計算は、データに基づいていない分析に基づいているためです。

たとえば、Gelman and Loken(2014)、「The Statistical Crisis in Science」、American Scientist、Volume 102、Number 6、p 460(DOI:10.1511 / 2014.111.460)を参照してください。


こんにちは、ピーター、すみません、あなたの投稿さえ見ませんでした。
グレン_b-モニカの復活


41

あなたはその点を見逃しており、おそらく「困難」であることもありますが、これは業界では高く評価されていません。彼女は、データセットの正規性の評価、つまりデータセットが正規分布に由来するかどうかの評価を訓練するためのおもちゃの例を示しています。分布の瞬間を見ることは、正規性をチェックする1つの方法です。たとえば、Jarque Beraテストはそのような評価に基づいています。

はい、正規分布は完全に対称です。ただし、真の正規分布からサンプルを描画する場合、そのサンプルは完全に対称ではない可能性が高くなります。これは、あなたが完全に欠けている点です。これは自分で簡単にテストできます。ガウス分布からサンプルを生成し、その瞬間を確認してください。本当の分布がそうであるにもかかわらず、それらは決して完全に「正常」ではありません。

これは愚かなPythonの例です。100個の乱数の100個のサンプルを生成し、それらの平均と中央値を取得しています。最初のサンプルを印刷して、平均と中央値が異なることを示し、平均と中央値の差のヒストグラムを表示します。かなり狭いことがわかりますが、違いは基本的にゼロではありません。数値は本当に正規分布からのものであることに注意してください。

コード:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

出力: ここに画像の説明を入力してください

PS

さて、あなたの質問からの例が正常であると見なされるべきかどうかは、コンテキストに依存します。あなたのクラスの部屋あなただ間違って教えられたものとの関連では、あなたの教授はそのスキューとしている、あなたは彼女があなたを与えたことを親指テストのルールを知っているかどうかを確認したかったので、過剰に-1 1になるように尖度の必要性範囲。

私は個人的にこの特定の経験則を使用したことはなく(テストと呼ぶことはできません)、それが存在することすら知りませんでした。どうやら、一部の分野の一部の人々はそれを使用しています。データセットの記述をJBテストにプラグインすると、正常性が拒否されます。したがって、データセットが正常ではないことを示唆するのは間違いではありませんが、クラスで教えられた内容に基づいて期待されるルールを適用できなかったという意味では間違っています。

もし私があなたなら、私はあなたの教授に丁寧に近づき、自分自身を説明し、JBテストの出力を見せます。もちろん、彼女のテストに基づいて、私の答えは間違っていたことを認めます。ここで議論する方法で彼女と議論しようとすると、テストでポイントを取り戻す可能性は非常に低くなります。なぜなら、あなたの推論は中央値と平均とサンプルについて弱いため、サンプル対母集団の理解不足を示しています。曲を変更すると、ケースが発生します。


23
(+1)まさにその点。ランダム変数とそのランダム変数からの実現のサンプルを混同します。
西安

15
t

サンプルが完全に正規分布している場合、それはサンプルがランダムではないという証拠です。
ジミージェームズ

@ JimmyJames、4年前に科学の論文があり、同性愛者との20分間の会話は同性愛者に対するあなたの気持ちを変えることができると主張しました。著者が調査データを作成したことがわかりました。彼らはあまりにも怠惰であり、完全にガウス雑音を生成し、それらがどのようにしているのキャッチは - BroockmanらによってLacourの(2014)の不規則性を参照してください
Aksakal

@Aksakal私はそれが私が尋ねているものとまったく同じことだと確信していません。その場合、その場合の議論は、実際のデータは決して完全に正常ではないということだったと思います。「ただし、真の正規分布からサンプルを作成した場合、そのサンプルは完全に対称ではない可能性が高い」というステートメントから始めています。完全な正規分布からランダムにサンプリングしている場合、連続する各データポイントが完全な正規曲線を埋める必要がある場所に正しく収まるとは思われません。それは、私にとって非ランダムな選択プロセスによく似ているように思えます。
ジミージェームズ

6

教師は明らかに彼/彼女の要素から外れており、おそらく統計を教えるべきではありません。まったく間違って教えるよりも、間違ったことを教える方が悪いようです。

「データ」と「データを生成したプロセス」の区別をより明確にすれば、これらの問題はすべて簡単に解決できます。データは、データを生成したプロセスを対象とします。正規分布は、このプロセスのモデルです。

データが正規分布しているかどうかについて話すことは意味がありません。1つの理由により、データは常に離散的です。別の理由で、正規分布は、特定の観測量の有限セットではなく、潜在的に観測可能な量の無限大を表します。

さらに、質問への答えは「あるプロセス正規分布データを生成するプロセスは、常にも「ノー」にかかわらず、データのです」。次の2つの単純な理由:(i)行う測定値は必ず離散的であり、あるレベルに丸められます。(ii)完全な対称性は、完全な円のように、観測可能な性質には存在しません。欠陥が常にあります。

せいぜい、「これらのデータはデータ生成プロセスの正常性について何を教えてくれるか」という質問に対する答えは、次のように与えられます。「これらのデータは、通常の分散プロセス。」その答えは、分布が正常であると結論付けません。

これらの問題は、シミュレーションを使用して非常に簡単に理解できます。正規分布のデータをシミュレートし、それらを既存のデータと比較するだけです。データがカウント(0,1,2,3、...)である場合、0,1,2,3、...のような数値を生成しないため、明らかに通常のモデルは間違っています。代わりに、永遠に続く(または少なくともコンピューターが許す限り)小数を含む数値を生成します。このようなシミュレーションは、正規性の問題について学習するときに最初に行うべきです。その後、グラフと要約統計をより正確に解釈できます。


10
私はあなたの答えを格下げしませんでしたが、あなたが学生の言葉から大学院教授を判断していると考えてください。生徒が正しいと教師が間違っている可能性はどれくらいですか?学生が教授と会話のコンテキストを誤って伝えている可能性は高くありませんか?
アクサカル

私の経験と生徒の言葉に基づいて、先生が間違っている可能性が高いと思います。正式なトレーニングをほとんど受けていない教師がいて、どこの大学でもコース、大学院コースを教えています。認定機関が真実を知っている場合のみ!
ピーターウェストフォール

6
@ Possum-Pie、私はあなたに何が期待されているか推測できます。おそらく101のような統計のコースなので、歪度と尖度を調べる必要があります。それらが0と3に十分近くない場合、それは正常ではないと言います。それで全部です。実際、JBテストはより正式な方法でこれを行います。演習のポイントは、ガウスにはスキュー0と尖度3があることを思い出すことです。この愚かな、しかし必要な演習を哲学的な議論に変えています。
アクサカル

2
教師のコメント「これらは両方とも-1と+1の臨界値の間にあるため、このデータは正規分布していると考えられます」は、(i)理解の欠如または(ii)知っていることを教える意思があることを明確に示しています間違っている。教師の準備や教育方法に疑問を投げかけることは哲学的な議論だとは思いません。
ピーターウェストフォール

3
「一貫性」言語は良いです。しかし、ポッサム・パイが指摘したように、教師は生徒に「このテスト/診断に基づいて、データは正常である」と言っていますが、これはいくつかの点で間違っています。教師(精神的およびその他)は、(i)データ生成プロセスとデータを区別し、(ii)正規およびその他のモデルがデータ生成プロセスのモデルであることを生徒に伝え、(iii)正規分布が常に診断に関係なくモデルとして間違っている、および(iv)演習のポイントは非正常の程度を診断することであり、yes / noと答えることではないことを伝えます。次に、それが重要な理由を説明します。
ピーターウェストフォール

4

私はエンジニアですので、私の世界では、応用統計学者は私が最もよく見ているものであり、最も具体的な価値を得ています。あなたが応用で仕事をしようとするなら、理論よりも実際にしっかりと接地する必要があります。それがエレガントであるかどうかにかかわらず、航空機はthe落しないで飛ばなければなりません。

この質問について考えるとき、ここでの私の技術的改善の多くが行っているように、「ノイズの存在下で実際の世界でどのように見えるか」について考えることです。

2番目に行うことは、多くの場合、問題を回避するためのシミュレーションを作成することです。

これは非常に短い調査です:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

出力としてこれを提供します: ここに画像の説明を入力してください

注:x軸は均一なスケールではなく対数スケールであるため、x軸に注意してください。

平均と中央値がまったく同じであることを知っています。コードはそれを言っています。経験的実現はサンプルサイズに非常に敏感であり、本当に無限のサンプルがなければ、理論と完全に一致することはできません。

中央値の不確実性が推定平均を包囲するかどうか、またはその逆について考えることができます。平均の最良の推定値が中央値の推定値の95%CI内にある場合、データは差を示すことができません。データは、それらが理論的に同じであると言います。より多くのデータを取得する場合は、その内容を確認してください。


1
興味深いグラフ。最初は平均値が平均値を超えていることを考慮して、平均値は一般に中央値よりも大きいと考えていたでしょう...言い換えれば、赤いバーは平均値で、緑は中央値です。私は何が欠けていますか?
ポッサム・パイ

1
@ Possum-Pie外れ値はどちらの方向にもなる可能性があることに注意してください...正規分布には左テールと右テールの両方があります!
シルバーフィッシュ

2
@Willは、箱ひげ図のかなり標準的な実装です。
Glen_b-モニカの復活

1
@Glen_b外れ値にドットを使用することを教えていない教科書をたくさん見たので、慣れていない人を理解できます。しかし、ハドレーによるとテューキーは1970年に彼の「模式的なプロット」を導入した場合でも、ドットがありました
紙魚

1
ええ、外れ値のないバージョン(ちょうど5つの数字の要約に基づく)は、メアリースピアの範囲プロット(1952)です。(NBは、1952年以前の重要な歴史的な箱ひげ図の前駆体を
欠いていることに注意

4

医療統計では、分布の形状と外観についてのみコメントします。離散的な有限サンプルが正常になることはありえないという事実は、無関係でありつまらないものです。私はあなたにそれを間違ってマークします。

ディストリビューションが「ほぼ」正規に見える場合、正規と呼ぶことに抵抗はありません。統計的でない対象者の分布を説明するとき、正規分布が基礎となる確率モデルではないことがわかっていても、ほぼ正規のものを呼び出すことに非常に満足しています。確認するヒストグラムまたはデータセットがありません。

ヒントとして、私は非常に密接に以下の検査を行います:

  • 外れ値は誰で、その値はいくつで、何ですか?
  • データはバイモーダルですか?
  • データは、ログ間のような変換によって観測間の「距離」をより適切に定量化するために、歪んだ形状をとっているように見えますか?
  • 特定の範囲の値をアッセイまたはラボが確実に検出できないように、明らかな切り捨てまたはヒープがありますか?

数学が非常に多い分野では、何かが特定の非常に厳しいコノテーションを持つ「正規分布」であると言うことと、「ほぼ正常」であると言うこととの間で人々はより厳格になるでしょう。私は、1.932が2であると言うことがありませんでしたが、私はそれがほぼ2であると言うかもしれない
ポッサム・パイ

1
「無関係で、つまらない」?マジ?ポッサムパイに同意します。また、1.932が2.0と同じだとは決して言いません。データが「正規」であると言うと、データを生成したプロセスのモデルとしての正規分布の意味から、正規分布がプロセスを正確にモデル化しないという事実に至るまで、すべてを混乱させます。誰もが正規分布を学ぶときに愚かな声明を出さないように教えられるべきです。
ピーターウェストフォール

2
@PeterWestfallここでの問題の一部は、「正規分布からのデータ」が文字通りほとんど真実ではないことであり、たとえそれが真実であったとしても、最終的に証明することはおそらく不可能であろうと思います。そのため、このフレーズは文字通りほとんど真実ではないので、代わりに「データは実用的目的のために正規化に十分に近いように見える」または「正規分布が良いこと」を意味する便利な速記として「データは正規」を使用しますDGPに十分なモデルです」。
シルバーフィッシュ

それで、何が正しいかを教えるのが非常に簡単なのに、なぜ間違っているのかを教えてください。
ピーターウェストフォール

3
@PeterW言語のポイントは、単に教えることではなく、日常生活でのフレーズの使用方法(そして解釈されることを意図している方法)についてです。「データは正常です」という意味はほとんどありません。データがサンプリングされた母集団は正常です」、それがほとんど意味することができなかったので。人々は「データが言った場合、それはよりよいだろうと思われる」データルックスが通常の「あるいはnormalish(つまり我々が正常からの逸脱を気にしないことを通常に近い十分だ)が、特に適用された設定で、人々はしばしば言うだろう」そういうもの。
シルバーフィッシュ

2

あなたとあなたの教授は異なる文脈で話していると思います。平均の等価性=中央値=モードは理論的分布の特性であり、これが唯一の特性ではありません。あなたは、プロパティホールド以上の分布の場合、分布が正常であると言うことはできません。T分布も対称ですが、正常ではありません。ですから、あなたは正規分布の理論的性質について話しているのです。

あなたの教授は、サンプルデータの配布について話しています。彼は正しい、あなたは平均値=中央値=モードを見つける実際の生活では決してデータを取得しません。これは、単にサンプリングエラーが原因です。同様に、サンプルデータの歪度係数がゼロになり、過剰尖度がゼロになることはほとんどありません。教授は、サンプル統計から分布についてのアイデアを得るための簡単なルールを与えているだけです。これは一般に当てはまりません(詳細な情報は得られません)。


3
教授は女性だと言われています。
ニックコックス

mean = median = modeにならないのは、多くの分布が実際に歪んでいるためです。(厳密には、多くの教科書に書かれていることにもかかわらず、歪んだ分布でもmean = median = modeが可能です。)
ニックコックス

1
平均/中央値/モード=サンプリングエラーが等しくないことに同意しません。転倒率について52の老人ホームをランダムにサンプリングしたとします。家27、34、および52は慢性的に人員不足で、常に平均以上の転倒数を抱えています。それらの家のプッシュはテールに向かう意味であり、サンプリングエラーによるものではありません。
ポッサム・パイ

1
@Possum Pieデータはここでは二次的なものですが、異なる場所で異なる信号を与えています。ここでは、いくつかの老人ホームについて話していますが、質問では「老人ホーム」と述べています。偶発的な詳細でさえ不明瞭であっても助けにはなりません。
ニックコックス

@Nick Cox申し訳ありませんが、明確にしました。52の特別養護老人ホームのサンプル中の転倒/年の数
ポッサム・パイ

1

実際には、このような基本的なプロセスは通常、誰も眉を上げることなく、正規分布によって細かく近似されます。

ただし、ペダンティックになりたい場合は、負の値を生成できないため(フォールの数は負にできない)、この場合の基になるプロセスは正規分布できません。実際、少なくとも2番目のピークがゼロに近いバイモーダル分布であったとしても驚かないでしょう。


4フォールズと13フォールズのモードのバイモーダルです。ゼロフォールは報告されません。
ポッサム・パイ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.