あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか?
これらのデータから分布を作成し、
人口の何パーセントが平均より上または下にある可能性が高いかを知る
編集:
グレンの提案に従って、サンプルサイズが200であるとします。
あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか?
これらのデータから分布を作成し、
人口の何パーセントが平均より上または下にある可能性が高いかを知る
編集:
グレンの提案に従って、サンプルサイズが200であるとします。
回答:
たとえば、10、20、25などのデータセットの最小値、平均値、最大値があります。次の方法があります。
これらのデータから分布を作成し、
これらのサンプル量と一致する可能性のある分布の数は無限にあります。
人口の何パーセントが平均より上または下にある可能性が高いかを知る
一般的にではなく、おそらく正当化されない可能性のある仮定が存在しない場合-少なくとも、それが意味があるとはあまり意味がありません。結果はあなたの仮定に大きく依存します(値自体にはあまり情報がありませんが、特定の配置はいくつかの有用な情報を提供します-下記参照)。
比率の質問に対する答えが大きく異なる可能性がある状況を考え出すことは難しくありません。情報と一致する非常に異なる可能な回答がある場合、どの状況にいるのかをどのようにして知ることができますか?
詳細は役に立つ手がかりを与えるかもしれませんが、現状では(サンプルサイズがなくても、平均がエンドポイントの中間にない場合は、少なくとも2または3であると考えられます*)、必ずしもその質問で多くの価値を得るとは限りません。境界を取得しようとすることもできますが、多くの場合、制限はあまりありません。
*実際には、平均値が1つのエンドポイントに近い場合は、サンプルサイズの下限を取得できます。たとえば、最小値/平均値/最大値が10,20,25の代わりに10 24 25だった場合、は少なくとも15でなければならず、ほとんどの母集団が24を超えていることも示唆されます。それは何かです。しかし、10、18、25と言った場合、平均より下の比率は言うまでもなく、サンプルサイズが何であるかについて有用なアイデアを得るのははるかに困難です。
Glen_bですでに述べたように、無限の可能性があります。次のプロットを見てください。これらは、最小値、最大値、平均値が同じである8つの異なる分布を示しています。
それらは互いに非常に異なっていることに注意してください。最初は均一、4番目は三角分布の二峰性混合、7番目は確率が中心に集中する確率が最も高いが、最小および最大は非常に小さい確率で可能であり、8つは離散的であり、最小と最大で2つの値しかない、など。
これらはすべて基準を満たしているため、シミュレーションに使用できます。ただし、主観的な選択は、シミュレーションの結果に非常に深い結果をもたらします。私が言いたいのは、分布について知っていることが本当に最小値、最大値、平均値だけである場合、実際の(未知の)分布を模倣したい場合、シミュレーションを実行するには情報が不十分であることです。
何を自問する必要があるそうです、あなたが配布について知っていますか?それは離散的ですか、それとも連続的ですか?対称ですか、それとも歪んでいますか?ユニモーダルまたはバイモーダル?考慮すべきことがたくさんあります。それが連続的で、不均一で、単峰性で、最小、最大、平均しかわからない場合、可能な選択肢の1つは三角分布です -実際の生活の中で何かがそのような分布を持つことはほとんどありませんが、少なくとも単純なものを使用していますそして、その形についてあまり多くの仮定を課していません。
標準偏差を計算するための範囲ベースのルールは、統計資料で広く引用されています(ここに1つの参照があります... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm)。基本的には(max-min)/ 4です。それは非常に大まかな見積もりであることが知られています。
その情報と正規分布データを想定する意欲がある場合、正規偏差は、平均と範囲ベースの標準偏差の2つの数値から生成できます。とはいえ、分布が最初または2番目の瞬間に根ざしている限り、これらの2つの情報から1つまたは2つのパラメーター分布を生成できます。
おおよその変動係数は、SD /平均の比率を取得することによっても生成できます。これにより、データの単位のない変動のプロキシが提供されます。
エラーは、母集団の標本分布をより適切に参照し、推定のために標本サイズnのステートメントを必要とします。説明にはこの詳細は含まれていません。