最小、平均、最大から分布を計算する


10

あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか?

  1. これらのデータから分布を作成し、

  2. 人口の何パーセントが平均より上または下にある可能性が高いかを知る

編集:

グレンの提案に従って、サンプルサイズが200であるとします。


(1)ソリューションはたくさんあるので簡単です。(2)は、分布形状に関するいくつかの仮定のコンテキストで行うのが最善です。それ以外の場合、取得できるのは数学的な範囲のみです。
whuber

3
あなたは文字通りここまでコメントと回答で理解されていますが、必要な注意(私は、@ whuberの発言で私が思う)には、そのような情報と互換性のあるディストリビューションがたくさんあるため、十分な情報があるとは思わないようにする必要がありますこれを完全にまたは確実に行うため。特に、サンプルサイズさえわからない場合、不確実性について考えることすらできません。
Nick Cox

「平均より上または下にある」母集団の割合について尋ねる場合、サンプルの平均または母集団の平均と比較して質問していますか。連続変数と離散変数のどちらについて話しているのですか?サンプルサイズはわかりますか?
Glen_b-2016

回答:


10

たとえば、10、20、25などのデータセットの最小値、平均値、最大値があります。次の方法があります。

これらのデータから分布を作成し、

これらのサンプル量と一致する可能性のある分布の数は無限にあります。

人口の何パーセントが平均より上または下にある可能性が高いかを知る

一般的にではなく、おそらく正当化されない可能性のある仮定が存在しない場合-少なくとも、それが意味があるとはあまり意味がありません。結果はあなたの仮定に大きく依存します(値自体にはあまり情報がありませんが、特定の配置はいくつかの有用な情報を提供します-下記参照)。

比率の質問に対する答えが大きく異なる可能性がある状況を考え出すことは難しくありません。情報と一致する非常に異なる可能な回答がある場合、どの状況にいるのかをどのようにして知ることができますか?

詳細は役に立つ手がかりを与えるかもしれませんが、現状では(サンプルサイズがなくても、平均がエンドポイントの中間にない場合は、少なくとも2または3であると考えられます*)、必ずしもその質問で多くの価値を得るとは限りません。境界を取得しようとすることもできますが、多くの場合、制限はあまりありません。

*実際には、平均値が1つのエンドポイントに近い場合は、サンプルサイズの下限を取得できます。たとえば、最小値/平均値/最大値が10,20,25の代わりに10 24 25だった場合、は少なくとも15でなければならず、ほとんどの母集団が24を超えていることも示唆されます。それは何かです。しかし、10、18、25と言った場合、平均より下の比率は言うまでもなく、サンプルサイズが何であるかについて有用なアイデアを得るのははるかに困難です。n


2
@DJohnson私はそれを双曲線だとは思いません-それは文字通り真実です(実際にそれらを一覧表示する私たちの能力は数千後に失敗する可能性があり、それらを一覧表示し続けることに注意する能力は数十後に失敗する可能性がありますが、それは意味しません他に想定できる一連の仮定はありません)。私の言い回しには無頓着の意図はありませんでした。それは、想定される一連の想定の真の幅を実際に示すために意図的に選択されています。何を書いて欲しいですか?
Glen_b-2016

3
1.可能性を最大で2つのパラメータに制限する理由は何ですか?たとえば、データが3つのパラメータlognormalから取得された場合はどうなりますか?多くの場合、データからすべてのパラメーターを推定することはできませんが、それは私がそこで動機付けをしようとしている問題の一部です(それは仮定の議論に関連しています。2。ジョンソンとコッツは、人々が名前を付けた分布のサブセットです/ Worked with、リモートではなく、どのような想定が可能であるか。Johnson and Kotzにはない多数のディストリビューションを発明しました... ctd
Glen_b -Reinstate Monica

4
ctd ...すべてがここで除外されているわけではないと私はかなり確信しています。未指定のパラメーターがない場合でも、無限の可能性のあるcdfがあり、その非有限サブセットは、指定された情報によって除外されません。
Glen_b-2016

1
@Djohnson残っている不一致の程度がどうであれ、私はあなたの役立つコメントに感謝します。私が実際に言っていることを少なくともより明確に示すかどうか(私の実際の主張は立証できますが、それが必要だったとしても、少なくともそれを明確に述べることができますか)、そこで別の言い方をする必要があるかどうかを検討します。
Glen_b-2016

4
@DJohnsonは、条件を満たす2つの異なる分布を使用します。2つを混合しても、前述の条件を満たすことができます。それは文字通り無限大です:列挙できないものです。
Elvis

8

Glen_bですでに述べたように、無限の可能性があります。次のプロットを見てください。これらは、最小値、最大値、平均値が同じである8つの異なる分布を示しています。

8つの異なるディストリビューション

それらは互いに非常に異なっていることに注意してください。最初は均一、4番目は三角分布の二峰性混合、7番目は確率が中心に集中する確率が最も高いが、最小および最大は非常に小さい確率で可能であり、8つは離散的であり、最小と最大で2つの値しかない、など。

これらはすべて基準を満たしているため、シミュレーションに使用できます。ただし、主観的な選択は、シミュレーションの結果に非常に深い結果をもたらします。私が言いたいのは、分布について知っていることが本当に最小値、最大値、平均値だけである場合、実際の(未知の)分布を模倣したい場合、シミュレーションを実行するには情報が不十分であることです。

何を自問する必要があるそうです、あなたが配布について知っていますか?それは離散的ですか、それとも連続的ですか?対称ですか、それとも歪んでいますか?ユニモーダルまたはバイモーダル?考慮すべきことがたくさんあります。それが連続的で、不均一で、単峰性で、最小、最大、平均しかわからない場合、可能な選択肢の1つは三角分布です -実際の生活の中で何かがそのような分布を持つことはほとんどありませんが、少なくとも単純なものを使用していますそして、その形についてあまり多くの仮定を課していません。


したがって、三角分布を仮定した場合、現在の情報を使用してモードも計算できます。それは役に立ちますか?
user132053

1
@ user132053必要なのは最小、最大、平均のみです。三角分布の平均の式は(a + b + c)/ 3です。これは、単純な算術を使用してモードに対して解くことができます。
ティム

4

標準偏差を計算するための範囲ベースのルールは、統計資料で広く引用されています(ここに1つの参照があります... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm)。基本的には(max-min)/ 4です。それは非常に大まかな見積もりであることが知られています。

その情報と正規分布データを想定する意欲がある場合、正規偏差は、平均と範囲ベースの標準偏差の2つの数値から生成できます。とはいえ、分布が最初または2番目の瞬間に根ざしている限り、これらの2つの情報から1つまたは2つのパラメーター分布を生成できます。

おおよその変動係数は、SD /平均の比率を取得することによっても生成できます。これにより、データの単位のない変動のプロキシが提供されます。

エラーは、母集団の標本分布をより適切に参照し、推定のために標本サイズnのステートメントを必要とします。説明にはこの詳細は含まれていません。


3
注目に値するいくつかの事柄:(1)平均は、(max-min)/ 4ルールをオーバーライドする必要があるより多くの情報を潜在的に提供します。(2)3つの情報が提供されるため、2つのパラメータファミリのみを使用すると、一般に柔軟性の程度が残ります。
whuber

@whuberこのスレッドに2つの明確なコメントをしました。それらについて詳しく説明し、応答を指定するとしたらすばらしいでしょう。
マイクハンター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.