理論、適合、または他の何かに基づいて分布を選択する方が良いでしょうか?


12

これは哲学的な質問に隣接していますが、私はより多くの経験を持つ他の人が分布選択についてどう考えるか興味があります。場合によっては、理論が最適に機能することは明らかです(マウスの尾の長さはおそらく正規分布しています)。多くの場合、データセットを説明する理論はおそらくないので、最初に説明するために開発されたものに関係なく、あなたがかなり持っているものに合うものを使用しますか?これらのいずれかを使用する場合の落とし穴のいくつかを想像することができます。そして、もちろん、実際にわからない場合は経験的分布を使用する必要があるという問題があるようです。

だから私は本当に私が求めていることを推測します:誰かがこの問題についてアプローチ/思考する一貫した方法を持っていますか?また、これを適切に扱うために提案できるリソースはありますか?


4
基本的には、分布を適合または仮定する理由と、それが何を表すによって決まります。このサイトには多くの質問があり、実際に統計的な問題を解決する限り、実際には演習が無意味(または、より悪い、欺de的)であるにもかかわらず、分布をデータまたは派生量(回帰残差など)に適合させる必要があると思われます心配している 考えているケースの種類を明確にできますか?
whuber

1
こんにちは、Whuber、コメントありがとう。私は確率論的リスク評価に少し取り組み始めたので、すべてのデータを分布に合わせる必要があり、分布の選択がどのように行われるかについてより一貫した見方をすることに興味を持ちました。明確にするために、ディストリビューションを使用する必要があるときと、それを正しく行う方法にのみ本当に興味があります。私が言ったように、いくつかのケースは理論から簡単で、他の場合は経験的分布を使用していますが、それ最良のようですが、私の意思決定は私が望むよりも無計画です。
HFB14年

1
これは、あなたが実際に(やや抽象的に)していることは、計算を通じてサンプリングの不確実性を広めようとしているためです。この高レベルから手順を見る理由は、よくある基本的な誤りを明らかにするためです。データを分布で置き換えることにより、推定される分布パラメータに不確実性を含めることができません。これを説明することは、一部の開業医によって「二次」PRAと呼ばれます。一般的な分布の適合について尋ねるのではなく、これらの問題に焦点を当てるために質問を絞り込むことをお勧めします。
whuber

1
PRAに使用しているパッケージは2次モンテカルロ(Rのmc2dパッケージ)であるため、ディストリビューションを「不確実性」、「変動性」、またはその両方として割り当てています。できれば、できる限りその問題を説明します。しかし、この質問に対する私の当初の意図は、より高いレベルの見解を得ることであり、私が興味を持っている理由のコンテキストを与えるためだけにリスク評価を持ち出しました。-そして、おそらく「時々 、あなたは時々あなたが道というそれを行う、これを行う」が、私はそれが良いかもしれないときに私は容易に決定することができないので、誰かが提案:)特にしていた期待していたよりも良い方法はありません
HFBrowning

3
これは間違いなくあなたの投稿に適した場所です。編集に問題があると言っていますか?ちなみに、経験的分布の使用における不確実性をあなたの手順がどのように定量化するかについて興味があります。また、パラメータを明示的に推定していない場合でも、サンプリングの変動性があります(これは、リスク評価において最も重要となる尾部で深くなる可能性があります)。
whuber

回答:


6

問題のデータが何であるか、そしてそれらについてどれだけ知っているか、または想定したいかに明確に依存します。以下のよう@whuberは最近チャットで言った、「物理法則が関与している場合は、あなたはほとんど常にデータをモデル化するための適切な方法については、合理的な推測を行うことができます。」(しかし、これは私よりも彼のほうが真実だと思います!また、これが元の文脈から誤って適用されないことを願っています...)社会科学の潜在的な構築モデリングのような場合には、多くの場合、あまり知られていない現象のニュアンスを理解する方法としての経験的分布。正規分布を仮定し、全体の形状の不適合を無視できるものとして却下することはやや簡単すぎます。

もちろん、この動作の多くは、適用したい分析の仮定によって動機付けられています。多くの場合、最も興味深い質問は、変数の分布の説明や分類をはるかに超えています。これは、特定のシナリオの正しい答えにも影響します。方法や方法も完全ではないため、適切に適合しない場合(また、不適切に適合しない場合)に正規分布を仮定する理由(必要性など)があります。それにもかかわらず、そうする習慣のリスクは、単一の変数の分布について尋ねることができる興味深い質問をするのを忘れることです。

たとえば、富と幸福の関係を考えてみましょう。一般に人々が尋ねたい質問です。富がガンマ(Salem&Mount、1974)または一般化されたベータ(Parker、1999)分布に従うと仮定するのは安全かもしれませんが幸福が正規分布していると仮定することは本当に安全ですか?本当に、元の質問に答えるためだけにこれを仮定する必要はないはずですが、人々は時々そうし、そして応答バイアスや文化の違いのような潜在的に重要な問題を無視します。たとえば、一部の文化では多かれ少なかれ極端な回答が得られる傾向があり(リッカート項目で構成されるアンケートの因子分析に関する@chlの回答を参照)、肯定的および否定的な感情のオープンな表現に関して規範は異なりますTucker、Ozer、Lyubomirsky、およびBoehm、2006年。これにより、歪度や尖度などの経験的な分布特性の違いの重要性が高まる可能性があります。ロシア、中国、米国の幸福の主観的評価と富の関係を比較している場合、幸福の評価の中心的傾向の違いを評価したいと思います。そうすることで、一元配置分散分析のためにそれぞれに正規分布を仮定することをheします(違反に対してかなり堅牢である場合でも))さまざまな文化依存の規範と反応の偏りのために、中国で「幅広」分布、ロシアで正に歪んだ分布、米国で負に歪んだ分布を期待する理由がある場合。有意性検定のために(おそらく、正直にエフェクトサイズを報告することを好むかもしれませんが)、ノンパラメトリックな方法を使用し、各母集団の主観的な幸福を実際に個別に理解するために、むしろ、分布をいくつかの単純な理論的分布として分類し、不適合を無視するか、またはそれを無視しようとするよりも、分布を経験的に説明してください。それは情報IMOの無駄です。

参照
-パーカー、SC(1999)。収益の分布のモデルとしての一般化ベータ。経済学の手紙、62(2)、197-200。
-セーラム、ABZ、マウント、TD(1974)。所得分布の便利な記述モデル:ガンマ密度。計量経済学、42(6)、1115–1127。
-Tucker、KL、Ozer、DJ、Lyubomirsky、S。、およびBoehm、JK(2006年)。ライフスケールに対する満足度の測定不変性のテスト:ロシア人と北米人の比較。社会指標研究、78(2)、341–360。http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdfから取得。


答えてくれてありがとう、ニック。この例は特に役立つことがわかりました。
HFB14年

3

マウスの尾の長さはおそらく正規分布しています

私はそれを疑います。正規分布は、多くの独立した加算効果から発生します。生物学的システムは、多くの相互作用するフィードバックループで構成されています(相互依存的な乗算効果)。また、他の状態(アトラクタ)よりも安定している状態がしばしばあります。したがって、ある種のロングテール分布またはマルチモーダル分布は、おそらくテールの長さを表します。実際、正規分布はおそらく生物学的なものを記述するための非常に貧弱なデフォルトの選択であり、その文献で報告されている多くの「外れ値」の原因は誤用です。自然界におけるこの分布の普及は神話であり、「完全な円は実際には存在しない」という意味だけではありません。ただし、平均とsdが要約統計量として役に立たないということにはなりません。

特に、「データを信頼する」方がよいかどうかを簡単に判断できないため(このようなファンキーな右スキューデータセットがありますが、データが与えられたn = 160は十分ではないようです)、または、私の同僚が主張し続けているように、ベータ版の配布に合わせてください。彼が選択したのは、[0,1]に限定されているからだと思います。それはすべて本当にアドホックなようです。これが私の意図を明らかにすることを願っています!

経験的分布のフィッティングは、基礎となるプロセスのヒントを提供し、理論的分布の開発を促進します。次に、理論的分布を経験的分布と比較して、理論の証拠をテストします。

現在の証拠に基づいて特定の結果の確率を評価する目的があり、その特定の分布を選択する理由がない場合、追加の仮定を行うことがどのように役立つかはわかりません。代わりに、問題を混乱させるようです。

ただし、データを説明または要約しようとする場合は、分布に適合させることが理にかなっている場合があります。


1
1つの答えしか受け入れられませんが、正規分布が実際にどのように発生するかを指摘していただきありがとうございます。理論に基づいて何かが意味することについて、私はもっと慎重に考えることを余儀なくされました。
HFB14年

3

場合によっては、理論が最適に機能することは明らかです(マウスの尾の長さはおそらく正規分布しています)。

テールの長さは確かに正規分布ではありません。

正規分布は、負の値をとる確率がゼロではありません。尾の長さはそうではありません。

George Boxの有名なライン、「すべてのモデルは間違っているが、いくつかは有用である」がポイントをかなりよくしている。(単なる近似の正規性ではなく)合理的に正規性を主張するケースは非常にまれであり、伝説のほとんどの生き物であり、気楼は時々目の隅からほとんど見えます。

多くの場合、データセットを説明する理論はおそらくないので、最初に説明するために開発されたものに関係なく、あなたがかなり持っているものに合うものを使用しますか?

関心のある量が選択に特に敏感ではない場合(分布の幅広い特徴が既知のものと一致している限り)、はい、かなり適切なものを使用できます。

感度が高い場合、「適切なものを使用する」だけでは十分ではありません。特定の仮定を行わないアプローチを使用する場合があります(おそらく、置換、ブートストラップ、その他のリサンプリングアプローチなどの配布のないプロシージャ、または堅牢なプロシージャ)。あるいは、シミュレーションなどを介して、分布の仮定に対する感度を定量化することもできます(実際、これは一般的に良い考えだと思います)。

わからない場合は、経験的分布を使用する必要があるかもしれないという問題があるようです。

私は問題としてそれを説明しません-経験的分布に基づく推論は確かに多くの種類の問題に適した正当なアプローチです(順列/ランダム化とブートストラップは2つの例です)。

誰かがこの問題についてアプローチ/思考する一貫した方法を持っていますか?

概して、多くの場合、次のような質問を検討する傾向があります。

1)このフォームのデータに対する手段(または他のロケーションタイプの数量)の動作について、私は何を理解していますか?

*(理論、この形式のデータの経験、または専門家のアドバイス、または必要に応じてデータ自体からかどうか。ただし、それには対処しなければならない問題があります)

2)スプレッド(分散、IQRなど)について-動作はどうですか?

3)他の分布特性(境界、歪度、離散性など)はどうですか

4)依存関係、母集団の異質性、時折非常に矛盾する値などの傾向について

この種の考慮事項は、通常のモデル、GLM、その他のモデル、または堅牢なまたは配布のないアプローチ(ランクベースの手順を含むブートストラップまたは置換/ランダム化アプローチなど)の選択をガイドする可能性があります

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.