なぜ彼らはここでガンマ分布を選ぶのでしょうか?


14

私のコースの演習の1 つではKaggleの医療データセットを使用しています。

演習では次のように述べています。

個々の料金の分布をモデル化し、その分布に関する不確実性をキャプチャできるようにしたいので、表示される値の範囲をより適切にキャプチャできます。データの読み込みと初期ビューの実行:

プロット

上記のことから、ここでは何らかの指数関数的な分布があると思われるかもしれません。...保険金請求額はマルチモーダルである可能性があります。ガンマ分布が適用される可能性があり、最初に保険金請求ではなかった料金の分布についてこれをテストできます。

「ガンマ分布」を調べて、「平均到着時間«ベータ»のポアソンプロセスで«アルファ»イベントが発生するのに必要な時間をエンコードする、連続した正の単峰分布」を見つけました。

ここには時間はかからず、保険に関係なく、関係のない料金だけがかかります。

なぜ彼らはガンマ分布を選ぶのでしょうか?

回答:


27

データの条件付き分布(つまり、各グループの分布、または予測変数の各組み合わせの予想分布)の単純なパラメトリックモデルを検討していて、正の連続分布を扱う場合、一般的な2つの選択肢はガンマです。およびlog-Normal。分布の領域の仕様を満たす(実数が0より大きい)ことに加えて、これらの分布は計算的に便利であり、多くの場合、機械的な意味があります。

  • 対数正規分布を容易に正規分布を累乗することによって導出される(逆に、対数変換対数正規ずれは通常ずれを与えます)。機構の観点から、各観測が多数のiidランダム変数のを反映する場合、対数正規は中央極限定理を介して発生します。データをログ変換すると、膨大な種類の計算および分析ツール(たとえば、正規性を前提とするものや最小二乗法を使用するもの)にアクセスできます。
  • nλ利用可能です; また、分析に特に便利な形式もあります。

どちらか一方を選択する理由は他にもあります。たとえば、分布の裾の「重さ」は、極端なイベントの頻度を予測するのに重要です。他にも積極的で連続的な分布がたくさんありますが(たとえば、このリストを参照)、より専門的なアプリケーションで使用される傾向があります。

これらの分布のほとんどは、上記の周辺分布に見られるマルチモダリティをキャプチャしませんが、マルチモダリティは、観測されたカテゴリ予測子によって記述されるカテゴリにグループ化されるデータによって説明される場合があります。マルチモダリティを説明する観測可能な予測子がない場合は、(小さな、離散的な)数の正の連続分布の混合に基づいて有限混合モデルを近似することを選択できます。


1
また、ガンマモデルと対数正規モデルはほとんど常に非常によく似た結果を与えることに注意する価値があります
カルロ

2
私は医療サービスの研究に従事しています。一般的に、ガンマまたは対数正規分布は、医療支出または請求額のモデルに適切な選択であることを確認できます。ガンマ分布はイベントモデルに合わせて使用​​できますが、ここでは適用できません。
Weiwenン

ありがとう!! これはとても役に立ちました。
ヴィッキーB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.