私のコースの演習の1 つでは、Kaggleの医療データセットを使用しています。
演習では次のように述べています。
個々の料金の分布をモデル化し、その分布に関する不確実性をキャプチャできるようにしたいので、表示される値の範囲をより適切にキャプチャできます。データの読み込みと初期ビューの実行:
上記のことから、ここでは何らかの指数関数的な分布があると思われるかもしれません。...保険金請求額はマルチモーダルである可能性があります。ガンマ分布が適用される可能性があり、最初に保険金請求ではなかった料金の分布についてこれをテストできます。
「ガンマ分布」を調べて、「平均到着時間«ベータ»のポアソンプロセスで«アルファ»イベントが発生するのに必要な時間をエンコードする、連続した正の単峰分布」を見つけました。
ここには時間はかからず、保険に関係なく、関係のない料金だけがかかります。
なぜ彼らはガンマ分布を選ぶのでしょうか?