割合データの分布


11

データを使用してモデルを作成するために使用する正しい分布について質問があります。私は50区画の森林インベントリを実施しました。各区画は20m×50mです。プロットごとに、地面を遮る樹冠の割合を推定しました。各プロットには、キャノピーカバーの1つの値(パーセント)があります。割合の範囲は0〜0.95です。衛星画像と環境データに基づいた独立したX変数の行列を使用して、樹冠のカバー率(Y変数)のモデルを作成しています。

二項確率変数はn回の独立した試行の合計(つまり、ベルヌーイ確率変数)であるため、二項分布を使用する必要があるかどうかはわかりません。パーセンテージ値は試行の合計ではありません。実際の割合です。上限はありませんが、ガンマを使用する必要がありますか?パーセンテージを整数に変換し、ポアソンをカウントとして使用する必要がありますか?私はガウシアンに固執するべきですか?この方法でパーセンテージをモデル化しようとする文献や教科書には、多くの例はありません。ヒントや洞察は大歓迎です。


回答ありがとうございます。実際、ベータ版の配布はまさに私が必要としているものであり、この記事で徹底的に議論されています:

次の記事では、パーセンテージの範囲に真の0または1が含まれている場合に、ベータ分布の応答変数を変換する適切な方法について説明しています。



2
回答ありがとうございます。実際、ベータ版の配布はまさに私が必要としているものであり、この記事で徹底的に議論されています:Eskelson、BN、Madsen、L.、Hagar、JC、&Temesgen、H.(2011)。ベータ回帰とコピュラモデルを使用した河岸下層植生被覆の推定。Forest Science、57(3)、212-221。これらの作者は、Cribari-NetoとZeileisによるRのbetaregパッケージを使用しています。良好レモンSQスミッソン、M.、およびJ. Verkuilen、2006 A:以下の記事は、それが真の0および/または百分率の範囲の1つの含むベータ分布応答変数を変換するための良い方法について説明

回答:


7

二項分布は、有限数のベルヌーイ試行からの「成功」の数から生じる離散的な比率に対するものであり、これにより、分布がデータに対して不適切になることは正しいです。そのガンマと別のガンマの合計で割ったガンマ分布を使用する必要があります。つまり、連続比率をモデル化するにはベータ分布を使用する必要があります。

ここで私の回答にベータ回帰の例があります:Rの回帰を使用して、連続比率データに対する因子の影響を削除します


0(0, 1)


3
ベータ分布はゼロを処理できますか?
Dimitriy V. Masterov

1

パーセンテージ値は、サンプル数に依存しないレートを表します。これらのパーセンテージを従属変数として使用し、衛星画像を説明変数として使用します。ただし、インベントリ内の50のプロットすべてに同じ数のサンプルがあったわけではないと思います。これらのパーセンテージを他の変数に関連付ける適切なモデルは、測定におけるこの不確実性を考慮に入れて、サンプル数の多いプロットにより多くの重みを与える必要があります。

さらに、データの場合の誤差分布は明らかに二項式です。誤差分散は境界で最小であり、これは二項分布によって捕捉されます。

これはすべて、GLMを二項誤差モデルとともに使用する典型的な例として私に思われます。

「Statistics:An Introduction using R」、Crawleyによる第14章では、このトピックとRでそれを分析する方法を正確に説明しています。


4
二項分布はベルヌーイ試行の既知数から成功回数の分布です。「ベルヌーイ試行が二項分布によっても記述されるという事実は、二項分布によって記述されるすべてがベルヌーイ構造と一致しなければならないことを意味するのではありません」というコメントは正しくありません。二項分布は連続比率には適していません。さらに、ガンマ分布ではなく、ベータ分布を提案しました。
gung-モニカの復活

1
はい、あなたは完全に正しいです。
ボノボ2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.