データを使用してモデルを作成するために使用する正しい分布について質問があります。私は50区画の森林インベントリを実施しました。各区画は20m×50mです。プロットごとに、地面を遮る樹冠の割合を推定しました。各プロットには、キャノピーカバーの1つの値(パーセント)があります。割合の範囲は0〜0.95です。衛星画像と環境データに基づいた独立したX変数の行列を使用して、樹冠のカバー率(Y変数)のモデルを作成しています。
二項確率変数はn回の独立した試行の合計(つまり、ベルヌーイ確率変数)であるため、二項分布を使用する必要があるかどうかはわかりません。パーセンテージ値は試行の合計ではありません。実際の割合です。上限はありませんが、ガンマを使用する必要がありますか?パーセンテージを整数に変換し、ポアソンをカウントとして使用する必要がありますか?私はガウシアンに固執するべきですか?この方法でパーセンテージをモデル化しようとする文献や教科書には、多くの例はありません。ヒントや洞察は大歓迎です。
回答ありがとうございます。実際、ベータ版の配布はまさに私が必要としているものであり、この記事で徹底的に議論されています:
Eskelson、BN、Madsen、L.、Hagar、JC、およびTemesgen、H(2011)。ベータ回帰とコピュラモデルを使用した河岸下層植生被覆の推定。Forest Science、57(3)、212-221。
これらの作者は、Cribari-NetoとZeileisによるRのbetaregパッケージを使用しています。
次の記事では、パーセンテージの範囲に真の0または1が含まれている場合に、ベータ分布の応答変数を変換する適切な方法について説明しています。
- Smithson、M.、J。Verkuilen、2006。より良いレモン絞り器?ベータ分布の従属変数を使用した最尤回帰、Psychological Methods、11(1):54–71。