比率と割合の線形モデルを構築していますか?


20

何らかの種類の比率またはパーセンテージを予測するモデルを構築するとします。たとえば、パーティーに参加する男の子と女の子の数を予測したいとします。モデルで使用できるパーティーの特徴は、パーティーの広告の量、会場のサイズ、パーティーのアルコールなどになります(これは単なる例であり、機能はあまり重要ではありません。)

私の質問は、比率とパーセンテージの予測の違いは何ですか?また、選択したモデルに応じてモデルはどのように変化しますか?一方が他方より優れていますか?他の機能はどちらよりも優れていますか?(比率と割合の具体的な数についてはあまり気にしません。どのパーティーが「男の子パーティー」と「女の子パーティー」のどちらである可能性が高いかを特定したいだけです。)たとえば、私は考え:

  • パーセンテージ(たとえば、# boys / (# boys + # girls))を予測する場合、依存フィーチャは0と1の間に制限されているため、おそらく線形回帰ではなくロジスティック回帰のようなものを使用する必要があります。
  • 比率を予測したい場合(たとえば、# boys / # girlsまたは# boys / (1 + # girls)ゼロ除算エラーを回避するため)、依存する特徴は正であるため、線形回帰を使用する前に何らかの種類の(ログ?)変換を適用する必要がありますか?(または、他のモデルですか?正の非カウントデータにはどのような回帰モデルが使用されていますか?)
  • 一般的に、比率ではなくパーセンテージを予測する方がよいでしょうか?

特定のアプリケーションとモデル化しようとしているものに応じて、組成データ分析(en.wikipedia.org/wiki/Compositional_data)の使用を検討する必要があります。特徴(独立変数)の合計が一致する場合、考慮すべき微妙な点がいくつかあります。John Aitchisonの作品をご覧ください。
ctbrown

回答:



15

最初の答えをエコーし​​ます。変換する必要はありません-カウントと共変量を直接モデル化するだけです。

そのようにして、二項(または同等のロジスティック)回帰モデルを少年少女カウントに当てはめる場合、そのようなモデルに通常のリンク関数を選択すると、暗黙的にすでに少年と少女の(共変量平滑化ログ)比率が適合してます。それが線形予測です。

割合や比率ではなく、カウントを直接モデル化する主な理由は、情報が失われないことです。直観的には、2と2を見るよりも、100人の男の子と100人の女の子を見た場合の観察された比率1(男の子と女の子)からの推論に自信があります。したがって、共変量がある場合は、それらの効果に関する情報と、より良い予測モデルの可能性。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.