何らかの種類の比率またはパーセンテージを予測するモデルを構築するとします。たとえば、パーティーに参加する男の子と女の子の数を予測したいとします。モデルで使用できるパーティーの特徴は、パーティーの広告の量、会場のサイズ、パーティーのアルコールなどになります(これは単なる例であり、機能はあまり重要ではありません。)
私の質問は、比率とパーセンテージの予測の違いは何ですか?また、選択したモデルに応じてモデルはどのように変化しますか?一方が他方より優れていますか?他の機能はどちらよりも優れていますか?(比率と割合の具体的な数についてはあまり気にしません。どのパーティーが「男の子パーティー」と「女の子パーティー」のどちらである可能性が高いかを特定したいだけです。)たとえば、私は考え:
- パーセンテージ(たとえば、
# boys / (# boys + # girls)
)を予測する場合、依存フィーチャは0と1の間に制限されているため、おそらく線形回帰ではなくロジスティック回帰のようなものを使用する必要があります。 - 比率を予測したい場合(たとえば、
# boys / # girls
または# boys / (1 + # girls)
ゼロ除算エラーを回避するため)、依存する特徴は正であるため、線形回帰を使用する前に何らかの種類の(ログ?)変換を適用する必要がありますか?(または、他のモデルですか?正の非カウントデータにはどのような回帰モデルが使用されていますか?) - 一般的に、比率ではなくパーセンテージを予測する方がよいでしょうか?
特定のアプリケーションとモデル化しようとしているものに応じて、組成データ分析(en.wikipedia.org/wiki/Compositional_data)の使用を検討する必要があります。特徴(独立変数)の合計が一致する場合、考慮すべき微妙な点がいくつかあります。John Aitchisonの作品をご覧ください。
—
ctbrown