多くの結果がパーセンテージのように表される研究があり、複数の線形回帰を使用して、これらの結果に対するいくつかのカテゴリ変数の影響を評価しています。
線形回帰は結果が連続分布であると仮定しているので、このようなモデルをパーセンテージに適用する方法論的な問題はありますか?
多くの結果がパーセンテージのように表される研究があり、複数の線形回帰を使用して、これらの結果に対するいくつかのカテゴリ変数の影響を評価しています。
線形回帰は結果が連続分布であると仮定しているので、このようなモデルをパーセンテージに適用する方法論的な問題はありますか?
回答:
離散的または継続的な可能性に関連する問題に対処します。
平均の説明に関する問題
制限付きの応答があります。しかし、適合しているモデルは境界がないため、境界を突き破ることができます。一部の適合値は不可能である可能性があり、予測値は最終的には不可能でなければなりません。
真の関係は、境界に近づくにつれて、結局は真ん中よりも平坦になる必要があるため、何らかの形で曲がることが予想されます。
分散の説明に関する問題
平均が限界に近づくと、分散も減少する傾向にあり、他の条件は同じになります。平均と境界の間の余地が少なくなるため、全体的な変動性が減少する傾向があります(そうしないと、平均は、境界に近い側で平均的に遠く離れている点によって境界から離れる傾向があります。
(実際、ある近隣のすべての人口値が正確に境界にある場合、その分散はゼロになります。)
そのような限界を扱うモデルは、そのような影響を考慮に入れるべきです。
比率がカウント変数の場合、比率の分布の一般的なモデルは二項GLMです。平均比率と予測子の関係の形式にはいくつかのオプションがありますが、最も一般的なものはロジスティックGLMです(他のいくつかの選択肢が一般的に使用されています)。
比率が連続的である場合(牛乳中のクリームの比率など)、いくつかのオプションがあります。ベータ回帰は、かなり一般的な選択肢の1つであるようです。繰り返しになりますが、平均値と予測値の間のロジスティック関係を使用することもあれば、他の関数形式を使用することもあります。
0と1の間の結果(比率または割合)については、回帰も参照してください。
これは、結果が0と1の間の場合とまったく同じで、通常、ロジスティック回帰のような一般化線形モデル(GLM)で処理されます。インターネット上には、ロジスティック回帰(およびその他のGLM)のための優れた入門書がたくさんあります。また、このトピックに関するAgrestiの有名な本もあります。
ベータ回帰は実行可能ですが、より複雑な代替手段です。多くの場合、ロジスティック回帰はアプリケーションで正常に機能し、ほとんどの統計ソフトウェアを使用して実装する方が簡単です。
通常の最小二乗回帰を使用しないのはなぜですか?実際には、「線形確率モデル」(LPM)という名前で人々はそうします。LPMが「悪い」の最も明白な理由は、結果を特定の範囲内に制限する簡単な方法がなく、1(または100%または他の有限の上限)を超え、0(またはその他の下限)。同じ理由で、上限に近い予測は体系的に高すぎる傾向があり、下限に近い予測は低すぎる傾向があります。線形回帰の基礎となる数学は、このような傾向が存在しないことを明示的に想定しています。通常、LPMをロジスティック回帰に適合させる大きな理由はありません。
余談ですが、LPMを含むすべてのOLS回帰モデルは、特別な種類のGLMとして定義できることがわかります。このコンテキストでは、LPMはロジスティック回帰に関連しています。
そのような問題に非常に適していると思われるベータ回帰(Rパッケージがあると私は理解している)を調査する価値があるかもしれません。