線形回帰でパーセンテージ結果を使用する場合の問題は何ですか？

11

多くの結果がパーセンテージのように表される研究があり、複数の線形回帰を使用して、これらの結果に対するいくつかのカテゴリ変数の影響を評価しています。

線形回帰は結果が連続分布であると仮定しているので、このようなモデルをパーセンテージに適用する方法論的な問題はありますか？

regression ratio percentage

— バカバーグ
ソース

1

これらのパーセンテージは連続的ですか（たとえば、牛乳中のクリームのパーセンテージなど）、または離散的ですか（二項比率など、合計数のうちのあるカテゴリの数）？

— Glen_b-モニカを復活させます2014

1

うーん...違いはわかりません。両方とも継続的ではないですか？とにかく、私たちは合計で人々について話しているので、私は2番目が私のデータをよりよく表現していると思います。

— バカバーグ2014年

カウントで除算されたカウントの分布は完全に離散的です。実際、分子は通常二項式としてモデル化され、分母は条件付き（定数として扱われる）であるため、比率は通常スケーリングされた二項式として扱われます。ただし、分母がランダム変数であったとしても、そのサンプル空間はカウント可能であるため、比率は依然として離散的です

— Glen_b -Reinstate Monica

17

離散的または継続的な可能性に関連する問題に対処します。

平均の説明に関する問題

制限付きの応答があります。しかし、適合しているモデルは境界がないため、境界を突き破ることができます。一部の適合値は不可能である可能性があり、予測値は最終的には不可能でなければなりません。

真の関係は、境界に近づくにつれて、結局は真ん中よりも平坦になる必要があるため、何らかの形で曲がることが予想されます。
分散の説明に関する問題

平均が限界に近づくと、分散も減少する傾向にあり、他の条件は同じになります。平均と境界の間の余地が少なくなるため、全体的な変動性が減少する傾向があります（そうしないと、平均は、境界に近い側で平均的に遠く離れている点によって境界から離れる傾向があります。

（実際、ある近隣のすべての人口値が正確に境界にある場合、その分散はゼロになります。）

そのような限界を扱うモデルは、そのような影響を考慮に入れるべきです。

比率がカウント変数の場合、比率の分布の一般的なモデルは二項GLMです。平均比率と予測子の関係の形式にはいくつかのオプションがありますが、最も一般的なものはロジスティックGLMです（他のいくつかの選択肢が一般的に使用されています）。

比率が連続的である場合（牛乳中のクリームの比率など）、いくつかのオプションがあります。ベータ回帰は、かなり一般的な選択肢の1つであるようです。繰り返しになりますが、平均値と予測値の間のロジスティック関係を使用することもあれば、他の関数形式を使用することもあります。

0と1の間の結果（比率または割合）については、回帰も参照してください。

— Glen_b-モニカの復活
ソース

1

+1と私は自由にこのトピックの「マスター」スレッドと見なすことができるものへのリンクを追加しました（gungの回答にはベータ版とロジスティックのオプションも含まれています）。

— アメーバは、モニカを

2

簡単な一般的な議論は、平均が0であり、すべての値が0である場合にのみ可能であり、同様に1 = 100％ですべての値が1である場合です。したがって、比率は、比率がカウントまたは測定。他のすべての値が一定である可能性もありますが、実際には非常にまれです。したがって、0と1の間の値の分散が最も高くなります

— Nick Cox

記載されている2つの問題についていくつかの参照を提供できますか？

— user1607

3

これは、結果が0と1の間の場合とまったく同じで、通常、ロジスティック回帰のような一般化線形モデル（GLM）で処理されます。インターネット上には、ロジスティック回帰（およびその他のGLM）のための優れた入門書がたくさんあります。また、このトピックに関するAgrestiの有名な本もあります。

ベータ回帰は実行可能ですが、より複雑な代替手段です。多くの場合、ロジスティック回帰はアプリケーションで正常に機能し、ほとんどの統計ソフトウェアを使用して実装する方が簡単です。

通常の最小二乗回帰を使用しないのはなぜですか？実際には、「線形確率モデル」（LPM）という名前で人々はそうします。LPMが「悪い」の最も明白な理由は、結果を特定の範囲内に制限する簡単な方法がなく、1（または100％または他の有限の上限）を超え、0（またはその他の下限）。同じ理由で、上限に近い予測は体系的に高すぎる傾向があり、下限に近い予測は低すぎる傾向があります。線形回帰の基礎となる数学は、このような傾向が存在しないことを明示的に想定しています。通常、LPMをロジスティック回帰に適合させる大きな理由はありません。

余談ですが、LPMを含むすべてのOLS回帰モデルは、特別な種類のGLMとして定義できることがわかります。このコンテキストでは、LPMはロジスティック回帰に関連しています。

— シャドウトーカー
ソース

4

この回答の大部分は価値があるように見えますが、読者を混乱させる可能性のあるいくつかの誤った情報が含まれています。最初の段落のロジスティック回帰の説明は、従属変数の対数のような変換とそれに続く線形回帰の説明のように聞こえます。これはロジスティック回帰ではありません。係数の解釈も完全に正しくありません。「LPM」のより重要な問題は、データが極値に近い場合、残差の非対称分布を示す可能性が高いことです。これは、回帰のiid仮定の重要な違反です。

— whuber

オッズ比などに入る価値はないと思いました。私はそれを取り除き、OPがそれを読み上げるようにします。残差についても良い点。

— シャドウトーカー2014年

（+1）建設的な回答をありがとうございます！

— whuber

2

そのような問題に非常に適していると思われるベータ回帰（Rパッケージがあると私は理解している）を調査する価値があるかもしれません。

http://www.jstatsoft.org/v34/i02/paper

— ディクラン有袋類
ソース

7

結果がパーセンテージの場合に線形回帰が影響を受ける主な理由のいくつかにぶつかると、答えはさらに良くなります。

— Alexis