0〜1の結果(比率または分数)の回帰


42

私は、比率の予測モデルの構築を考えていますB及び> 0及びB > 0を。だから、比率が間になる01a/baba>0b>001

線形回帰を使用できますが、自然に0.1に制限されるわけではありません。関係が線形であると信じる理由はありませんが、もちろん、とにかく、単純な最初のモデルとしてしばしば使用されます。

ロジスティック回帰を使用できますが、通常は2状態の結果の確率を予測するために使用され、範囲0.1からの連続値を予測するためではありません。

これ以上何も知らない場合、線形回帰、ロジスティック回帰、または非表示オプションcを使用しますか?


4
ベータ回帰を検討しましたか?
ピーターフロム-モニカの復職

答えてくれたすべての人に感謝します。勉強して選択する必要があります。ベータ版のように聞こえるのは、特に私が(おそらく目で)良い適合性を観察できる場合は、開始するのに適切な場所です。
dfrankow

これはGLM(ポアソンリンク関数)を使用して行われました。分子aはカウントデータ(結果)で、分母bはオフセット変数です。その後、各被験者/観察ごとに個別のabの値が必要になります。これが最も有効なオプションかどうかはわかりません。ベータ版の配布は興味深いオプションだと思います-聞いたことのないものです。しかし、統計学者ではないので、把握するのは難しいと思います。
MegPophealth 14

深く有益な分析をありがとうございました。現在、私はほぼ同じ課題に直面していますが、0〜1の連続比率範囲を予測する代わりに、-1の患者ユーティリティ範囲を予測する回帰モデルを構築しますおよび1.これは非常に注意が必要です。-1〜1の連続的な依存範囲を持つ回帰モデルを構築するのに適切なリンク関数が見つかりませんでした。おかげで、

1
y(y+1)/2[0,1]

回答:


34

「隠しオプションc」を選択する必要があります。cはベータ回帰です。これは、応答変数がBetaとして配布される場合に適したタイプの回帰モデルです。一般化線形モデルに類似していると考えることができます。それはまさにあなたが探しているものです。パッケージがあるRと呼ばれるbetaregこれを扱っています。を使用するかどうかはわかりRませんが、「ビネット」を読むことができなくても、トピックの実装方法に加えて、トピックに関する一般的な情報を提供しますR(これは必要ありません)その場合)。


aba/b

別の可能性は、比率が標準線形モデルの仮定を満たすように変換できる場合、線形回帰を使用することですが、実際に機能することについては楽観的ではありません。


1
この場合、ベータ回帰が望ましい理由について詳しく説明していただけますか?これはかなり頻繁にここで見る推奨事項ですが、理論的根拠について詳しく説明している人は実際にはいません。
マットパーカー

4
p

3
ベータ版は、使用するのに「適切な」ディストリビューションであると慎重に言っています。かなり柔軟性があり、適切かもしれませんが、すべてのケースをカバーしているわけではありません。だから、それは良い提案だとしながら、非常によく、彼らが望むものかもしれ-あなたは本当にそれは単にそれが0と1の間の継続的な対応だという事実上の適切な配分だと言うことはできません
Dason

1
[0,1]の三角分布は、ベータではない比率の連続分布を表します。他にも多くの可能性があります。ベータ版はnicwの柔軟なファミリですが、魔法のようなものは何もありません。ロジスティック回帰は、バイナリデータに通常適用されるため、良い点を指摘します。
マイケルチャーニック

2
おそらく独断的ではないように見えるべきです。私が意味したのは、DVを調べて、それに続くディストリビューションを使用するということです。確かに、連続的な割合の他の分布があります。技術的には、ベータは、ガンマとその合計+別のガンマの比率です。特定の状況では、異なる分布優れている可能性があります。たとえば、ベータは値0または1のみをとることはできません(0、1)。それにもかかわらず、ベータ版は十分に理解されており、2つのパラメータのみで非常に柔軟に適合します。連続的な割合であるDVを扱う場合、それは一般的に開始するのに最適な場所であると主張します。
GUNG -復活モニカ

2

これらのペアのサンプルまたは2つの独立した集団ですか?

XiXiMiXiMi

この回帰の切片はlog(B)になり、勾配はlog(ratio)になります。

詳細はこちら:

Beyene J、Moineddin R.位置指数への適用を伴う比率パラメーターの信頼区間推定の方法。BMC医学研究の方法論。2005; 5(1):32。

編集:これを行うためにSPSSアドオンを作成しました。興味があれば共有できます。


1
好奇心から、どの方法を使用しましたか(デルタ、フィラー、GLM)?BMCの記事では、さまざまな推定量のカバレッジのシミュレーションを実行しなかったということは少しわかりません(現実的なシミュレーションを想像するのは面倒です)。BMCの記事を引用しているものの、最近ではデルタ法を実行する(実際の正当性はありません)論文に出会ったので、私は思い出しました。
アンディW

1
このコメントを書いたときREGRESSION、データをログ変換してから使用しました。それ以来、を使用するより洗練されたバージョンを作成しましたGLM。私は発光測定を扱っており、私のテストでは、log-linkを使用したガンマ回帰がパラメーターの暴走不確実性が最も少ないことを示唆しました。私の実際のデータのほとんどについて、通常、負の二項式、およびガンマをログリンクで使用することで得られた答えは、すべて(少なくとも必要な精度に)本当に似ていました
DocBuckets

0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x


p

2
-1。@amoebaに同意します。なぜこれが支持されたのか、私は困惑しています。バイナリデータが0または1であるとはまったく仮定せず、0から1の間の測定された比率に焦点を当てているという質問には関係ありません。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.