負の二項回帰の質問-それは貧弱なモデルですか?


31

カウントデータの回帰モデルに関する、SellersとShmueliの非常に興味深い記事を読んでいます。冒頭(p。944)では、McCullaugh and Nelder(1989 )を引用して、負の二項回帰は人気がなく、問題のある標準的なリンクがあると述べています。紹介された箇所を見つけましたが、それは言っています(MとNの374ページ)

「アプリケーションでは負の二項分布が少し使用されているようです。特に、標準リンクの使用は、線形予測子を分散関数のパラメーターの関数にするため、問題があります」。

前のページで、彼らはそのリンク機能を

η=log(α1+α)=log(μμ+k)

および分散関数

V=μ+μ2k.

分布は次のように与えられます

Pr(Y=y;α,k)=(y+k1)!y!(k1)!αy(1+α)y=k

NB回帰は非常に広く使用されていることがわかりました(複数の本で推奨されています)。これらの使用法と推奨事項はすべて誤りですか?

この問題のあるリンクの結果は何ですか?


3
おそらく、1989年に起因する引用に少なくとも部分的には対応する必要があります。NBの現在のほとんどの使用は最近のものであることに賭けたいと思います。NBモデル​​は通常、通常の二項尤度(つまり、ロジスティック回帰)の場合に過剰分散の問題を処理するときに非常に役立ちます。

5
私は詳細については曇っています(そしてNegBinに関しては初心者でもありません)が、彼の著書Negative Binomial Regression(第2版)でこれについて議論したJoseph Hilbeを思い出してください。彼ははNegBinのポアソン-ガンマ混合ビューの自然な表現であるとp.9でコメントしています。1989年の書籍Nelderは、GenStat のkkマクロを開発しました。このマクロでは、分散がであると直接的な関係を好み、この直接パラメータ化が非常に人気があることが証明されました最近。Vαμ2V=μ+αμ2
モニカの復職-G.シンプソン

3
私はそれらのコメントを一粒の塩で取ります。ミネソタ州について:彼らはGLMとは何かについて非常に厳格な定義を持っていました(正当な理由のため)。形状パラメーターが不明なNegbinモデルは、McCullagh、Nelder、PregibonなどによるGLMの非常に厳密な定義に準拠していません。そのため、技術的にはほとんどすべてのユースケースでGLMではありません。わずかに異なるモデルクラスとして解釈され、最尤法で推定されるため、問題はなくなりました。S&SがCOMポアソンを動機付けるためのケースを必要としていたため、M&Nの引用が役立ちました。
モモ

4
正規リンクの不適切なプロパティがネビンモデルを全体的に望ましくないものにしている理由はわかりません。リンク関数は、数学理論を参照するのではなく、データと解決しようとしている問題に基づいて選択します。実際、誰もが正規のリンクを使用しているとは思えません。これは、ガンマGLMと同様の話です。正規リンクは逆になりますが、解釈が容易であり、多くの状況に自然に適用されるため、はるかに多くの人がログリンクを使用することに間違いはありません。
香港大井

4
私が知る限り、負の二項モデルを使用する理由はほとんどありません。データが本当に負の二項モデルによって生成されたとしても、ポアソン回帰では、平均応答に対する独立変数の効果の一貫した推定量が得られます。これは、研究者が推定したい事実です。ポアソンの仮定が間違っている場合、通常の標準エラーは間違っていますが、ブートストラップはそれを修正します。いつでも、あなたが一貫して見積もることができますポアソンを使用します。E{Y|X}=exp(Xβ)β
ビル

回答:


10

私はいくつかの観点から主張に異議を唱えます。

i)正規のリンクは「問題がある」かもしれませんが、誰かがそのリンクに興味を持っていることはすぐには明らかではありません。それに興味があります。それでも、ポアソンの場合、人々は他のリンク関数を見ます。

そのため、正規のリンクに限定する必要はありません。

「問題のあるリンク」自体は、負の二項回帰に対する特に重要な議論ではありません。

たとえば、ログリンクは、データが条件付きポアソンであるかもしれないがポアソンレートに不均一性がある場合など、負の二項アプリケーションでは非常に合理的な選択のようです-ログリンクはほとんど解釈可能ですポアソンの場合と同じです。

それに比べて、私はガンマGLMをかなり頻繁に使用しますが、正規のリンクを使用したことは覚えていません(教科書の例は別として)。私は一緒に仕事をする傾向があります。

ii)「小さなアプリケーションが作成されたようです...」は1989年にはほぼ真実だったかもしれませんが、私はそれが現在立っているとは思いません。[たとえそれが今のところ立っていたとしても、それは貧弱なモデルであるという主張ではなく、広く使用されていないということだけです-これはあらゆる理由で起こるかもしれません。]

負の二項回帰は、より広く利用できるようになったため、より広く使用されるようになりました。現在、アプリケーションでより広く使用されていると思います。たとえば、Rでは、MASSそれをサポートする関数を使用します(そして、対応する本であるVenables and Ripley's、Modern Applied Statistics with Sは、いくつかの興味深いアプリケーションで負の二項回帰を使用します)-そして、いくつかの機能を使用しましたRで使用する前であっても、他のいくつかのパッケージで

負の二項回帰をもっと早く、もっと簡単に利用できていたらもっと使ったでしょう。私は同じことが多くの人々に当てはまることを期待します-したがって、それがほとんど使われなかったという議論は、より多くの機会のようです。

負の二項回帰を回避することは可能ですが(たとえば、過剰分散ポアソンモデルを使用すること)、または実際に何をするかは重要ではない多くの状況を回避することはできますが、それが完全に満足できないさまざまな理由があります

たとえば、係数の推定値よりも予測間隔に関心がある場合、係数が変化しないという事実は、負の二項式を回避するのに十分な理由ではない可能性があります。

もちろん、分散をモデル化する他の選択肢がまだあります(あなたが言及した論文の主題であるConway-Maxwell-Poissonなど)。これらは確かにオプションですが、負の二項関数が私の問題のモデルとしてかなり良い「適合」であることに非常に満足している状況が時々あります。

これらの使用法と推奨事項はすべて誤りですか?

私は本当にそうは思いません!もしそうなら、今では合理的に明らかになっているはずです。確かに、マッカラーとネルダーが同じように感じ続けていた場合、彼らは機会の不足も、残りの問題を明確にするフォーラムの不足もありませんでした。Nelderは亡くなりました(2010年)が、McCullaghはまだまだ残っています。

McCullaghとNelderの短い文章だけがあれば、それはかなり弱い議論だと思います。

この問題のあるリンクの結果は何ですか?

この問題は主に分散関数とリンク関数の1つであり、関連性のないものではなく関連性の高いもの(一般的に使用されている他のほとんどすべての主要GLMファミリの場合)であり、線形予測子のスケールで解釈されますそれほど単純ではありません(それが唯一の問題であると言うわけではありません;それは開業医の主な問題だと思います)。たいしたことではありません。


比較として、最近ではTweedieモデルがはるかに広く使用されていることがわかります。また、が分散関数と正準リンクの両方に現れるという事実を自分自身に関しては見ていません(ほとんどの場合、心配することもありません)正規リンクについて)。p

これのどれもされている、離れコンウェイ・マクスウェル・ポアソンモデル(売り手とShmueli紙の主題)から何かを取ることはありませんまた、私は確かにCOM VS負の二項に参加したくない-より広く使用さになってきて-ポアソン射撃試合。

統計的な問題について、純粋にベイジアンまたは純粋に頻度主義的な立場をとる以上に、私は単にそれを他とは見ていません。私は、私がいる特定の状況で私を打つものを最良の選択として使用し、それぞれの選択には長所と短所がある傾向があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.