bayesglmを使用する理由


8

私の全体的な質問は次のとおりです。なぜbayesglm他の分類方法の代わりに使用するのですか?

注意:

  1. 私は予測だけに興味があります。
  2. 私はまともな量のデータを持っています(〜100,000 obs)。

サンプルサイズは、通常のロジスティック回帰のパラメーターが正規分布(CLT)になるのに十分な大きさだと思います。事前情報を指定すると何が得られますか?私の直感は、それが小さなデータセットに対してのみ問題になるということですが、私には理論的または適用された証拠はありません。


4
サンプルサイズと事前分布の関係についてのあなたの直感は正しいです。一方、ベイズロジスティック回帰は、完全な分離から生じる無限のパラメーター推定の問題を解決できます。
Sycoraxは2013

1
ロジスティック回帰は分類アルゴリズムではありません。確率予測アルゴリズムです。
ブラッシュ均衡

1
Sycoraxが言及していることは、大規模なサンプル設定でベイジアンモデルを使用する最も重要な理由の1つです。ロジスティック回帰に多数の予測子、特に分散の小さい予測子がある場合は、回帰係数よりも事前に考慮することを検討してください。
ブラッシュ均衡

回答:


8

エンジニアリングおよびサプライチェーンのリスク管理では、「エンジニアリングの知識」(たとえば、教育を受けた人が最も推測しやすい)が、最も優れたデータである可能性があります。たとえば、津波が発生してサプライチェーンを混乱させる可能性は、追加のデータなしで、主題の専門家が推定できます(事前分布を構築するためのより良い方法があります)。時間の経過とともに津波が発生し、その結果、より多くのデータが得られ、過去のデータ(エンジニアリングの知識)を事後(更新されたデータの新しいデータ)で更新できます。ある時点で、最初の事前分布が無関係になるほど多くのデータが存在し、だれが予測を行ったかに関係なく、尤度の等しい予測が得られます。

多くのデータがある場合、ベイジアンアプローチよりも「通常の」フリークエンティストアプローチの方が(通常)推奨されます(もちろん、他のものは、特に1つに固執して適切な方法を選択するのではなく、統計哲学を選択することに同意しないでしょう) )。頻度論的アプローチがベイジアンと同様の/同一の結果をもたらすことは完全に可能であり、頻繁に発生することに注意してください。

とはいえ、メソッドの違いがコード行である場合、複数のメソッドを実装して結果を自分で比較してみませんか?


ありがとう!ベイジアン思考のいくつかの側面についての良い説明-私がよく知っていることではありません。
wcampbell 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.