ベイジアンは分布をどのように比較しますか?


24

ですから、私は、頻度論的確率と統計分析の基本を十分に理解していると思います(そして、それがどれほどひどく使用できるのか)。頻度論の世界では、「この分布はその分布とは異なる」というような質問をするのは理にかなっています。なぜなら、分布は現実的で客観的で不変(少なくとも特定の状況では)であると想定されているからです。 1つのサンプルが別のサンプルのような形状の分布から引き出される可能性を確認します。

ベイジアンの世界観では、過去の経験を考えると、私たちが見ること期待するだけです(この部分についてはまだ少しあいまいですが、ベイジアン更新の概念は理解しています)。もしそうなら、ベイジアンは「このデータのセットはそのデータのセットとは異なる」とどのように言えますか?

この質問の目的のために、私は統計的有意性、または同様の違いを気にかけません。パラメトリック分布とノンパラメトリック分布にも等しく興味があります。


「このデータのセットは、そのデータのセットとは異なります」という意味を明確にできますか?同様に、男性の収入と女性の収入など、2つ以上のグループの比較について言及していますか?あるいは、性別の知識がなくても、ベイジアンは収入の2つのサンプルをどのように比較するのでしょうか?
-ramhiser

2
@ JohnA.Ramey:違いは何ですか?すべてが数字になったら、「男性」と「女性」は単なるサンプルのラベルではありませんか?
naught101

回答:


12

声明家としての発言を熟考し、最初により具体的にする。頻度の高い専門家は、「データセットAはデータセットBとは異なる」と言うことはできません。

まず、「異なる」とはどういう意味かを述べなければなりません。おそらく、「異なる平均値を持つ」ことを意味します。この場合も、「異なる分散を持つ」ことを意味する場合があります。それとも他の何か?

次に、使用するテストの種類を指定する必要があります。これは、データに関する有効な仮定であると思われるものによって異なります。データセットは両方とも何らかの手段について通常分布していると思いますか?または、それらは両方ともベータ配布されていると思いますか?または、他の何か?

ここで、2番目の決定がベイジアン統計の事前分布によく似ていることがわかりますか?それは単に「過去の経験」ではなく、むしろ私が信じていることであり、私の同僚が信じているのは、データに関する合理的な仮定です。(そして、ベイジアンは一様な事前分布を使用できます。これにより、物事はフリークエンティスト計算に向かって進みます。)

編集:あなたのコメントへの応答:次のステップは、私が言及した最初の決定に含まれています。2つのグループの平均が異なるかどうかを判断する場合は、2つのグループの平均の差の分布を調べて、この分布にゼロが含まれるかどうかをある程度の信頼度で確認します。ゼロにどれだけ近いかをゼロとしてカウントし、使用する(事後)分布のどの部分を正確に決定するかは、ユーザーと希望する信頼レベルによって決まります。

これらのアイデアの議論は、Kruschkeの論文にもあります。Kruschkeは、非常に読みやすい本Doing Bayesian Data Analysisも書いています。(第2版:p。468-472。)また、この件に関するブログ投稿もあり、Q&Aがあります。

さらに編集:ベイジアンプロセスの説明も正確ではありません。ベイジアンは、データとは無関係に知っていることを考慮して、データが私たちに伝えることだけを気にします。(Kruschkeが指摘しているように、事前は必ずしもデータの前に発生するわけではありません。それがフレーズの意味するところですが、実際にはデータの一部を除いた単なる知識です。)コンセンサス、基礎となるデータ生成プロセスのモデルに基づいている場合もあれば、単に別の(必ずしも事前ではない)実験の結果である場合もあります。


はい、はい、フリークエントは分布を仮定します、そしてそれは主観的です。しかし、その後、各サンプルのパラメーターをエラー付きで測定し、「OK、これらは各サンプルの真の母集団のパラメーターであり、差は単にサンプリングエラーによるものである確率」と言うことができます。私の質問はあなたの答えののステップについてです-サンプル間のベイジアンの違いをどのように推測しますか(サンプルはパラメトリックであるかどうかにかかわらず、同じタイプの分布に由来すると仮定しましょう)。
naught101

@ naught101:編集をご覧ください。
ウェイン

@Wayneリンクした論文は素晴らしいです。共有していただきありがとうございます
Cam.Davidson.Pilon

@ naught101:ブログのリンクを更新しました。彼は明らかに記事の古いバージョンを保持しており、それぞれが新しいバージョンにリンクしており、最初にリンクしたバージョンは3つのバージョンが古くなっています。
ウェイン

これは非常にクールな方法であり、ベイジアン推論がどのように機能するかが明確になります(分布パラメーターを不確実性の原因として扱うことにより)。残念なことに、非常に計算集約的です。また、95%CIの使用は有意水準を設定するのに少し似すぎていますが、p値の報告可能な同等物を取得する実際の方法があるかどうかわかりません(おそらく、値の確率の合計が平均からの差が0を超えている、平均の違いは?)
naught101

14

この論文は興味深いかもしれません:http : //arxiv.org/pdf/0906.4032v1.pdf

2つのサンプル問題に対するいくつかの頻繁なアプローチとベイジアンアプローチの概要を示し、パラメトリックなケースとノンパラメトリックなケースの両方について説明します。

バツyバツyj01バツBernpyBernq

H0p=q

は必ずしも等しくありません。H1pq

各ケースのデータの尤度は次のとおりです。

下で:L 0p = f xy ; p = i p i1 p 1 ij p j1 p 1 jH0L0p=fバツy;p=p1p1jpj1p1j

下で:L 1p q = f xy ; p q = i p i1 - p 1 - ij q j1 - q 1 - jH1L1pq=fバツy;pq=p1p1jqj1q1j

H 0の下から)。問題に対する頻繁なアプローチは、尤度比検定を行うことです。これにより、統計を計算します。H0q=p

W=2log{L0(pmax)L1(pmax,qmax)},

pmax,qmaxpqpmaxpmaxWχ12H0

pπ0H0p,qπ1H1

BF=f(x,y|H0)f(x,y|H1)=01L0(p)π0(p)dp0101L1(p,q)π1(p,q)dpdq

H0H1H0H1 p(H0)=p(H1)=1/2

p(H0|x,y)p(H1|x,y)=BF×p(H0)p(H1)=BF×1/21/2=BF.

>1H0H1H0

H1

すでに投稿されている他の回答と一緒に役立つことを願っています。


0

与えられたデータから、2つのグループは同じ母集団に由来しないと強く信じる(H_1:それらは同じ母集団に由来しないのに対し、H_0:彼らは同じ母集団に由来する)。これは、ベイジアンt検定で行うことができます。

複雑度を使用して、事前確率が1つの仮説とどの程度重複しているかを把握します。Fitは、1つの仮説と事後がどの程度重複しているかを把握するために使用されます。組み合わせることで、仮説を比較し、仮説が同じ母集団に由来するかどうかについて事後の信念を表現できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.