尤度の原則が*本当に*重要な例?


20

比例尤度を持つ2つの異なる防御可能なテストが著しく異なる(および同様に防御可能な)推論につながる例があります。たとえば、p値は桁違いに離れていますが、代替に対する力は似ていますか?

私が見るすべての例は非常にばかげており、二項と負の二項を比較しています。最初のp値は7%で、2番目のp値は3%です。 5%(ちなみに、推論の基準としてはかなり低い)などの重要性を持ち、権力を見ることすらしません。たとえば、しきい値を1%に変更すると、どちらも同じ結論になります。

著しく異なる防御可能な推論につながる例を見たことはありません。そのような例はありますか?

可能性の原理が統計的推論の基礎の基本的なものであるかのように、このトピックに多くのインクが費やされているのを見てきたので、私は尋ねています。しかし、上記のような馬鹿げた例が最良の例である場合、原則はまったく取るに足らないように見えます。

したがって、私は非常に説得力のある例を探しています.LPに従わない場合、証拠の重みは1つのテストで一方向を圧倒的に指し示しますが、比例尤度を持つ別のテストでは証拠の重みが反対方向を圧倒的に指摘し、両方の結論が理にかなっているように見えます。

理想的には、対検定など、同じ選択肢を検出するための比例尤度と同等の検出力など、任意の遠く離れた、しかし賢明な答えが得られることを実証できます。p=0.1p=1010

PS:ブルースの答えは、この質問をまったく扱っていません。


5
有意性テストを実行する場合、しきい値を変更することにより、いつでも決定を変更できます。ですから、「著しく」、「愚かな」、または「説得力のある」とはどういう意味ですか?ところで、あなたはウィキペディアの記事を読んでいるようです。
whuber

2
CV、@ statslearnerへようこそ。あなたが対照的に見たい尤度の原則を使用しない推論への1つ以上の特定のアプローチの例を与えることができますか?
アレクシス

1
@whuber理想的には、p値を使用したい場合、対ような任意の異なる答えを構築でき、両方の計算がまだ防御可能であるように見えることを確認したいと思います 。p=0.5p=105
statslearner2

3
が意味をなさないので、私はそのコメントに従うことができません。とにかく、Wikipediaの例で示されている数値を変更することを検討しましたか?p=105
whuber

6
実際的な意味合いとの大きな違いは、停止ルールの処理です。LPのもとでは重要ではなく、LPの外では重要です。詳細については、Berger&Wolpert(1987)を確認してください。
西安

回答:


7

点帰無仮説が真であるが、(これは常に遅かれ早かれ発生する、つまり確率1で発生する)までサンプリングを続け、試行を停止し、nullを拒否することを決定する仮定の状況を考えます。これは明らかに極端な停止規則ですが、議論のために考慮してください。p<0.05

このモロニックな手順のタイプIのエラー率は100%になりますが、Likelihood Principleによると何も問題はありません。

私はこれが「本当に」重要であると見なすと思います。もちろん、この引数で任意のを選択できます。ベイジアンは、必要に応じてベイズ係数の固定カットオフを使用できます。同じロジックが適用されます。ここでの主な教訓は、LP 順守できず、エラー率を保証できないことです。無料のランチはありません。α


4
私もこの例を考えていました。しかし、私はそれが実際に馬鹿げているので言及しませんでした。しかし実際には、実際には間接的かつ非公式に起こります。
セクストゥスエンピリカス

1
あなたの例の2つの統計とその可能性は何ですか?ネガで。2項対2項の場合:1)統計値1、3頭までの試行回数、尤度2項 2)統計2、n回の試行におけるヘッド数、likebinomail。あなたの例では、2つの統計が何であるか、またそれらが比例尤度を持っているかどうかはわかりません。
statslearner2

1
あなたの例では、おそらく「p <0.05までの試行回数」であり、二項式に比例することはほとんど疑わないので、あなたの例が有効かどうかはわかりません、アメーバ。
statslearner2

1
尤度の原則に「何も問題はない」とは思わない。尤度原理は、悪い手順を除外します。手順が尤度の原則に従わないという事実は、尤度の原則によって承認されているのと同じではありません。もちろん、この連続テスト問題のベイズ分析は、尤度の原則に従いますが、あなたが説明する「モロニック」手順を実装しないため、完全に優れた特性を持っています。

3
@amoeba考える代替または下θ = 0、nullの下でY IN θ 1 。ベイズ因子のログがおよそ1であることを示すのは簡単ですθN0τ1θ=0YNθ1ここで、Znは通常のZ検定統計量です。ベイズ係数が1より大きい場合に拒否することは、| Zn| >O12[ログτ/n+Zn2]ZnZ1。ヌルの場合、これは順次テスト設定で発生することが保証されていません(反復対数の法則を参照)。したがって、ベイジアン手順は、説明した問題の犠牲になることはありません。|Zn|>Oログn

4

免責事項:この答えは議論全体の核心であると思うので、議論する価値はありますが、この問題を完全には調査していません。そのため、修正、改良、コメントを歓迎します。

最も重要な側面は、順次収集されるデータに関するものです。たとえば、バイナリの結果を観察し、10回の成功と5回の失敗を見たとします。尤度の原則では、10回成功するまでデータを収集したか(負の二項)、15回試行し、そのうち10回が成功した(二項)かどうか関係なく、成功の確率について同じ結論に達する必要があります。

なぜこれが重要なのですか?

なぜなら、尤度の原則(または少なくともその解釈)に従って、推論ツールを変更することなく、データの収集を停止するときにデータに影響を与えることはまったく問題ないからです。

シーケンシャルメソッドとの競合

データを使用して推論ツールを変更せずにデータの収集を停止するタイミングを決定するという考え方は、従来の逐次分析法に完全に反しています。この典型的な例は、臨床試験で使用されている方法です。有害な治療への潜在的な暴露を減らすために、分析が行われる前の中間時間にデータが分析されることがよくあります。治験がまだ終了していないが、研究者がすでに治療が有効または有害であると結論付けるのに十分なデータを持っている場合、医療倫理は、治験を中止する必要があると告げています。治療が機能する場合、治験を中止し、非治験患者が治療を利用できるようにすることは倫理的です。有害な場合は、治験患者を有害な治療にさらすのをやめるように中止するのがより倫理的です。

問題は、複数の比較を行うようになったため、複数の比較を考慮してメソッドを調整しない場合、タイプIのエラー率が増加したことです。これは、実際には複数の部分比較であるため、従来の多重比較の問題とはまったく同じではありません(つまり、収集したデータの50%で1回、100%で1回データを分析すると、これら2つのサンプルは明らかに独立していません!)ただし、一般に比較を行うほど、帰無仮説を拒否するための基準を変更して、タイプIのエラー率を維持する必要があります。さらに多くの比較を計画するには、帰無を拒否するためにより多くの証拠が必要です。

これは臨床研究者をジレンマに陥れます。頻繁にデータを確認しますが、必要な証拠を増やしてnullを拒否しますか、それともデータを頻繁に確認せずに力を増やしますが、医療倫理に関して最適な方法で行動しない可能性があります(つまり、製品の市場投入を遅らせるか、患者を不必要に長く有害な治療にさらす)。

尤度原理は、データを何度チェックしても同じ推論を行う必要があることを教えてくれるように見えるというのは、おそらく(おそらく間違っている)理解です。これは基本的に、逐次試験設計へのアプローチはすべて完全に不要であると言っています。尤度の原則を使用して、結論を出すのに十分なデータを収集したら停止します。準備した分析の数に合わせて推論方法を変更する必要はないため、チェック回数と検出力の間にトレードオフのジレンマはありません。バム、シーケンシャル分析の全分野が解決されています(この解釈に従って)。

個人的には、これについて非常に混乱しているのは、シーケンシャルデザインの分野ではよく知られているが、かなり微妙な事実が、最終テスト統計の可能性停止規則によって大きく変更されていることです。基本的に、停止規則は停止点で不連続な方法で確率を増加させます。このような歪みのプロットを次に示します。すべてのデータが収集された後にのみデータが分析される場合、破線はnullの下の最終検定統計量のPDFです。一方、実線は、与えられたデータで4回チェックした場合、検定統計量のnullの下の分布を示しますルール。

そうは言っても、尤度の原理は、周波数主義の逐次設計について知っていることをすべて捨てて、データを分析する回数を忘れることができるということを意味しているように思えます。明らかに、これの影響は、特に臨床設計の分野にとっては非常に大きなものです。しかし、停止規則が最終統計の可能性をどのように変えるかを無視することを正当化する方法に心を包みませんでした。

ここで、主に最終スライドでいくつかの軽い議論を見つけることができます。


2
+1。私は、帰無仮説が真であるとき、それは概念的に簡単に仮想的な状況を考えるために見つけるが、1つはまでサンプリング続け(この壁はいつも早く起きる以降、つまりはそれが確率1で発生します)と、その後の試行を中止することを決定します。このモロニックな手順は、LPに準拠していますが、タイプIのエラー率は100%です。p<0.05
アメーバは

@amoeba:あなたの例はかなり単純(+1)であることに同意します。私の答えの目標は、なぜ議論さえあるのかを強調することです。答えは、LPの意味と解釈が正しけれ、臨床試験で最大のパワーと不必要な暴露を選択する必要がなくなることを意味し、絶対に大きな利益になると思います。一般的に、研究者は事前に適切なサンプルサイズを推測する必要がなく、統計テストの有用性が大幅に向上します。
クリフAB

まあ、私は頻繁なテストのフレームワーク全体がLPと矛盾していると思います、そしてそれはそれがそうである方法です。エラー率の保証が必要な場合は、頻繁なテストを使用します。これはLPと矛盾していることがわかりました。Lindleyのパラドックスなども参照してください。まあ、タフ。私はこれらの問題に興奮していましたが、今はもうそうではありません。無料のランチはありません。いくつかの選択が必要です。多くのベイジアン手順もLPに違反していることに注意してください。
アメーバは、モニカを復活

「最終検定統計の尤度は停止規則によって大きく変更されます」 pdfは変更され、尤度も(ただし定数のみによって)変更されますが、最大で同じ尤度関数になる可能性があります比例定数。たとえば、成功とn回の試行の二項分布と負の二項分布には、p k p n kに比例する尤度Lp | n k がありますknLp|nkpkpnk
Sextus Empiricus

3

指数データのLRテストの概要。

LET バツ1バツ2バツnからのランダムサンプルである Eバツpレート=λその結果、Eバツ=μ=1/λ 以下のためにバツ>0密度関数でありfバツ=λeλバツとCDFであるFバツ=1eλバツ

1.検定統計量はサンプルの最小値です。

V=バツ1=nバツましょうそして、 VEバツpnλプルーフの概要として、

PV>v=Pバツ1>vバツn>v=[eλv]n=enλv
その結果、PVv=1enλvのためにv>0。

試験にH9μμ0に対してHaμ>μ0レベルα=5我々は考えてVその指数分布から単一の観測として。対数尤度比は、V>cときに拒否を示すことがわかりますここで、 PV>c|μ=μ0=0.05。

特定のケースのためにn=100及びμ0=10λ0=0.1 我々は指数関数的速度有する10=n/μ0=100/10=10その結果c=0.2295 指数分布を速度によってパラメータ化されたR、から。

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

従って、代替に対する電力μa=100(速度n/μa=1 74%程度です。

1 - pexp(0.2996, 1)
[1] 0.7411146

2.検定統計量は標本平均です。

オックスフォードU.クラスノート(2ページ目)ショーの尤度比検定そのH0μμ0に対して H0:μ>μ0 有意不良の5%レベルでのためX¯>c,P(X¯>c|μ=μ0)=0.5。 また、一つはモーメント発生機能使用して表示することができ バツ¯Gammannλ

特定のケースのためにn=100及びμ0=10λ0=0.1我々有するX¯Gamma(100,10),その結果、c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

従って、代替に対する電力μa=14 95.6パーセント程度です。

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

明らかに、指数平均に関する仮説テストの目的のためにμ,十分統計量の情報X¯ サンプル最低限の情報よりもはるかに大きいです。


私はこれが質問にまったく対処していないと思います。2つの可能性は比例していますか?最初に2つの実験の尤度が比例することを示す必要があります。そうでない場合、尤度の原理は適用されません。第二に、この例では、2つのテストが同じ結論につながるため、二項対負の二項の例よりもさらに圧倒的です。
statslearner2

最初の尤度は指数にvを持ち、他の尤度はx iを持つため、文書を確認したところ、尤度は比例していません。したがって、尤度の原理はここでは適用できません。尤度原理に。vバツ
statslearner2

2
ブルース、幸福の原則の内容を明確にするために、尤度が定数だけ異なる2つの実験がある場合、それらから同じ結論を導き出す必要があると述べています。これは、2項係数と負の2項の場合に発生し、2項係数部分(定数)のみが異なります。あなたの例では、尤度が定数だけで異なるわけではないため、LPは適用されない2つのテストを示しています。
statslearner2

試料観察用statslearner2尤度関数@ :である 、F X 1XのN= N Πは iが= 1 λ E - λ X I これは、テストを実行するための基準として最小値または平均値を選択しても同じです。ここで発生する違反は、「極端なケース」の定義が異なるタイプと見なすことができ、p値を計算するための統合が異なる方法で実行されます。バツ1バツn
fバツ1バツn==1nλeλバツ
セクストゥスエンピリカス

3

さまざまなpdf関数fバツθおよびg x θ による違反gバツθ

fバツθ gバツθfgバツθ


オプションの停止ルールの有無にかかわらずコインフリップ

任意停止規則を伴うまたは伴わないコイン投げが代表例である、PDFは、p値、および信頼区間の異なる計算にPDF機能やリード異なる二項又は負の二項であり、それらは、固定のために同一の尤度関数を導きますサンプル/測定(スケーリングまで)。

f負の二項n|kp=n1k1pk1pnkf二項式k|np=nkpk1pnk


より極端な例

次のように測定を検討してください。バツ

Lθ|バツ=fバツ|θ={0 もし バツ<0a もし 0バツ<11aθexpθバツ1 もし バツ1

aθバツ

バツaa

  • バツ<1Lθ|バツ1
  • バツ1Lθ|バツθexpθバツ1

aバツ=2H0θ=1H0θ<1

Pバツ>2|θ=1=1aexp1


バツ

fθ|バツバツfバツ|θθ

p値は実際には証拠ではありません。p値は、単一の測定値ではなく、測定値の集合に関連する尺度であるタイプIエラーに関連しています。このタイプIエラーまたはp値は、Birnbaumsの「統計的証拠の基礎」からの「証拠的意味」と同じではありません。これは、p値の問題と、重要な効果ではなく統計的有意性のみで結果を検索する科学者に関連しています。

推論が著しく異なる例が必要ですか?極端なケースは、不自然な例です。このような場合、または同様の極端な違いがあるものは、もちろん実際には容易に発生しません。多くの場合、あなたがばかげていると呼ぶ場合のように、差は小さいでしょう。

尤度の原則が「本当に重要」な例や、2つの異なる推論が非常に異なる結果につながる例を求めるのは、ちょっとした質問です。少なくともこの質問の意図が何らかの哲学的議論に関係している場合。重要な原則が極めて多様な結果をもたらすことを前提としているため、これは負荷の高い質問です。ただし、実際の多くの場合、結果は小さくなります(p値が1オーダー未満の場合)。これは、2つの異なる、しかし両方とももっともらしい方法で、多かれ少なかれ類似した結果をもたらす奇妙なものではないと思います。差が小さい場合は、尤度の原則が「それほど違反されていない」と見なします。


ケース1について:別の検定統計量を選択することは、尤度関数を変更することと見なすことができます(すべきですか?)。
アメーバは、モニカを復活させる

2
@MartijnWeteringsはい、異なるテスト統計を選択しています。重要なのは、データではなく統計の可能性です。それ以外の場合、100回のフリップのシーケンスを取得し、いくつかの統計を計算できます。ヘッドの実行数、ヘッドとテールの交互の数です。これはいずれもLPに違反しません。
statslearner2

あなたは、など3つの成功するまでの試行回数またはn回の試行における成功回数として比例尤度、持っています2つの統計選択する必要がある
statslearner2

1

James O. Berger(第2版29ページ)による統計的決定理論とベイジアン分析を応用した例を次に示します。

バツyH0H1

James O. Bergerによる統計的決定理論とベイジアン分析から適合した表。

H1H0

H0H0H0


H0


バツ=1y=1H0yα

それでも、この例は、テストを個別のデータで配置するのが難しいため、多少不自然で完全に正直ではないことを認めます。連続データで同等の例を見つけることができますが、さらに不自然になります。私は、尤度原理にはほとんど実用的な価値がないというOPに同意します。私はそれを、理論内である程度の一貫性を保証する原則として解釈します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.