信頼区間は精度について何と言っていますか(もしあれば)?


31

Morey et al(2015)は、信頼区間は誤解を招くものであり、それらの理解に関連する複数のバイアスがあると主張しています。とりわけ、彼らは精度の誤precisionを次のように説明しています:

精度の誤り
信頼区間の幅は、パラメーターに関する知識の精度を示します。狭い信頼区間は正確な知識を示し、広い信頼誤差は不正確な知識を示します。

推定の精度と信頼区間のサイズの間に必要な関係はありません。これを確認する1つの方法は、2人の研究者(上級研究者と博士課程の学生)がデータを分析していることを想像することです50実験から 50人の参加者のです。博士課程の学生の利益のための演習として、上級研究者は参加者をランダムに 2セットに分割し、25それぞれがデータセットの半分を個別に分析できるようにすることを決定します。後続の会議で、2人は互いに平均のスチューデントのt信頼区間を共有します。博士課程の学生の95% CIは52±2であり、上級研究員の 95 CIは95%CIはです。53±4

上級研究員は、結果がほぼ一貫しており、それぞれの2つのポイント推定値の均等に重み付けされた平均値真の平均値の全体的な推定値として使用できることに注目しています。52.5

しかし、博士課程の学生は、2つの平均を均等に重み付けすべきではないと主張します。彼女は、CIの幅が半分であると指摘し、推定がより正確であるため、より重く重み付けする必要があると主張します。彼女のアドバイザーは、2つの平均の不均等な重み付けからの推定値は、完全なデータセットの分析からの推定値とは異なるため、でなければならないため、これは正しいとは言えないと指摘します。博士課程の学生の間違いは、CIがデータ後の精度を直接示すと仮定していることです。52.5

上記の例は誤解を招くようです。サンプルをランダムに半分に2つのサンプルに分割すると、サンプル平均と標準誤差の両方が近くなると予想されます。このような場合、加重平均の使用(たとえば、逆誤差による加重)と単純な算術平均の使用に違いはありません。ただし、推定値が異なり、サンプルの1つのエラーが著しく大きい場合、そのようなサンプルの「問題」を示唆している可能性があります。

明らかに、上記の例では、サンプルサイズが同じであるため、平均をとることでデータを「結合」することは、サンプル全体を平均することと同じです。問題は、サンプル全体が最初に部分に分割され、最終的な推定のために再び結合されるという不明確なロジックに従っているということです。

この例を言い換えると、まったく逆の結論に導くことができます。

研究者と学生は、データセットを2つに分割し、個別に分析することにしました。その後、彼らは彼らの推定値を比較し、サンプルは彼らが計算したものが非常に異なっていることを意味し、さらに学生の推定値の標準誤差ははるかに大きかったようでした。学生はこれが彼の推定の精度の問題を示唆することを恐れていましたが、研究者は信頼区間と精度の間に関連性がないことを暗示したので、両方の推定は等しく信頼でき、ランダムに選択されたそれらのいずれかを公開できます、最終的な見積もりとして。

より正式に述べると、スチューデントのような「標準」信頼区間はエラーに基づいていますt

x¯±c×SE(x)

どこ、いくつかの定数です。そのような場合、それらは精度に直接関係していますよね。c

だから私の質問は次のとおり
です。信頼区間は精度について何と言っていますか?


Morey、R.、Hoekstra、R.、Rouder、J.、Lee、M.、&Wagenmakers、E.-J. (2015)。信頼区間に信頼を置くという誤り。Psychonomic Bulletin&Review、1–21。https://learnbayes.org/papers/confidenceIntervalsFallacy/


2
精度が分散の逆数として定義されている場合、これらのCIの幅は精度の推定値のみを反映していると思います。平均のベイジアン信頼区間の幅は、精度に関する不確実性を反映します。
Scortchi -復活モニカ

@Scortchiその後、これは、頻度の高いメソッドは一般的に信頼できないと言う別の方法です。
ティム

7
これはニシンだと思います。私は10,000個の実験をシミュレートしましたが、それぞれが平均52.5とSD 7.5の正規分布から50個のサンプルを描画しました(サイズ25のサブサンプルのSEは約±3のCIをもたらします)。次に、これらのサンプルを2つに分割し、CIが2つ以上異なる頻度を確認しました。これは10,000件中6件で発生しました。この異なるCIを観察する人は、サブサンプルの選択で何かが壊れていると疑います。7.5/25=5±3
S. Kolassa -復活モニカ

@StephanKolassa私はまったく同じ結論を導き出すまったく同じシミュレーションを行いました。これが問題の発生方法です:)
ティム

2
@Tim:彼らが何を取得しようとしているのか本当にわかりません:平均の推定値の真の精度が、2つのサブサンプルに共通する未知のパラメーター値の関数として考えられている場合、したがって、これら2つのCIの幅の違いは、推定値の精度の違いを反映していないことを認めることを誰も気にしないと思います(サブサンプリング手順を疑わない限り)。観測された変動係数を条件とするCIのカバレッジプロパティを考慮することは、より良い戦術である可能性があります。
Scortchi-モニカの復職

回答:


16

この論文では、複数の方法で正確な誤fallを実際に示しています。質問の1つ-論文の最初の例-この例は、単純な「CI =精度」が間違っていることを示すことを目的としています。これは、有能な頻度主義者、ベイジアン、または尤度主義者がこれによって混乱するということではありません。

状況を確認する別の方法を次に示します。CIに伝えただけでは、サンプルの情報を一緒に結合することはできません。我々は知っている必要があります、そしてそれから、私たちはにCIを分解することができˉ XS 2、したがって、適切に二つの試料を兼ね備えています。これを行う必要があるのは、CIの情報が迷惑パラメーターよりもわずかであるためです。両方のサンプルに同じ迷惑パラメータに関する情報が含まれていることを考慮する必要があります。これは、両方のコンピューティングコンピューティング含ま2つの全体的な見積もりを取得するためにそれらを組み合わせて、値σ 2を、新しいCIを計算し、。Nx¯s2s2σ2

精度の誤りのその他のデモンストレーションについては、

  • ウェルチ(1939)セクション(潜水艦)の複数のCI。そのうちの1つには、上記の@dsaxtonが言及した「些細な」CIが含まれています。この例では、最適なCIは尤度の幅を追跡しません。また、CIには他のいくつかの例もあります。
  • CI-「良い」CIでさえ空である可能性があり、「誤って」無限精度を示す

難問への答えは、少なくともCI支持者が考える「精度」(推定値がパラメーターに「どれだけ近いか」の実験後評価)は、信頼区間が一般的に持つ特性ではないということです。 、それらは意図されていませんでした。特定の信頼手順は...かもしれません。

こちらのディスカッションもご覧ください:http : //andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591


7
(+1)実際の著者から聞いて素晴らしい!CIにはいくつかの哲学的問題があり、あらゆる形態の推論(ちょうど異なる問題)があることに同意します...そしてそのようなレベル。

4
(+1)ご回答いただきありがとうございます!私はあなたの論文の状態CIのは、ということを引数に同意する必要はありませんが誤謬これを呼び出すと、あなたは、彼らがいることを示していることを印象与え、精度については何も言うことはありません精度については何も言うことを-と、これは同じではありません...さらに、あなたの意見では、それは「正確な誤acy」が実生活の分析の問題です。CIを誤って解釈することは同意しますが、この場合、私は確信が持てません...
ティム

2
「現実の」影響を定量化することは困難です。特に、特定の分析シナリオや分野全体での影響について話すことができます。GaussianでCIを計算するだけでは、誤りはそれほど危険ではありません。しかし、p117の引用リストを検討してください(パラグラフは「シュタイガーの信頼手順をどのくらいの頻度で開始するか...」)。これらの公開された論文の間隔は、「狭すぎる」可能性があります。誤fallには他の影響もあります:新しいCI手順の生成者に対する徹底の欠如(新しいCIのある論文を確認してください)、必要に応じてガウスの仮定から遠ざかるアナリストの不本意など。
リチャードモアリー

私はこれらのパラセシスに興味があります。この「潜水艦」とは何ですか?
スーパーベスト

1
しかし、サンプル範囲を条件とするの尤度関数の幅が潜水艦の例の精度を本当に反映すると想定される場合、サンプル分散を条件とする平均の尤度関数の幅が真の精度を反映しないのはなぜですか?この例。潜水艦からの4つの泡が観察され、2つの2つのセットにランダムに分割されたと仮定します...θ
Scortchi-Reinstate Monica

13

まず最初に、厳密に正の有限の幅を持つ区間のみを生成するCIプロシージャに限定します(病理学的なケースを避けるため)。

この場合、精度とCI幅の関係は理論的に実証できます。平均の推定値を取得します(存在する場合)。平均のCIが非常に狭い場合は、2つの解釈があります。不運があり、サンプルが固く固まっている(その発生の事前確率5%)か、間隔が真の平均をカバーしています(95%先験的なチャンス)。もちろん、観測されたCIは、いずれかのこれらの2のことができ、しかし、我々は後者が故に、我々は高い学位を持っている...はるかに可能性が発生した(すなわち、95%の確率で先験的)になるように、私たちの計算を設定しました自信確率的に物事を設定するので、これがそうであるので、私たちの間隔が平均をカバーすること したがって、95%CIは確率間隔ではなく(ベイジアン信頼区間など)、「信頼できるアドバイザー」のようなものです。統計的には95%の確率で正しいので、答えを信頼します。特定の答えが間違っている可能性があります。

実際のパラメーターをカバーする95%の場合、幅はデータが与えられた妥当な値の範囲(つまり、真の値をどれだけうまくバインドできるか)について何かを示します。したがって、精度の尺度のように機能します。そうでない場合の5%で、CIは誤解を招きます(サンプルが誤解を招くため)。

だから、95%のCI幅は精度を示していますか...私はそれが95%のチャンスがあると言います(CI幅が正有限であれば);-)

賢明なCIとは何ですか?

元の著者の投稿に応じて、(a)「分割サンプル」の例には非常に具体的な目的があることを考慮し、(b)コメント者の要求に応じて背景を提供するために、応答を修正しました。

理想的な(周波数帯の)世界では、すべてのサンプリング分布は、正確な信頼区間を取得するために使用できる重要な統計を認めます。重要な統計の何がそんなに素晴らしいのですか?それらの分布は、推定されるパラメータの実際の値を知らなくても導き出すことができます!これらの素晴らしいケースでは、このパラメーターに関する真のパラメーター(ガウスではないかもしれませんが)に対するサンプル統計の正確な分布があります。

もっと簡潔に:エラー分布(またはその変換)を知っています。

合理的な信頼区間を形成できるのは、いくつかの推定量のこの品質です。これらの間隔は、定義を満たしているだけではありません...それらは、推定誤差の実際の分布から導き出されているために満たされています。

ガウス分布と関連するZ統計は、重要な量を使用して平均の正確なCIを作成する標準的な例です。より難解な例はありますが、これは一般に「大標本理論」を動機付けるものです。これは基本的に、ガウスCIの背後にある理論を真のピボット量を認めない分布に適用する試みです。これらのケースでは、およそピボット、または漸近的にピボット(サンプルサイズ)量または「近似」信頼区間について読みます。これらは尤度理論に基づいています。具体的には、多くのMLEのエラー分布正規分布に近づきます。

賢明なCIを生成する別のアプローチは、仮説検定を「反転」することです。「良い」テスト(たとえば、UMP)は、指定されたタイプIエラー率に対して良い(読み取り:狭い)CIをもたらすという考え方です。これらは正確なカバレッジを提供する傾向はありませんが、下限のカバレッジを提供します(注:X%-CIの実際の定義では、少なくとも X%の時間真のパラメーターカバーする必要があるというだけです)。

仮説検定の使用は、重要な量や誤差分布を直接必要としません。その感度は、基礎となる検定の感度から導き出されます。たとえば、リジェクション領域の長さが0の5%で、長さが95%の無限の長さのテストがある場合、CIを使用していた場所に戻りますが、このテストはそうではないことは明らかですデータを条件とするため、テスト対象の基になるパラメーターに関する情報は提供されません。

このより広いアイデア-精度の推定はデータを条件とするべきであるということは、フィッシャーと補助統計のアイデアに戻ります。テストまたはCIプロシージャの結果がデータによって条件付けられていない(つまり、その条件付き動作がその無条件の動作と同じである)場合は、疑わしいメソッドが手元にあることを確認できます。


2
「メモ」に追加した内容について詳しく説明していただければ幸いです。これは全体の議論の核心だと思います。CIの幅が精度とはまったく関係がないCIを構築するための非常に奇妙だが有効な頻繁な手順を考案することができます。したがって、Morey et al。原則として、CIは誤解されています。一般的に使用されているCIの手順はそれよりも合理的であることに同意しますが、そのような理由を明確にする必要があります。
アメーバは、モニカを復活

@amoeba私はすべてではないのCIが同じように作られている理由について、いくつかのより詳細な説明を追加しました...主なアイデアは、第二は、誤差分布(またはそれに近似)の役割である、ancillarityある

更新していただきありがとうございます。私はあなたの答えでまだ明確になっていないことの1つは、最初の段落ではCI幅について何も言わないということです。本当の母集団パラメーターを含むか含まないかについて話しているだけです。「病的な」場合でもそこにあるものはすべて正しい。そうすると、「はい」と言うと、幅は精度を示しますが、その引数を(その時点で)指定していません。後の議論では、さらに説明します。
アメーバは、モニカーを復活させる

@amoeba私の投稿はもう少し書式設定を行うことができたと思います。基本的なロジックは次のとおりです(ここで説明する「合理的な」CIプロシージャを使用していると仮定します)。95%の確率で、間隔に真のパラメーターが含まれる可能性があります。データを収集すると、実際の間隔(ゼロ以外の有限の幅)が得られます。真のパラメーターが含まれている場合、幅は可能な値の範囲を表しているため、幅はパラメーターの範囲を制限します。ただし、間隔に値が含まれていない場合の5%の場合、間隔は誤解を招きます。

@amoebaは投稿を更新して、CIの幅と精度の関係をより強調しました。

8

{バツ1バツ2バツn}μσ2μ{0}偏ったコインの反転に基づいています。適切なバイアスを使用することで、任意のレベルの信頼を得ることができますが、明らかに幅がゼロの間隔になったとしても、間隔の「推定」にはまったく精度がありません。

この見かけ上の誤りを気にする必要がないと思う理由は、信頼区間の幅と精度の間に必要な関係がないことは事実ですが、標準誤差と精度の間にほぼ普遍的な関係があるためです。ほとんどの場合、信頼区間の幅は標準誤差に比例します。

σ


ランダムに無限のCIについての良い点...信頼性は精度とは異なる概念であることを明確に示しています。私はおそらく、幅が対数尤度の曲率に関連する尤度ベースのCIを仮定していると言って、応答を控えるべきでした。これは標準誤差の近似です...あなたの投稿は技術的に達成するCIがあることを指摘していますカバレッジが非常に直感に反する方法で。

関連する問題(非常に興味深い問題ですが)は、CIに関連するサブセットの問題です...たとえば、補助的な統計情報を条件にすると、CIカバレッジが変更される場合があります(適切なケースは、t間隔の条件付きカバレッジですサンプルの変動に基づいて変更されます)。論文へのリンクは次のとおり

@Bey潜水艦に関するこの論文からは、それほど極端ではない別の例があります:webfiles.uci.edu/mdlee/fundamentalError.pdf。それは興味深いものですが、やはり知的な人が作らないような解釈の場合のようです。
dsaxton

合意....統計でドアに常識を残すことはできません...機械学習でも(多少間違った名前)

1
@richarddmorey:なるほど。それからそれはただの不幸な処方でした!私は意図的にコンテキストからそれを取り出しませんでした。私は正直に、この文をあらゆる状況の要約と一般化として読んだ(「その例では」がその文で想定されていることを理解していない)。私の告発(すでにいくつかの賛成票を得た)で他のスレッドに説明コメントを残すことを検討してください。
アメーバは、モニカーを復活させる

4

「信頼区間」と「精度」の明確な区別(@dsaxtonの回答を参照)は重要です。その区別は両方の用語の一般的な使用法の問題を指摘しているからです。

ウィキペディアからの引用:

再現性と再現性に関連する測定システムの精度は、変更されていない条件下で繰り返し測定が同じ結果を示す度合いです。

したがって、頻繁な信頼区間が測定計画のタイプの精度を表すと主張するかもしれません。同じスキームを繰り返した場合、各繰り返しで計算された95%CIには、繰り返しの95%でパラメーターの1つの真の値が含まれます。

しかし、これは多くの人が実用的な精度の尺度から望んでいるものではありません。彼らは測定値がどのくらい真の値に近いか知りたがっています。頻繁な信頼区間は、厳密にその精度を提供しません。ベイジアンの信頼できる地域はそうします。

混乱の一部は、実際の例では、頻度の高い信頼区間とベイズの信頼できる領域が「多かれ少なかれ重複する」ということです。OPに関するいくつかのコメントのように、正規分布からのサンプリングはそのような例です。これは、@ Beyが念頭に置いていた、分析の種類によっては、限界に正規分布があるプロセスの標準誤差の近似値に基づいた実際のケースにも当てはまります。

そのような状況あることがわかっている場合、測定スキームの単一の実装から特定の95%CIを、真の値を含む可能性が95%であると解釈しても、実際的な危険はありません。ただし、信頼区間のその解釈は、真の値がその特定の区間内にあるかそうでないかのどちらかである頻繁な統計からではありません。

信頼区間と信頼できる領域が著しく異なる場合、上記のリンクされた論文とその中で参照された以前の文献が示すように、そのベイジアン的な頻度の信頼区間の解釈は誤解を招くか間違っている可能性があります。はい、「常識」はそのような誤解を避けるのに役立つかもしれませんが、私の経験では「常識」はそれほど一般的ではありません。

その他CrossValidatedページは、より多くの情報含まれている信頼区間信頼区間と信頼性の高い地域の違いを。それらの特定のページからのリンクも非常に有益です。


これは良い点です。...「精度」の一般的な解釈に最も近いのは、RMSエラーに似ていると思います。偏りのない非常に可変的な推定値は、低可変性であるが高度にバイアスされた推定値よりも良くないと見なされます...両方とも、真の値に近い推定値を提供することはできません。

+1ですが、「常識」に関する悲観的な見方を共有するかどうかはわかりません。頻繁な統計の「常識」に関するジェフリーズからの素晴らしい引用がありますI have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
アメーバは、モニカを復活させる

@amoebaは、「確率論は計算に還元された常識に過ぎない」というラプラスの主張を考慮します。それ以降、確率論に注がれた努力は、少なくとも常識の意味合いが必ずしもすぐに明らかではないことを示しています。
-EdM

@amoeba:フィッシャーはCIを拒否し、フィッシャーを周波数主義者として特定しました。誤解を招く。彼の間隔の論理(基準)はobjに似ていました。ベイズ、そして彼は合理的な不確実性で確率を特定します。彼はこう言います。「基準法は一般に[CI]の方法と同じ結果をもたらすと主張されることがあります。間隔は、実世界のパラメーターに関する確率ステートメントにつながりませんが、基準の議論はこの目的のために存在します。」(フィッシャー、1959年)
richarddmorey

@リチャード、説明してくれてありがとう。フィッシャーは彼の長いキャリアを通じて矛盾したことを言っており、彼の意見を数回変えたことが知られています。私は彼の基準理論にあまり詳しくないので、それについてコメントすることはできません。私の無意識の仮定は、その引用のジェフリーズがフィッシャーの「頻繁な期間」に言及しているということでしたが、その証拠はありません。私の(限られた!)経験では、誰も基準推論を使用しません。誰も。今まで。頻繁に使用されるテクニックは常に使用され、多くはフィッシャーに戻ります。したがって、私の心に存在する関連付け。
アメーバは、モニカーを復活させる

1

@Beyが持っています。スコアとパフォーマンス、価格と品質、匂いと味の間には必要な関係はありません。しかし、一方は通常、他方について通知します。

誘導によって、クイズを出せないことを証明できます。綿密な調査では、これはクイズが驚きであることを保証できないことを意味します。しかし、ほとんどの場合はそうなります。

Morey et alが示すように、幅に情報がない場合が存在するようです。「推定の精度と信頼区間のサイズとの間に必要な関係はない」と主張するには十分ですが、CIには一般に精度に関する情報が含まれないと結論付けるだけでは不十分です。単にそうすることを保証されていないというだけです。

(+ @Beyの回答への不十分なポイント。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.