バイアス、系統的バイアス、系統的誤差の違いは?


9

次の用語に違いはありますか、または同じですか?

  1. バイアス
  2. 体系的なバイアス
  3. 系統的エラー

その際、違いがある場合は説明してください。サンプルサイズを大きくすると、これらのエラーを減らすことができますか?

更新: 私の関心分野は統計的推論です。これらの用語を統計学者としてどのように区別するかということです。


1
興味のある研究分野を示すと便利です。たとえば、「バイアス」には統計分析とは異なる特別な意味があることはすでに提供されている回答から明らかです(推定の理論では、バイアスは推定量の期待値とその推定値の差)。あなたの質問は今、返信が現在そのフィールドから来るので、「疫学」のタグが付けられ、それかもしれないかは、あなたが本当に興味を持っているものにならない可能性があります。
whuberを

1
私が理解しているように、統計学におけるバイアスはestimatorとestimandの違いです。疫学では、バイアスは estimatorとestimandの間のランダムでない違いです。生物統計学の文脈で「バイアス」や「システマティックエラー」などの用語を見るとき、疫学の解釈を考える傾向があります。しかし、再び、疫学の学生として、私は偏っています。サンダーグリーンランドのスライドのこのセットは、両方の概念に触れていますが、疫学に焦点を当てています。
jthetzel

回答:


13

「バイアス」という用語は、統計に関する基本的な文献では2つの方法で使用されます。

  1. "... バイアス 、系統誤差とも呼ばれる..." [EL Lehmann、Theory of Point Estimation、 1983。は古典的なテキストです。]標準のリーマン表記では、は、分布がパラメーターで与えられたときの期待値、は推定量、は観測値、は、推定される分布(推定量)のプロパティです。言い換えると、観測値(またはそのシーケンス)は確率変数であり、推定がランダムになり、バイアスがEθ[δ(X)]g(θ)EθθδXg(θ)推定値と推定値の間の予想される偏差です。これは、(未知であるが、真の)分布に依存それ作り、機能真の分布の。レーマンは章全体を偏りのない推定量に専念しています:値に関係なくバイアスがゼロの推定量。θθ

  2. 測定理論では、「バイアス」(または「系統的誤差」)は、測定の期待値と真の基礎となる値の差です。バイアスは、たとえば、キャリブレーションエラーまたは機器のドリフトから生じる可能性があります。この使用法を前の使用法と比較してください。ここでは、バイアスは測定のプロパティであり、物理的なプロセスですが、以前は統計的推定量(データから推測するために数学的に定義された手順)のプロパティでした。

「系統的バイアス」は、バイアスをランダムな「エラー」と区別する場合にのみ使用されるようです。「エラー」という用語は、主に期待値がゼロのランダムな用語に使用される傾向があります。

多くの場合、最初の意味でのバイアスは、データ量が増加するにつれて減少します。実際には、多くのバイアス推定量は、より多くのデータでますますバイアスされます(ただし、バイアスの概念は非常に広いため、これは理論的に保証されていません)。良い例は、独立した分布からを利用できる場合の分布の分散の最尤推定量です。MLエスティメータはnxi

v^=1ni=1n(xix¯)2,

ため。これが偏っていることはよく知られています。推定量は公平です。すると、、は漸近的に不偏になります。x¯=1ni=1nxinn1v^nv^nn1v^

ただし、測定コンテキストのバイアス(第2の意味)は、通常、より多くの測定を行うことで軽減できません。バイアスは、測定手順自体に固有のものです。測定手順を校正するか、またはバイアスがない(または少ない)ことがわかっている他の手順と比較し、バイアスを推定し、それを補正することにより、バイアスを推定して減らす必要があります。

統計的推論に使用されるこの用語の簡単な説明は、すでに投稿された拡張されたより専門的な返信に取って代わるものではありません。代わりに、それらを紹介し、「3つすべての[用語]は「体系的なエラー」と同等である」などの限られた状況で行われる普遍的な一般化に注意を払う軽度の警告として機能することを意図しています。私が引用した2つの定義は同等ではないため、狭い意味でのみです。他の回答を読むと、疫学などの専門分野の文献が「バイアス」などのよく知られた標準的な統計用語を予期しない方法で使用している可能性があることを警告しました。最終的には、


1
興味深い投稿ありがとうございます。多くの疫学者が統計学者から用語を「借りて」、それらを彼らの設定に適応させ、そして...健全な基盤の欠如のためにそれはやや混乱になっていると思います
Max Gordon

@Max Gordon:whuberは素晴らしい答えを提供します。おそらく、他の分野は数学統計から無計画に用語を借りていませんが、その分野の目的に合うように用語を定義しています。いずれにせよ、特に学際的な共同作業が普及していることを考えると、統計学者、疫学者、その他の人は、これらの微妙だが重要な用語の違いに注意することが役立ちます。
jthetzel

素晴らしい答えを+1します!非常に明確ですが、それでも厳密で簡潔です。
gung-モニカの復活

@jthtzel、数学的統計はいくつかの意味を持つものとして解釈される必要はありません。これは、アプリケーション主導の科学であり、測定(統計)および真理(数学)に関連する問題を処理することを意味します。現在のところ、文献では測定誤差はランダムに振る舞うため、統計(平均と分散)は影響を受けないことが示唆されています。また、平均値の場合、いわゆる一定のバイアスにより、真の推定値よりも上または下になる可能性があります。ただし、差異とSDは影響を受けません。
Subhash C. Davar 2013年

4

疫学調査で何かを学んだとしたら、これは地雷原であり、真の正誤はありません。疫学はより意見であるが、それは少なくとも数学の基礎を持っているので、私は統計が好きです。それで私はあなたの質問に答えようとするつもりです。

M.ポルタから疫学辞書第5版。系統的バイアスについての言及はなく、系統的エラーは「バイアスを参照」と述べています。これは次のようなバイアスを残します。「結果の体系的な偏差または真実からの推論。…真実とは系統的に(ランダムにではなく)異なる結果または結論につながる。」それらはすべてあなたの結果を真のリスク推定値から逸脱させるので、非体系的なバイアスは存在しないと思います。バイアスについて最も重要なことは、サンプルサイズを増やしバイアスを減らすことができないことです。

バイアスには多くの種類がありますが、バイアスに関するオリジナルの記事の1つには300を超える種類のバイアスが含まれていると聞きました。重要なことは、研究を始める前にそれらを特定し、偏見を避けるために研究/実験を設定することです。疫学研究では、バイアスを3つのカテゴリーに分けることが非常に役立ちます:

  • 選択バイアス
  • 情報バイアス
  • 交絡

選択バイアスとは、研究に不適切なタイプの個人を選択する場合です。炭鉱で働くことがリスクであるかどうかに興味があるとしましょう–炭鉱で研究者を探すと、彼らが一般住民よりも健康であることがわかるかもしれません。病気の人は炭鉱で働いていません。つまり、最も健康な個人を選択し、発生源の集団を調査するのではなく、サブサンプルを調査します。選択バイアスは、特定が非常に難しいため、通常、最も悪性のタイプのバイアスです。

情報の偏りは、結果または露出に関するデータ収集に欠陥がある場合です。よくある間違いは、患者さんに手術後の方がいいかどうかを尋ねる外科医です。ここで、患者はどちらも、外科医を失望させたくない場合もあれば、そうでない場合よりも良い結果を報告した場合もあれば、外科医が手術が失敗したことを認めたくない場合もあります。

情報バイアスは観測バイアスとも呼ばれます。連続変数のエラーの場合は、分類の設定で誤った分類のバイアスがあり、測定エラーです。誤分類とは、研究者が誤ったカテゴリに分類される可能性があることを意味します。たまたま、または偏見を報告することによって、喫煙者が非喫煙者として誤分類される可能性があります。誤って分類されたのは偶然だったとしても(差異のない誤分類)、特にカテゴリが少ない場合は、体系的にリスクを過小評価する傾向があります。Jurekらによる優れた研究ですが。2005年は、1つの調査に基づいてこの仮定を慎重に行う必要があることを示しました。あなたの質問に関して、私はこれが系統的バイアスが関連する「非系統的バイアス」であると想像するかもしれません。

交絡は、曝露と結果の両方に関連する要因であり、研究者と密接に関連しています。例えば、ランベら。2006年は、妊娠中の喫煙が学校の成績低下のリスクを高めることを示しましたが、母親が2回目の妊娠中に喫煙をやめたサブポピュレーションの兄弟を見ると、学校の成績も同様に悪かったです。これは、喫煙が悪い学校成績の原因ではなく、おそらく他の社会的要因の交絡因子であることを示唆しています。

この記事はSica et al。2006年はより詳細に入る。あなたが準備しなければならないのは、用語の分野でコンセンサスが本当に不足しているということです。私の夢は、いつの日かWHOが理解しやすい定義のリストを作成し、直感的に理解でき、最終的に議論が終わる可能性があることです。


そのバイアスが決して減らないと言うなら、この定義をどのように正当化しますか?「漸近的不偏推定量は、サンプルサイズが無限大になる傾向があるため、不偏推定量です。」
バイオスタット

@jthetzelに同意します。あなたの質問をよく理解しているとは思いません。偏りのない見積もりとは、バイアスがなく、サンプルサイズに依存し、傾けて統計を機能させることができる見積もりです(そして、はい、常に何らかのタイプのバイアスがある場合は、実際には決して発生しません) )。私はそれを単純に保つようにします:バイアスは常に系統的なエラーですが、私が言ったように-この問題に関する多くの本があり、残念ながら多くは統計をほとんど理解していない人々によって書かれています。疫学者に効果の修正について尋ねてください-多く(ほとんど?)は一種の魔法と考えています...
Max Gordon

4

用語はフィールドごとに異なる場合があります。ただし、以下のコメントで定義されている用語を使用します。

次の用語に違いはありますか、または同じですか?

いいえ、3つすべては「系統的エラー」と同等です。

サンプルサイズを大きくすると、これらのエラーを減らすことができますか?

いいえ、サンプルサイズを大きくすると、系統的エラーではなく、ランダムエラーが減少します。

コメント

これらの用語は、疫学の分野、具体的にはRothmanと同僚によるModern Epidemiologyの第9章と第10章でのエラーの議論から取られています。

要約する:

調査員の目標は、母集団内のいくつかの測定値(平均、相対リスク、ハザード比など)の正確な推定値を提供することです。正確な見積もりは、有効かつ正確な見積もりです。有効な推定値には、母集団の真の値に近い点推定値(平均、相対リスク、ハザード比など)があります。正確な推定では、ポイント推定の周囲の信頼レベルが狭くなります。さらに、推定値は、研究母集団に対して相対的に内部的に有効であり、一般化母集団に対して相対的に外部的に有効である可能性があります。

精度からの逸脱はエラーによって引き起こされます。エラーには、システムエラーとランダムエラーの2つの主なタイプがあります。

バイアスと呼ばれることが多いシステムエラーにより、推定値が無効になります。系統的エラーには、交絡、選択バイアス、情報バイアスによるエラーが含まれます。交絡は通常、層別化や回帰などの手法で修正できます。選択と情報のバイアスは、おそらく適切なバイアス分析に慣れていないため、分析で無視されるか、または定性的にのみ評価されてきました。ただし、定量バイアス分析の方法論は存在します(Lash TLおよびAK Fink(2003)など)。

ランダムなエラーは正確ではない見積もりをもたらします。ランダム誤差には、とりわけ、サンプリング誤差とランダム測定誤差が含まれます。精度を上げる方法には、研究サイズの拡大、研究効率の向上、プーリングや回帰などの統計分析の精度最適化が含まれます。

更新

サンプルサイズを増やしても、ダーツボードの類推(このCV投稿からコピーされたもの)の系統誤差が減少しない理由を説明するには:

ダーツボードの例え

ボードにダーツがいくつ投げられても、「高いバイアス」がある場合、ポイントの見積もりは真のブルズアイにシフトしません。ここで、「バイアス」は「系統誤差」と同等であり、「分散」は「ランダム誤差」と同等です。


そのバイアスが決して減らないと言うなら、この定義をどのように正当化しますか?「漸近的不偏推定量は、サンプルサイズが無限大になる傾向があるため、不偏推定量です。」
バイオスタット

@biostat:不偏推定量には系統的エラーは含まれていませんが、ランダムエラーが含まれている可能性があります。したがって、サンプルサイズが増加すると、分散が減少し、推定器は母集団のパラメーターの真の値に収束します。バイアスのある推定量には系統誤差が含まれ、母集団のパラメーターの真の値に収束しません(推定量の複数のバイアスがたまたま相殺されない限り)。
jthetzel

@biostat:おそらくそれについて考える別の方法:1)漸近的にバイアスされた推定量の確率分布には、他の値の中でも特に、小さいサンプルサイズでの真の値が含まれる可能性がありますが、サンプルサイズが無限大になる傾向があるため、真の値以外の値に収束します。2)漸近的に偏りのない推定量の確率分布には、他の値の中でもとりわけ、小さいサンプルサイズでの真の値が含まれますが、サンプルサイズが無限大になる傾向があるため、真の値に収束します。
jthetzel

次に、バイアスと系統誤差は同じではありませんか?ここでのバイアスはあなたが言ったようにランダムなエラーを持つことができるので どう思いますか?
バイオスタット

@biostat:上記のように、用語はフィールドごとに異なる場合があります。バイアスを系統誤差と定義しました。バイアスをエラーとして定義しているようです。疫学では、バイアスは系統的エラーであり、少なくともロスマンの標準的な教科書の用語に従う人にとってはそうです。おそらく、元の質問にコンテキストを追加して、適切な方向に応答を導くことができます。
jthetzel

1

これらのパワーポイントの抜粋には、jthetzelとMax Gordonが提供した内容を補足する情報が含まれています。それらは調査データを指向しており、厳密でも形式的でもありませんが、そのような回答が必要な場合は、測定理論や調査方法に関するテキストを参照することになるでしょう。


2
その間、グリーンランドのスライドの別のセットを次に示します。
jthetzel
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.