次の用語に違いはありますか、または同じですか?
- バイアス
- 体系的なバイアス
- 系統的エラー
その際、違いがある場合は説明してください。サンプルサイズを大きくすると、これらのエラーを減らすことができますか?
更新: 私の関心分野は統計的推論です。これらの用語を統計学者としてどのように区別するかということです。
次の用語に違いはありますか、または同じですか?
その際、違いがある場合は説明してください。サンプルサイズを大きくすると、これらのエラーを減らすことができますか?
更新: 私の関心分野は統計的推論です。これらの用語を統計学者としてどのように区別するかということです。
回答:
「バイアス」という用語は、統計に関する基本的な文献では2つの方法で使用されます。
"... バイアス 、系統誤差とも呼ばれる..." [EL Lehmann、Theory of Point Estimation、 1983。は古典的なテキストです。]標準のリーマン表記では、は、分布がパラメーターで与えられたときの期待値、は推定量、は観測値、は、推定される分布(推定量)のプロパティです。言い換えると、観測値(またはそのシーケンス)は確率変数であり、推定がランダムになり、バイアスが推定値と推定値の間の予想される偏差です。これは、(未知であるが、真の)分布に依存それ作り、機能真の分布の。レーマンは章全体を偏りのない推定量に専念しています:値に関係なくバイアスがゼロの推定量。
測定理論では、「バイアス」(または「系統的誤差」)は、測定の期待値と真の基礎となる値の差です。バイアスは、たとえば、キャリブレーションエラーまたは機器のドリフトから生じる可能性があります。この使用法を前の使用法と比較してください。ここでは、バイアスは測定のプロパティであり、物理的なプロセスですが、以前は統計的推定量(データから推測するために数学的に定義された手順)のプロパティでした。
「系統的バイアス」は、バイアスをランダムな「エラー」と区別する場合にのみ使用されるようです。「エラー」という用語は、主に期待値がゼロのランダムな用語に使用される傾向があります。
多くの場合、最初の意味でのバイアスは、データ量が増加するにつれて減少します。実際には、多くのバイアス推定量は、より多くのデータでますますバイアスされます(ただし、バイアスの概念は非常に広いため、これは理論的に保証されていません)。良い例は、独立した分布からを利用できる場合の分布の分散の最尤推定量です。MLエスティメータは
ため。これが偏っていることはよく知られています。推定量は公平です。すると、、は漸近的に不偏になります。
ただし、測定コンテキストのバイアス(第2の意味)は、通常、より多くの測定を行うことで軽減できません。バイアスは、測定手順自体に固有のものです。測定手順を校正するか、またはバイアスがない(または少ない)ことがわかっている他の手順と比較し、バイアスを推定し、それを補正することにより、バイアスを推定して減らす必要があります。
統計的推論に使用されるこの用語の簡単な説明は、すでに投稿された拡張されたより専門的な返信に取って代わるものではありません。代わりに、それらを紹介し、「3つすべての[用語]は「体系的なエラー」と同等である」などの限られた状況で行われる普遍的な一般化に注意を払う軽度の警告として機能することを意図しています。私が引用した2つの定義は同等ではないため、狭い意味でのみです。他の回答を読むと、疫学などの専門分野の文献が「バイアス」などのよく知られた標準的な統計用語を予期しない方法で使用している可能性があることを警告しました。最終的には、
疫学調査で何かを学んだとしたら、これは地雷原であり、真の正誤はありません。疫学はより意見であるが、それは少なくとも数学の基礎を持っているので、私は統計が好きです。それで私はあなたの質問に答えようとするつもりです。
M.ポルタから疫学辞書第5版。系統的バイアスについての言及はなく、系統的エラーは「バイアスを参照」と述べています。これは次のようなバイアスを残します。「結果の体系的な偏差または真実からの推論。…真実とは系統的に(ランダムにではなく)異なる結果または結論につながる。」それらはすべてあなたの結果を真のリスク推定値から逸脱させるので、非体系的なバイアスは存在しないと思います。バイアスについて最も重要なことは、サンプルサイズを増やしてもバイアスを減らすことができないことです。
バイアスには多くの種類がありますが、バイアスに関するオリジナルの記事の1つには300を超える種類のバイアスが含まれていると聞きました。重要なことは、研究を始める前にそれらを特定し、偏見を避けるために研究/実験を設定することです。疫学研究では、バイアスを3つのカテゴリーに分けることが非常に役立ちます:
選択バイアスとは、研究に不適切なタイプの個人を選択する場合です。炭鉱で働くことがリスクであるかどうかに興味があるとしましょう–炭鉱で研究者を探すと、彼らが一般住民よりも健康であることがわかるかもしれません。病気の人は炭鉱で働いていません。つまり、最も健康な個人を選択し、発生源の集団を調査するのではなく、サブサンプルを調査します。選択バイアスは、特定が非常に難しいため、通常、最も悪性のタイプのバイアスです。
情報の偏りは、結果または露出に関するデータ収集に欠陥がある場合です。よくある間違いは、患者さんに手術後の方がいいかどうかを尋ねる外科医です。ここで、患者はどちらも、外科医を失望させたくない場合もあれば、そうでない場合よりも良い結果を報告した場合もあれば、外科医が手術が失敗したことを認めたくない場合もあります。
情報バイアスは観測バイアスとも呼ばれます。連続変数のエラーの場合は、分類の設定で誤った分類のバイアスがあり、測定エラーです。誤分類とは、研究者が誤ったカテゴリに分類される可能性があることを意味します。たまたま、または偏見を報告することによって、喫煙者が非喫煙者として誤分類される可能性があります。誤って分類されたのは偶然だったとしても(差異のない誤分類)、特にカテゴリが少ない場合は、体系的にリスクを過小評価する傾向があります。Jurekらによる優れた研究ですが。2005年は、1つの調査に基づいてこの仮定を慎重に行う必要があることを示しました。あなたの質問に関して、私はこれが系統的バイアスが関連する「非系統的バイアス」であると想像するかもしれません。
交絡は、曝露と結果の両方に関連する要因であり、研究者と密接に関連しています。例えば、ランベら。2006年は、妊娠中の喫煙が学校の成績低下のリスクを高めることを示しましたが、母親が2回目の妊娠中に喫煙をやめたサブポピュレーションの兄弟を見ると、学校の成績も同様に悪かったです。これは、喫煙が悪い学校成績の原因ではなく、おそらく他の社会的要因の交絡因子であることを示唆しています。
この記事はSica et al。2006年はより詳細に入る。あなたが準備しなければならないのは、用語の分野でコンセンサスが本当に不足しているということです。私の夢は、いつの日かWHOが理解しやすい定義のリストを作成し、直感的に理解でき、最終的に議論が終わる可能性があることです。
用語はフィールドごとに異なる場合があります。ただし、以下のコメントで定義されている用語を使用します。
次の用語に違いはありますか、または同じですか?
いいえ、3つすべては「系統的エラー」と同等です。
サンプルサイズを大きくすると、これらのエラーを減らすことができますか?
いいえ、サンプルサイズを大きくすると、系統的エラーではなく、ランダムエラーが減少します。
コメント
これらの用語は、疫学の分野、具体的にはRothmanと同僚によるModern Epidemiologyの第9章と第10章でのエラーの議論から取られています。
要約する:
調査員の目標は、母集団内のいくつかの測定値(平均、相対リスク、ハザード比など)の正確な推定値を提供することです。正確な見積もりは、有効かつ正確な見積もりです。有効な推定値には、母集団の真の値に近い点推定値(平均、相対リスク、ハザード比など)があります。正確な推定では、ポイント推定の周囲の信頼レベルが狭くなります。さらに、推定値は、研究母集団に対して相対的に内部的に有効であり、一般化母集団に対して相対的に外部的に有効である可能性があります。
精度からの逸脱はエラーによって引き起こされます。エラーには、システムエラーとランダムエラーの2つの主なタイプがあります。
バイアスと呼ばれることが多いシステムエラーにより、推定値が無効になります。系統的エラーには、交絡、選択バイアス、情報バイアスによるエラーが含まれます。交絡は通常、層別化や回帰などの手法で修正できます。選択と情報のバイアスは、おそらく適切なバイアス分析に慣れていないため、分析で無視されるか、または定性的にのみ評価されてきました。ただし、定量バイアス分析の方法論は存在します(Lash TLおよびAK Fink(2003)など)。
ランダムなエラーは正確ではない見積もりをもたらします。ランダム誤差には、とりわけ、サンプリング誤差とランダム測定誤差が含まれます。精度を上げる方法には、研究サイズの拡大、研究効率の向上、プーリングや回帰などの統計分析の精度最適化が含まれます。
更新
サンプルサイズを増やしても、ダーツボードの類推(このCV投稿からコピーされたもの)の系統誤差が減少しない理由を説明するには:
ボードにダーツがいくつ投げられても、「高いバイアス」がある場合、ポイントの見積もりは真のブルズアイにシフトしません。ここで、「バイアス」は「系統誤差」と同等であり、「分散」は「ランダム誤差」と同等です。