変数をカウントデータとしてスケーリング-正しいかどうか?


10

この論文(PubMedの中心を介して自由に入手可能)、著者らは、0-40を獲得10項目スクリーニング機器でスコアをモデル化するために負の二項回帰を使用します。この手順ではカウントデータを想定していますが、ここでは明らかにそうではありません。私の仕事では同じ楽器や類似の楽器を使用することがあるので、このアプローチが受け入れられるかどうかについてあなたの意見をお願いします。そうでない場合は、許容できる代替案があるかどうか知りたいのですが。以下の詳細:

使用されている尺度は、アルコール使用障害の識別テスト(AUDIT)です。これは、アルコール使用障害と危険/有害な飲酒のスクリーニング装置として設計された10項目のアンケートです。楽器のスコアは0〜40で、結果は通常、左に大きく歪んでいます。

私の理解では、カウントデータの使用は、「カウント」されるすべての値が互いに独立していることを前提としています-毎日緊急病棟に来る患者、特定のグループの死亡者数など-それらはすべて互いに独立しています。基礎となる変数に依存していますが。さらに、カウントデータを使用する場合、最大許容カウントはあり得ないと思いますが、データの観測最大値と比較して理論最大値が非常に高い場合、この仮定は緩和できると思いますか?

AUDITスケールを使用する場合、真のカウントはありません。合計スコアが最大40のアイテムが10個ありますが、実際にはその高いスコアはめったに見られません。アイテムのスコアは自然に相互に関連付けられます。

したがって、カウントデータを使用するために必要な前提条件に違反しています。しかし、これはまだ許容できるアプローチですか?仮定の違反はどのくらい深刻ですか?このアプローチがより受け入れられると考えられる特定の状況はありますか?スケール変数をカテゴリに減らすことを含まない、このアプローチの代替手段はありますか?

回答:


4

AUDIT計測器は、本質的にリッカート尺度です。一連の質問(リカートの項目)は、多くの場合5ポイントのスケールで回答され、いくつかの根本的な現象を理解するように設計されています。次に、一連の質問に対する回答の合計、リッカート尺度が、根本的な現象の尺度として使用されます。リッカート項目は、「傾向を測定するためのアプリケーション「強く同意」に「強く反対する」の規模であることが多いが、lcohol U SE Dは、この」でisorders「I dentification Tの EST」は簡単ですが。

リッカートスケールウィキペディアのページに記載されているように、「個々のリッカートアイテムを間隔レベルのデータと見なすことができるかどうか、またはそれらが順序付けられたカテゴリデータとして扱われるべきかどうかは、文献でかなりの不信感を抱いています。最も適切な方法です。」この論争は、リッカートが最初にスケールを提案して以来、80年以上の大部分に遡ります。スケールに沿った各ステップは、スケールを構成する項目内および項目間で同等ですか?この質問は、このサイトで最初に尋ねられた質問の1つであるこの質問への回答と同様に、相互検証で対処されています。

スケールのステップが均一である(または、AUDITのように、おそらく10の異なるアイテムを追加することにより平均化された、アプリケーションにとって均一になるのに十分近い)ステップがあるという考えを受け入れる場合、分析へのいくつかのアプローチが可能です。1つは、スケール上の応答を、スケールを上げるために選択された、または選択されなかった一連のステップと見なすことです。各ステップを上に移動する確率は同じです。

これにより、@ MikeLawrenceからの2010年の質問のように、「n点リッカート尺度データを2項プロセスからのn回の試行」と考えることができます。その質問への回答はそのアイデアをひどく支持するものではありませんでしたが、このアプローチを使用して拡張し、さまざまな二項確率を持つ部分母集団を区別する2014年の研究を今日すぐに見つけることは難しくありませんでした。二項プロセスはカウントデータのモデル化によく使用されますが、個人が「アルコール使用障害」のスケールに沿ってとった歩数、カウントをモデル化するために使用できます。

@Scortchi が2番目の段落でリンクされた質問への回答で述べたように、二項モデルの制限は、応答の平均と分散の間に特定の関係を課すことです。負の二項、単純な二項モデルにより提供される簡単な解釈の損失による制限、削除します。分析では、フィットする必要がある追加のパラメーターは、1つの追加の自由度だけを使用します。対照的に、40のリッカートアイテムステップごとに異なる確率を指定し、それらの合計をリッカートスケールに指定しようとするのは困難です。

@MatthewGravesがこの質問に対する彼の回答で述べたように、負の二項モデルが適切であるかどうかは、残差を調べることによって最もよく答えられます。AUDITを開発した最初の調査では、40点スケールで8以上の値は、6か国にわたって「危険または有害なアルコールの使用」と診断されたものを区別するためのかなり合理的な特異性と感度を備えていました。したがって、おそらく、上記のリンクされた2014年の研究と同様に、ハイリスクとローリスクの母集団に基づく2母集団二項モデルの方が優れているでしょう。

AUDITに関心のある方は、具体的にはその元の調査を調べてください。たとえば、@ SeanEasterが推測したように、朝の飲み物の必要性は飲酒の頻度とはまったく異なるものを測定するように見えるかもしれませんが、朝の飲酒はアルコール摂取量の尺度と0.73の加重平均相関があります。(この結果は、アルコール依存症の友人がいる人にとっても驚くべきことではありません。)AUDITは、複数の文化で確実に使用できる機器を開発するために必要なトレードオフの良い例のようです。


良い答えをありがとう。20000を超える個人の私自身のAUDITデータを見ると、形状は負の二項分布に近いように見えるので、その分布の仮定を使用するのが妥当かもしれません。40のベルヌーイ試行のうちk回の成功としてポイントを考慮して二項分布を使用する場合、過剰分散に関して深刻な問題は発生しませんか?私のデータではそのように見えます。疑似二項式が代替になるだろうか?
JonB、2015年

0-40 AUDITスコアをモデル化している理由と、結果にどのヒューリスティック解釈を適用するかによって、多くの点が異なります。必要なのは、AUDITスコアと他の変数との関係だけで、分布パラメーター値自体の解釈が限られている場合は、正常に動作する残差を提供する分布を使用します。あなたの提案は合理的です。単一の二項式をデータに当てはめることは問題がありますが、pが異なる2つの二項式(リスクの高いグループとリスクの低いグループ)の混合は有益かもしれません。主題に関する知識に基づいて判断してください。
EdM、2015年

2

負の二項分布は、「伝染性」の個別イベントのために好ましいです。ポアソン分布は離散的なイベントは独立している場合に使用されます。これらの分布は、基本的にポイントをポイントに置き換えることで、切り捨てもかなり簡単です。バツ=40バツ40

一般的なコメントとして、回帰の異なるフレーバーは、パラメーター(つまり、正則化)と異なるノイズモデルの優先度が異なります。標準の最小二乗回帰にはガウスノイズモデルがあり、負の二項回帰には負の二項ノイズモデルがあります。回帰モデルが適切であるかどうかの真のテストは、残留ノイズに期待される分布があるかどうかです。

したがって、データに負の二項回帰を適用し、残差を計算してから、それらを負の二項確率プロットにプロットして、モデルが適切であるかどうかを知ることができます。ノイズが他の方法で構造化されている場合は、その構造により近いノイズモデルを探す必要があります。

生成モデルからノイズ構造への推論は役に立ちます-たとえば、データが加法性ではなく乗法性であることがわかっている場合、たとえば、正規ではなく対数正規に到達した場合-予想される生成モデルとノイズ構造が一致しない場合、期待ではなく、データを使用してください。


興味深いことに、このイベントが「伝染」する可能性があることを知りませんでした。実際には、x = 40をx> = 40に置き換えるとはどういう意味ですか?Rで負の二項確率プロットを行うにはどうすればよいですか?近似値に対して残差をプロットするつもりはないのでしょうか。QQプロットが好きですか?
JonB

@JonB r = 1で成功確率p = .9の負の二項式があるとします。40回の試験を生き残る確率は正確に0.148%です。40回以上の試験を生き残る確率は1.48%です。したがって、[0,39]に負の二項を使用し、[40]を1に合計するように設定することで、ドメイン[0,40]で整形式の確率を定義できます。これは、負の二項分布が形成されるのは40以上の確率です。
マシューグレイブス

@JonBまさに、QQプロットのようなものです。私は以前Rでこれを行ったことがありませんが、このリンクが役立つことを願っています。
マシューグレイブス

1
AUDITスコアのあるデータで実験を行いました。qqプロットを作成するとき、負の二項分布から結果のランダムなベクトルを作成する必要があります。mu / thetaは私の回帰モデルによって与えられますが、どの "サイズ"を使用するかをどのようにして知ることができますか?これがR固有の質問である場合は申し訳ありません。とにかく、種類を測定するいくつかの項目を合計することによって構築されたこれらの種類のスケールに負の二項(および他の分布)を適用する方法について詳しく読むことができる参考資料Iがあります。同じプロセスの?
JonB

私は今、いくつかの追加の実験をしました。xとyの2つの変数を使用してデータセットをシミュレートしました。50%はx = 0、50%はx = 1です。x = 0の人はy = 1の確率が0.2で、x = 1の人はy = 1の確率が0.4です。次に、ロジスティック回帰を実行して、残差を調べました。二項分布されているようには見えません。実際、それらは(もちろん)4つの特定の値を取ります。残差パターンが常に分布の仮定に一致する必要があると確信していますか?この場合、それは明らかに間違っています。
JonB、2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.