Yが有界で離散的である場合の線形回帰


13

質問は簡単です:Yが有界で離散的である場合に線形回帰を使用することは適切ですか(たとえば、テストスコア1〜100、事前定義されたランク1〜17)この場合、線形回帰を使用することは「良くない」のでしょうか、それともそれを使用するのはまったく間違っていますか?

回答:


9

応答または結果が制限されている場合、次のようなさまざまな質問がモデルのフィッティングで発生します。 Y

  1. これらの範囲外の応答の値を予測できるモデルは、原則として疑わしいものです。したがって、自体が一方向または両方向で無制限である場合は常に、予測子と係数境界がないため、線形モデルは問題になる可能性があります。ただし、この関係がこれにかからないほど十分に弱い場合や、予測値が予測値の観測範囲またはもっともらしい範囲の境界内にとどまる可能性があります。極端な場合、応答が平均値ノイズである場合、どのモデルに適合するかはほとんど問題になりません。Y^=XbXbX+

  2. 応答はその範囲を超えることができないため、非線形の関係は、予測された応答が漸近的に範囲に近づくように尾を引いて、よりもっともらしくなります。シグモイド曲線またはロジットモデルやプロビットモデルで予測されたものなどの表面は、この点で魅力的であり、フィッティングが難しくなりません。リテラシー(または新しいアイデアを採用した割合)などの応答は、多くの場合、そのようなシグモイド曲線を時間とともに示し、他のほとんどすべての予測子でもっともらしくなります。

  3. 制限付き応答は、プレーンまたはバニラ回帰で期待される分散プロパティを持つことができません。必然的に平均応答が下限と上限に近づくと、分散は常にゼロに近づきます。

モデルは、何が機能し、基になる生成プロセスの知識に従って選択される必要があります。クライアントまたは聴衆が特定のモデルファミリについて知っているかどうかも、実践の指針となる場合があります。

良い/良くない、適切/適切でない、正しい/間違っているなどの包括的な判断を意図的に避けていることに注意してください。すべてのモデルはせいぜい近似であり、どの近似が魅力的であるか、またはプロジェクトに十分適しているかは、予測するのがそれほど容易ではありません。私は通常、制限付き応答の最初の選択肢としてロジットモデルを好みますが、その好みさえ部分的には習慣に基づいています(たとえば、あまり理由がないので、プロビットモデルを避けます)、一部は結果をどこに報告するかに基づいています。統計的に十分な情報が必要です。

離散スケールの例は、スコア1-100(私がマークした割り当てでは、0は確かに可能です!)またはランク1-17です。このようなスケールでは、通常、[0、1]にスケーリングされた応答に連続モデルを当てはめることを考えます。ただし、このようなモデルをかなり多数の離散値を持つスケールにうまく適合させる、通常の回帰モデルの実践者がいます。気になったら返信してくれたら嬉しいです。


7

私は医療サービス研究に従事しています。身体機能や抑うつ症状など、患者から報告された結果を収集し、あなたが言及した形式でスコアが付けられます。

私が検討した文献の大部分は、線形モデル(またはデータが繰り返し観測されたものである場合は階層線形モデル)を使用しています。これは完全にもっともらしいモデルですが、(フラクショナル)ロジットモデルに対して@NickCoxの提案を使用する人はまだ見たことがありません。

項目応答理論は、適用する別のもっともらしい統計モデルとして私を襲います。これは、いくつかの潜在的な特性が、ロジスティックモデルまたは順序付きロジスティックモデルを使用して質問への応答を引き起こすと想定する場所です。これは本質的に、ニックが提起した境界性と非線形性の可能性の問題を処理します。θ

下のグラフは、私がこれから行う論文の研究に由来しています。これは、線形モデル(赤)を、Zスコアに変換された抑うつ症状の質問スコアと、同じ質問に対して青色の(説明用の)IRTモデルに当てはめる場所です。基本的に、両方のモデルの係数は同じスケール(つまり、標準偏差)です。実際、係数のサイズにはかなりの一致があります。ニックが言及したように、すべてのモデルは間違っています。しかし、線形モデルは使用するのにそれほど間違っているわけではありません。

ここに画像の説明を入力してください

(注:上記のモデルはmirt、RのPhil Chalmersのパッケージを使用してフィットしました。ggplot2およびを使用して作成されたグラフggthemes。配色は、Stataのデフォルトの配色から描画されます。)


6
線形モデルが広く使用されているからといって、それらが適切であるとは限りません。多くの人は線形モデルを使用します。それは、それが彼らが知っている、または快適なものに過ぎないからです。
qwr

1
医学文献は特に、「これがこの分野/ジャーナルが行うことです」というタイプの考え方によって広められた、貧弱な実践に満ちています。原則として、医学研究では一般的ではありますが、見た目のために使用したり、使用したりすることはありません。
LSC

1

予測値を見て、元のYとほぼ同じ分布かどうかを確認します。この場合、線形回帰はおそらく問題ありません。モデルを改善してもほとんどメリットはありません。


1

線形回帰はそのようなデータを「適切に」説明する可能性がありますが、そうではありません。線形回帰の多くの仮定は、このタイプのデータでは、線形回帰が不適切になる程度に違反する傾向があります。例としていくつかの仮定を選択します。

  1. 正規性-このようなデータの離散性を無視しても、分布は境界によって「遮断」されるため、そのようなデータは正規性の極端な違反を示す傾向があります。
  2. 等分散性-このタイプのデータは、等分散性に違反する傾向があります。エッジと比較して、実際の平均が範囲の中心に向かっている場合、分散は大きくなる傾向があります。
  3. 直線性-Yの範囲が制限されているため、仮定は自動的に破られます。

これらの仮定の違反は、データが範囲の中央付近にあり、エッジから離れる傾向がある場合に軽減されます。しかし、実際には、線形回帰はこの種のデータに最適なツールではありません。より良い代替案は、二項回帰またはポアソン回帰かもしれません。


2
ポアソン回帰が二重に制限された応答の候補であることを確認するのは困難です。
Nick Cox

0

応答が少数のカテゴリーのみを取る場合、応答変数が序数であれば、分類方法または序数回帰を使用できる場合があります。

単純な線形回帰では、離散カテゴリーも制限付き応答変数も得られません。後者は、ロジスティック回帰のようにロジットモデルを使用して修正できます。100のカテゴリ1〜100のテストスコアのような場合は、予測を簡略化し、制限付き応答変数を使用することもできます。


0

cdf(統計からの累積分布関数)を使用します。モデルがy = xb + eの場合は、y = cdf(xb + e)に変更します。従属変数のデータを0と1の間になるように再スケーリングする必要があります。それが正の数である場合は、それらを最大で割り、モデル予測を取り、同じ数で乗算します。次に、適合をチェックし、有界予測が物事を改善するかどうかを確認します。

おそらく、統計を処理するために、定型アルゴリズムを使用したいと思うでしょう。


1
これは、2つの事実を混同しているようです:(1)ロジット、プロビット、および同様のモデルを適用するには、制限付き応答を0と1の間でスケーリングする必要があります(2)cdfsも0と1の間で変化します。そのcdfをモデル化していません。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.