回答:
応答または結果が制限されている場合、次のようなさまざまな質問がモデルのフィッティングで発生します。
これらの範囲外の応答の値を予測できるモデルは、原則として疑わしいものです。したがって、自体が一方向または両方向で無制限である場合は常に、予測子と係数境界がないため、線形モデルは問題になる可能性があります。ただし、この関係がこれにかからないほど十分に弱い場合や、予測値が予測値の観測範囲またはもっともらしい範囲の境界内にとどまる可能性があります。極端な場合、応答が平均値ノイズである場合、どのモデルに適合するかはほとんど問題になりません。
応答はその範囲を超えることができないため、非線形の関係は、予測された応答が漸近的に範囲に近づくように尾を引いて、よりもっともらしくなります。シグモイド曲線またはロジットモデルやプロビットモデルで予測されたものなどの表面は、この点で魅力的であり、フィッティングが難しくなりません。リテラシー(または新しいアイデアを採用した割合)などの応答は、多くの場合、そのようなシグモイド曲線を時間とともに示し、他のほとんどすべての予測子でもっともらしくなります。
制限付き応答は、プレーンまたはバニラ回帰で期待される分散プロパティを持つことができません。必然的に平均応答が下限と上限に近づくと、分散は常にゼロに近づきます。
モデルは、何が機能し、基になる生成プロセスの知識に従って選択される必要があります。クライアントまたは聴衆が特定のモデルファミリについて知っているかどうかも、実践の指針となる場合があります。
良い/良くない、適切/適切でない、正しい/間違っているなどの包括的な判断を意図的に避けていることに注意してください。すべてのモデルはせいぜい近似であり、どの近似が魅力的であるか、またはプロジェクトに十分適しているかは、予測するのがそれほど容易ではありません。私は通常、制限付き応答の最初の選択肢としてロジットモデルを好みますが、その好みさえ部分的には習慣に基づいています(たとえば、あまり理由がないので、プロビットモデルを避けます)、一部は結果をどこに報告するかに基づいています。統計的に十分な情報が必要です。
離散スケールの例は、スコア1-100(私がマークした割り当てでは、0は確かに可能です!)またはランク1-17です。このようなスケールでは、通常、[0、1]にスケーリングされた応答に連続モデルを当てはめることを考えます。ただし、このようなモデルをかなり多数の離散値を持つスケールにうまく適合させる、通常の回帰モデルの実践者がいます。気になったら返信してくれたら嬉しいです。
私は医療サービス研究に従事しています。身体機能や抑うつ症状など、患者から報告された結果を収集し、あなたが言及した形式でスコアが付けられます。
私が検討した文献の大部分は、線形モデル(またはデータが繰り返し観測されたものである場合は階層線形モデル)を使用しています。これは完全にもっともらしいモデルですが、(フラクショナル)ロジットモデルに対して@NickCoxの提案を使用する人はまだ見たことがありません。
項目応答理論は、適用する別のもっともらしい統計モデルとして私を襲います。これは、いくつかの潜在的な特性が、ロジスティックモデルまたは順序付きロジスティックモデルを使用して質問への応答を引き起こすと想定する場所です。これは本質的に、ニックが提起した境界性と非線形性の可能性の問題を処理します。
下のグラフは、私がこれから行う論文の研究に由来しています。これは、線形モデル(赤)を、Zスコアに変換された抑うつ症状の質問スコアと、同じ質問に対して青色の(説明用の)IRTモデルに当てはめる場所です。基本的に、両方のモデルの係数は同じスケール(つまり、標準偏差)です。実際、係数のサイズにはかなりの一致があります。ニックが言及したように、すべてのモデルは間違っています。しかし、線形モデルは使用するのにそれほど間違っているわけではありません。
(注:上記のモデルはmirt
、RのPhil Chalmersのパッケージを使用してフィットしました。ggplot2
およびを使用して作成されたグラフggthemes
。配色は、Stataのデフォルトの配色から描画されます。)
線形回帰はそのようなデータを「適切に」説明する可能性がありますが、そうではありません。線形回帰の多くの仮定は、このタイプのデータでは、線形回帰が不適切になる程度に違反する傾向があります。例としていくつかの仮定を選択します。
これらの仮定の違反は、データが範囲の中央付近にあり、エッジから離れる傾向がある場合に軽減されます。しかし、実際には、線形回帰はこの種のデータに最適なツールではありません。より良い代替案は、二項回帰またはポアソン回帰かもしれません。
cdf(統計からの累積分布関数)を使用します。モデルがy = xb + eの場合は、y = cdf(xb + e)に変更します。従属変数のデータを0と1の間になるように再スケーリングする必要があります。それが正の数である場合は、それらを最大で割り、モデル予測を取り、同じ数で乗算します。次に、適合をチェックし、有界予測が物事を改善するかどうかを確認します。
おそらく、統計を処理するために、定型アルゴリズムを使用したいと思うでしょう。