ここで線形モデル係数についての明確化を求めた後、因子レベルの係数の重要でない(高いp値)に関するフォローアップの質問があります。
例:線形モデルに10レベルの因子が含まれ、それらのレベルのうち3つだけに有意なp値が関連付けられている場合、モデルを使用してYを予測するときに、被験者が次のいずれかに該当する場合、係数項を含めないことを選択できます非重要レベル?
さらに劇的に、7つの重要でないレベルを1つのレベルにまとめて再分析するのは間違っているでしょうか?
ここで線形モデル係数についての明確化を求めた後、因子レベルの係数の重要でない(高いp値)に関するフォローアップの質問があります。
例:線形モデルに10レベルの因子が含まれ、それらのレベルのうち3つだけに有意なp値が関連付けられている場合、モデルを使用してYを予測するときに、被験者が次のいずれかに該当する場合、係数項を含めないことを選択できます非重要レベル?
さらに劇的に、7つの重要でないレベルを1つのレベルにまとめて再分析するのは間違っているでしょうか?
回答:
複数のレベルを持つ予測変数を入れている場合、変数を入れるか入れないかのどちらかで、レベルを選択することはできません。レベルの数を減らすために予測変数のレベルを再構築することもできます(分析の文脈で意味がある場合)。ただし、これが何らかのタイプの統計的無効化を引き起こすかどうかはわかりませんレベルが重要ではないことがわかるので、レベルを折りたたみます。
@Ellieの応答は良いものです。
いくつかのレベルを持つ変数を入れている場合は、分析でそれらのレベルをすべて保持する必要があります。有意水準に基づいて選択すると、結果に偏りが生じ、推論に非常に奇妙なことが行われます。たとえ、何らかの奇跡によって推定値が同じままであっても、異なるレベルの推定効果に大きな穴があるためです。変数。
予測変数の各レベルの推定値をグラフィカルに検討することを検討します。レベルを上げるにつれて傾向が見られますか、それとも不安定ですか?
一般的に言えば、私は統計的テストに基づいて、または純粋に統計的瞬間に基づいて変数を記録することにも反対です。変数の区分は、より堅固なもの-論理的に意味のあるカットポイント、特定の移行ポイントへのフィールドの関心など-に基づいている必要があります。
すでに得た2つの良い答えを拡張して、これを実質的に見てみましょう。あなたの従属変数は(たとえば)収入であり、あなたの独立変数は(たとえば)人種であり、国勢調査の定義(白人、黒人/アフリカ人、アメリカ人インド人/アラスカ人、アジア人、ハワイ人/パック島人、その他および多民族)。ホワイトを参照カテゴリとしてダミーコードを作成し、取得するとします。
ニューヨークでこの調査を行っている場合、おそらくハワイの先住民族/太平洋諸島人はほとんどいないでしょう。他の人と一緒に(もしあれば)含めることを決めるかもしれません。ただし、完全な方程式を使用することはできず、その係数を含めることはできません。そうすると、切片は間違ったものになり、収入の予測値も間違ったものになります。
しかし、カテゴリをどのように組み合わせる必要がありますか?
他の人が言ったように、それは意味をなさなければなりません。
また、重要でないカテゴリを参照カテゴリと組み合わせることができるかどうか疑問に思っていました。本「ビジネスインテリジェンスのデータマイニング:Microsoft OfficeExcel®でのXLMiner®の概念、手法、およびアプリケーション、ガリットシュムエリによる第2版、ニティンR.パテル、ピーターC.ブルース」、p87-89(Dimension削減セクション)(Google検索結果)は、@ Ellieの応答の2番目の文をサポートしているようです。
ただし、カテゴリの組み合わせが論理的な意味をなすかどうか(以前の回答/コメント、たとえば@ Fomite、@ gungで暗示されているように)、主題の専門家に確認する予定です。