線形モデルの因子の有意でないレベルの係数を無視できますか？

15

ここで線形モデル係数についての明確化を求めた後、因子レベルの係数の重要でない（高いp値）に関するフォローアップの質問があります。

例：線形モデルに10レベルの因子が含まれ、それらのレベルのうち3つだけに有意なp値が関連付けられている場合、モデルを使用してYを予測するときに、被験者が次のいずれかに該当する場合、係数項を含めないことを選択できます非重要レベル？

さらに劇的に、7つの重要でないレベルを1つのレベルにまとめて再分析するのは間違っているでしょうか？

— Trees4theForest
ソース

2

そうすることで、偏りのある推論を得ることができます。たとえば、予測間隔を形成している場合、7つの重要でないレベルの個人のカバレッジ確率はおそらく間違っているでしょう。

— マクロ

1

ここでいくつか良い答えが得られましたが、p値が高い因子を削除することが不適切である理由にも興味があるかもしれません。これは、コンピューターが自動的にモデルを選択するのではなく、自分で実行している場合でも、論理的に自動モデル選択手順と同等であることを指摘する価値があります。この質問と提供された回答を読むことは、これらの事柄が真実である理由を理解するのに役立ちます。

— GUNG -復活モニカ

1

このQには、2012年11月とまったく同じ複製があります： stats.stackexchange.com/questions/18745/… そこにはちょっとした示唆に富む情報もあります。

— rolando2

2

これは非常に重要な質問ですが、それでも議論を理論で裏付ける答えはありません。現状では、彼らは単なる意見です。回答の1つにリンクされている本（結論は他の回答とは異なります）でさえ、参考文献を提供していません。このように、私はそれらのどれも信用していないため、何もしません（つまり、すべてのカテゴリ/要素を保持します）。

— ルチョナチョ

13

複数のレベルを持つ予測変数を入れている場合、変数を入れるか入れないかのどちらかで、レベルを選択することはできません。レベルの数を減らすために予測変数のレベルを再構築することもできます（分析の文脈で意味がある場合）。ただし、これが何らかのタイプの統計的無効化を引き起こすかどうかはわかりませんレベルが重要ではないことがわかるので、レベルを折りたたみます。

$p$ $p$ $p$ $\alpha$ $> .0001$

— エリー
ソース

（p値のタイプミスを修正しました。）ここで良い点があります。そのため、研究の文脈で正当化できる現実世界および論理的な理由に基づいてレベルを崩壊させること（有意性のブレークに沿ってそれらを解析することもあるかもしれません）は合理的ですが、それらの有意性に基づいてarbitrarily意的にそれらをひとまとめにするだけではありません。とった。

— Trees4theForest

15

@Ellieの応答は良いものです。

いくつかのレベルを持つ変数を入れている場合は、分析でそれらのレベルをすべて保持する必要があります。有意水準に基づいて選択すると、結果に偏りが生じ、推論に非常に奇妙なことが行われます。たとえ、何らかの奇跡によって推定値が同じままであっても、異なるレベルの推定効果に大きな穴があるためです。変数。

予測変数の各レベルの推定値をグラフィカルに検討することを検討します。レベルを上げるにつれて傾向が見られますか、それとも不安定ですか？

一般的に言えば、私は統計的テストに基づいて、または純粋に統計的瞬間に基づいて変数を記録することにも反対です。変数の区分は、より堅固なもの-論理的に意味のあるカットポイント、特定の移行ポイントへのフィールドの関心など-に基づいている必要があります。

— フォマイト
ソース

8

すでに得た2つの良い答えを拡張して、これを実質的に見てみましょう。あなたの従属変数は（たとえば）収入であり、あなたの独立変数は（たとえば）人種であり、国勢調査の定義（白人、黒人/アフリカ人、アメリカ人インド人/アラスカ人、アジア人、ハワイ人/パック島人、その他および多民族）。ホワイトを参照カテゴリとしてダミーコードを作成し、取得するとします。

$Income = b_0 + b_1BAA + b_2AIAN + b_3AS + b_4NHPI + b_5O + b_6MR$

ニューヨークでこの調査を行っている場合、おそらくハワイの先住民族/太平洋諸島人はほとんどいないでしょう。他の人と一緒に（もしあれば）含めることを決めるかもしれません。ただし、完全な方程式を使用することはできず、その係数を含めることはできません。そうすると、切片は間違ったものになり、収入の予測値も間違ったものになります。

しかし、カテゴリをどのように組み合わせる必要がありますか？

他の人が言ったように、それは意味をなさなければなりません。

— ピーター・フロム-モニカの復職
ソース

4

別の意見を述べるには、なぜそれを変量効果として含めないのですか？それは弱いサポートでそれらのレベルにペナルティを課し、それらの効果のサイズが最小であることを確認する必要があります。そうすれば、馬鹿げた予測をすることを心配することなく、それらすべてを維持することができます。

そして、はい、これは、ランダム効果の「すべての可能なレベルのサンプル」ビュー全体よりも、ランダム効果のベイジアンビューからの動機です。

— シアパークス
ソース

0

また、重要でないカテゴリを参照カテゴリと組み合わせることができるかどうか疑問に思っていました。本「ビジネスインテリジェンスのデータマイニング：Microsoft OfficeExcel®でのXLMiner®の概念、手法、およびアプリケーション、ガリットシュムエリによる第2版、ニティンR.パテル、ピーターC.ブルース」、p87-89（Dimension削減セクション）（Google検索結果）は、@ Ellieの応答の2番目の文をサポートしているようです。

「近似回帰モデルを使用して、同様のカテゴリをさらに組み合わせることもできます。統計的に有意ではない（つまりp値が高い）係数を持つカテゴリは、参照カテゴリとの区別がないため、参照カテゴリと組み合わせることができます出力変数に大きな影響」
「類似した係数値（および同じ符号）を持つカテゴリは、出力変数への影響が類似しているため、しばしば組み合わせることができます。」

ただし、カテゴリの組み合わせが論理的な意味をなすかどうか（以前の回答/コメント、たとえば@ Fomite、@ gungで暗示されているように）、主題の専門家に確認する予定です。

— user1420372
ソース

この答えは、ここの他の答えと矛盾しています。

— kjetil bハルヴォルセン