問題は何ですか?


7

これが線形方程式問題の解法であることを知っています。

しかし、私の質問は、なぜ観測数が予測子数よりも少ないことが問題なのか、どうしてそのようなことが起こり得るのでしょうか。

データ収集は、彼らが少なくともこのことについて考えている範囲で、繊細な調査計画または実験計画から来ていませんか?

データ収集で45の変数を収集して調査を行う場合、なぜ彼は45未満の観測値を収集するのでしょうか。私は何かを見逃しましたか?モデル選択部分は応答の非改善変数も排除しましたが、収集された変数は常に排除されますか? 45(45p)

それでは、なぜそのような場合に非固有のソリューションに直面するのでしょうか。


1
ステップワイズモデルの選択についてまだ啓蒙されていないようですが、この質問が好きです。
Alexis

はい、間違いありません。コンセプトの部分はわかりますが、一部は数学におけるモデルの組み合わせについてです。なぜ私たちはp> nに苦しむのでしょうか?
EconBoy

2
いったんサンプルに主題を取得したら、数万個の変数を測定する方が安価な場合があります-少なくとも10や100よりも高価ではありません。バイオインフォマティクス?自動センサー?
kjetil b halvorsen

3
場合によっては、説明する必要のあるすべての変数に対抗するのに十分な観察結果を得ることは現実的ではありません。古典的な例は医学的研究であり、治療できる人数は非常に限られています。
いいえ、

回答:


3

これは多くのシナリオで発生する可能性があり、いくつかの例は次のとおりです。

  1. 病院での医療データ分析。特定の癌を研究する医学研究者は、主に自分の病院でデータ収集を行うことができます。年齢、性別、腫瘍のサイズ、MRI、CTボリュームなど、特定の患者から可能な限り多くの変数を収集しようとすることは悪いことではないと思います。
  2. バイオインフォマティクスにおけるマイクロプレートリーダーアレイの研究。多くの種はありませんが、できるだけ多くの効果をテストできるようにしたい場合がよくあります。
  3. 画像による分析。多くの場合、1600万ピクセルの画像を収集して保存することは非常に困難です。
  4. MRI再構成は、スパース回帰手法を必要とする同様の問題であることが多く、それらを改善することは、MRI画像研究の中心的な問題です。

解決策は、実際には、回帰に関する文献を見て、アプリケーションに最適なものを見つけることです。

  1. ドメインの知識がある場合は、以前の分布に組み込んで、ベイジアン線形回帰でベイジアンアプローチを採用してください。

  2. 疎なソリューションを見つけたい場合は、自動関連性決定の経験的ベイズアプローチが適しています。

  3. 問題に関して、確率の概念をもつことが不適切であると考える場合(線形連立方程式を解くなど)、ムーアペンローズ疑似逆関数を検討することは価値があります。

  4. 特徴選択の観点からアプローチし、適切な問題になるまでpの数を減らします。


回答有難うございます。研究事例をいただければ幸いです。私があなたから聞いたものから、それは「それがまれであり、研究者が彼らがその希少性を予測するために有用なパターンと情報を抽出すると思う膨大な量の変数を使ってそのことを深く掘り下げたいと思っているケース?」のように聞こえます。
EconBoy

1
まれながん疾患と呼べますが、私の病院では、1つの病院の患者に限られている場合、より一般的なものでも十分なデータを収集するには時間がかかります。重要なのは、nは少ないが、pは少ないということです。私はまだ良い実用的な例を探していますが、過剰な辞書によるニューロイメージングに関するDavid Wipfの研究は、適用された理論的な観点からの良い出発点になるかもしれません。
ブームキン

10

これは非常に良い質問です。候補予測子の数が有効なサンプルサイズ超えており、回帰係数に制限を課していない場合(たとえば、収縮を使用していない、別名ペナルティ付き最尤推定または正則化など)、状況は絶望的です。私はそれを含むいくつかの理由でそれを言いますpn

  • 分析できる変数の非冗長線形結合の数について考える場合、この数はです。たとえば、を超える主成分を計算することはできません。min(n,p)min(n,p)
  • 及びNO 2プロットとき鉛直線上-coordinates、一方が達成できません、真の集団としても、任意のデータセットの 0.0です。p=ny(x,y)R2=1.0R2
  • 恐ろしいステップワイズ回帰モデルなどの特徴選択アルゴリズムを使用する場合、「選択された」特徴のリストは、本質的にランダムな特徴セットになり、別のサンプルで複製することはできません。これは、候補の機能間に相関関係(共直線性など)がある場合に特に当てはまります。
  • 2つの変数間の単一の相関係数を適切な精度で推定するために必要なの値は、約400 ですこちらを参照してくださいn

一般に、45人の被験者の45個の変数を分析することを目的とした研究は十分に計画されておらず、それを救うために私が知っている唯一の方法は

  • 1つまたは2つの予測子を事前に指定して、残りを分析して無視する
  • リッジ回帰などのペナルティ付き推定を使用して、すべての変数を適合させますが、係数を一粒の塩で取ります(大幅な割引)
  • RMSブックとコースノートで説明されているように、主成分、変数クラスタリング、疎主成分(私のお気に入り)などのデータ削減を使用します。これには、分離するのが難しい変数を組み合わせて、それらの別々の効果を推定しようとしないことが含まれます。以下のためあなただけの対戦のための2つの崩壊スコアによって得ることができ。データ削減(教師なし学習)は、他のほとんどの方法よりも解釈可能です。n=45y

技術的な詳細:次のような最高の組み合わせ変数の選択/処罰の方法のいずれかを使用する場合投げ縄弾性ネットあなたがオーバーフィッティングの可能性を下げることができますが、最終的に選択した機能のリストは非常に不安定であることが失望され、他に複製されませんデータセット。


これはフランクにとても役立ちます!p> nの場合の対処方法についての知識を得ると、なぜそれが問題であり、どのような問題が発生する可能性があるのか​​がわかります。私はあなたから本当にたくさんの答えを得ましたが、あなたは私の見解を逃しましたが、私が単純な質問をするのは、彼らが繊細なデータ収集をした場合になぜそのようなことが起こるのかということです。統計学者はそれが問題になる可能性があることを知っているので、なぜそれを防げなかったのか、明らかに彼らは知っているのです。なぜ彼らはできないのですか?どうもありがとうございます !!!
EconBoy

その質問は心理学とロジスティックスについてです。研究は委員会によって設計されることが非常に多く、誰もがお気に入りの変数を持っていることに気づきました。気づく前に、変数のリストは長すぎて、(1)すべての変数を確実に測定し、(2)分析することができません。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.