最も強く関連付けられている予測子がバイナリの場合に回帰モデルの作成を開始する方法

私は、すなわち3つの変数の365観測を含むデータセットを持っているpm、tempとrain。次にpm、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は：

pm10 =応答（依存）
temp =予測子（独立）
rain =予測子（独立）

以下は、私のデータの相関行列です。

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrainはpm（と比較してtemp）と高度に相関していますが、同時にダミー変数（rain = 1、no rain = 0）であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10vsの散布図rainです。また、pm10vsの散布図を解釈することもできませんrain。誰かが私を始める方法を手伝ってくれる？

— サイードアシフアリシャー
ソース

IMOは、誤解から生じたとしても、これは完全に実行可能な質問です。

— ガン-モニカの復活

y_{i}

$y_i$

x_{i 1}, x_{i 2}, \dots, x_{i p}

$x_{i1}, x_{i2},\ldots,x_{ip}$

| r_{j k} | > 0.8

$|r_{jk}|>0.8$

回答:

多くの人は、最も関連性の高い変数から始めて、次に重要でない変数を順番に追加するなどの戦略を使用する必要があると考えています。ただし、このアプローチを強制するロジックはありません。さらに、これは一種の「貪欲な」変数選択/検索戦略です（cf.ここでの私の回答：自動モデル選択のアルゴリズム）。 これを行う必要はありませんが、実際に行う必要はありません。あなたが関係を知りたい場合はpm、とtempとrain、3つすべての変数を使用して重回帰モデルを近似します。それでも、モデルを評価して、それが妥当であり、前提条件が満たされているかどうかを判断する必要がありますが、それだけです。アプリオリの仮説をテストしたい場合は、モデルを使用してテストできます。モデルのサンプル不足の予測精度を評価する場合は、交差検証を使用して行うことができます。

多重共線性についても心配する必要はありません。相関関係tempとは、rainと表示されている0.044自分の相関行列インチこれは非常に低い相関関係であり、問題を引き起こすことはありません。

— gung-モニカの回復
ソース

親切なご提案、誠にありがとうございます。私はこのサイトの初心者ですが、使い方がわからないので、追加の提案や学習資料を提供していただけますか

— Syed Asif Ali Shah

@SyedAsifAliShah、それ以外は英語が母国語ではないようですが、サイトの使い方に問題はありません。学習資料については、これまたはthisを参照するか、またはreferenceタグでスレッドを参照してください。

— ガン-モニカの復活

データに対して線形モデルまたはGLMを試す必要がありますか？

— Syed Asif Ali Shah

@SyedAsifAliShah、おそらく線形モデルがデータに適しています。

— ガン-モニカの復活

仲間があなたの助けを必要としています

— Syed Asif Ali Shah

これはすでに収集したデータセットを直接処理するわけではありませんが、このようなデータを収集するときに次に試すことができるもう1つのことは、「雨」をバイナリとして記録しないようにすることです。代わりに雨量（cm /時間）を測定した場合、データはより有益になります。これにより、0 ... max_rainfallから（測定の精度まで）連続的に分布する変数が得られます。

これにより、「雨が降っているか」だけでなく、「どれだけ雨が降っているか」を関連付けることができます。

— JKreft
ソース

こんにちは、私はあなたの提案に従って同じことをしました。私は雨の完全なデータを収集し、モデルを構築しました

— Syed Asif Ali Shah

メールをお願いできますか??? 私はいくつかの質問をしたいだけです

— Syed Asif Ali Shah

モデルの設定について追加の質問がある場合は、おそらく新しいStackExchangeの質問が適しています。あなたはより多くの人々からのフィードバックを得ることができますこの方法、人の多くはI.よりも専門家です

— JKreft

stats.stackexchange.com/questions/255959/...

— サイードアシフ・アリ・シャー