タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

3
ダミーコーディングとANCOVAで重回帰を使用する場合
私は最近、ANCOVAを使用して2つのカテゴリ変数と1つの連続変数を操作する実験を分析しました。しかし、レビューアーは、ダミー変数としてコード化されたカテゴリー変数を使用した重回帰が、カテゴリー変数と連続変数の両方を使用した実験により適したテストであることを示唆しました。 ANCOVAとダミー変数を使用した重回帰を使用するのが適切な場合と、2つのテストから選択する際に考慮すべき要因は何ですか? ありがとうございました。

1
* 100万*の係数/独立変数を使用して多変量回帰分析を実際に実行しますか?
私は機械学習の学習に少し時間を費やしています(再帰はごめんなさい:)、多変量線形回帰の場合、回帰係数を計算するための直接方程式の解法よりも勾配降下法を選択するという経験則に興味をそそられることはありませんでした。 経験則:特徴の数は、(係数/独立変数を読み取る)の間にある場合又は百万を超えると、勾配降下で行く、計算逆他の行列は汎用ハードウェア上でかなり扱いであり、したがって、コンピューティング係数は直接十分に機能するはずです。10 、000 - 1 、000 、00010、000−1、000、00010,000 - 1,000,000 計算上言えば、トレードオフ/制限があります。しかし、統計的な観点から、これほど多くの係数を持つモデルを実際に計算できますか?大学院の多変量線形回帰クラスを覚えている場合、独立変数は従属変数に非常に無視できる影響を与えるか、その分布がデータについての仮定に従わない可能性があるため、あまり多くの独立変数を使用しないように注意しました。「多くのIV」を考えるように心を広げたとしても、何百万も考えたことはありませんでした。 質問: これは本当に起こりますか、それとも理論的な問題ですか? 100万個のIVを分析する意味は何ですか?情報を無視するのではなく、得られる情報の価値を大幅に高めることができますか? それとも、最初は何が役に立つのかわからないので、いまいましい回帰を実行して何が役に立つかを確認し、そこから行ってIVのセットをプルーニングするだけでしょうか? 「すべて」を分析できるからといって、それをソルバーに投げ込む(または実行する)ことを意味するわけではなく、過去の質問のいくつかが同様のPOVを反映しているからです。 私はまだコースを終えておらず、すぐに質問をするかもしれませんが、この「なぜ」思考を頭から外すことができず、私の能力を最大限に理解しようとしています。

2
複数のカテゴリ変数がある場合のベータの解釈
私は、概念を理解β 0は、カテゴリ変数は、回帰係数は、2つのカテゴリーの平均値の差があることをエンド解釈を与え、0に等しい(または基準基である)ときの平均です。でも、私はそれぞれ引き受ける> 2つのカテゴリとβは、そのカテゴリの平均値と参照の違いを説明しています。β^0β^0\hat\beta_0β^β^\hat\beta しかし、多変数モデルにさらに多くの変数が取り込まれたらどうなりますか?ここで、2つのカテゴリ変数の参照の平均であることが意味をなさない場合、インターセプトは何を意味しますか?たとえば、性別(M(ref)/ F)と人種(white(ref)/ black)が両方ともモデルに含まれている場合です。ある唯一の白人男性の平均は?他の可能性をどのように解釈しますか?β^0β^0\hat\beta_0 別のメモとして:コントラストステートメントは、効果の変更を調査するための方法として機能しますか?または、さまざまなレベルで効果()を見るだけですか?β^β^\hat\beta

1
重回帰の予測変数間の高い相関関係に対処する方法
次のような記事で参照を見つけました。 Tabachnick&Fidell(1996)によれば、0.70を超える二変量相関を持つ独立変数は重回帰分析に含まれるべきではありません。 問題:重回帰設計で使用した3つ以上の変数は.80以上、VIFは約.2-.3、許容値〜4〜5です。それらのいずれも除外できません(重要な予測変数と結果)。.80で相関した2つの予測子の結果を回帰すると、それらは両方とも有意なままであり、それぞれが重要な分散を予測し、これらの同じ2つの変数は、含まれる10個の変数の中で最大の部分と半部分の相関係数を持ちます(5つのコントロール)。 質問:相関が高いにもかかわらず、私のモデルは有効ですか?参考文献は大歓迎です! 答えてくれてありがとう! ガイドラインとしてTabachnickとFidellを使用しませんでした。予測子間の高い共線性を扱う記事でこの参照を見つけました。 したがって、基本的に、モデル内の予測子の数に対してケースが少なすぎます(多くのカテゴリカル、ダミーのコード化制御変数-年齢、在職期間、性別など)-72ケースの13変数。条件インデックスは、すべてのコントロールが含まれる場合は〜29、コントロールが含まれない場合は〜23(5変数)です。 理論的には独自の意味を持つため、変数を削除したり、要因分析を使用してそれらを結合することはできません。より多くのデータを取得するには遅すぎます。SPSSで分析を行っているので、おそらく、リッジ回帰の構文を見つけるのが最善でしょう(ただし、これを以前に行ったことはなく、結果の解釈は私にとっては新しいものです)。 問題があれば、段階的回帰を行ったときに、同じ2つの相関の高い変数が結果の単一の重要な予測因子のままでした。 そして、これらの各変数の高い部分相関が、モデルに保持されている理由の説明として重要であるかどうかはまだわかりません(リッジ回帰が実行できない場合)。 「回帰診断:影響力のあるデータと共線性の原因を特定する/ David A. Belsley、Edwin Kuh、Roy E. Welsch、1980」は多重共線性を理解するのに役立ちますか?または、他の参照が役立つでしょうか?

2
係数間の有意差をテストする正しい方法は何ですか?
誰かが私のために混乱のポイントをまっすぐにするのを手伝ってくれることを望んでいます。次の設定で、2セットの回帰係数が互いに有意に異なるかどうかをテストしたいとします。 y私= α + βバツ私+ ϵ私yi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i、5つの独立変数。 ほぼ等しいサイズの 2つのグループ(これは異なる場合があります)n1、n2n1,n2n_1, n_2 数千の同様の回帰が同時に行われるため、何らかの種類の複数の仮説修正を行う必要があります。 私に提案されたアプローチの1つは、Zテストを使用することです。 Z= b1− b2(√SEb21+ SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} このボードで私が見た別の提案は、グループ化のためにダミー変数を導入し、モデルを次のように書き換えることです: Gy私= α + βバツ私+ δ(x私g私)+ ϵ私yi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i、ここでは0、1としてコード化されたグループ化変数です。ggg 私の質問は、これらの2つのアプローチがどのように異なるのか(たとえば、異なる前提条件、柔軟性)です。一方が他方よりも適切ですか?これはかなり基本的なことではないかと思いますが、説明をいただければ幸いです。

1
計画された実験でANOVAとANCOVAを選択する方法は?
私は次の実験を行っています: DV:スライスの消費(継続的またはカテゴリー化可能) IV:健全なメッセージ、不健全なメッセージ、メッセージなし(コントロール)(ランダムに割り当てられた3つのグループ-カテゴリ)これは、スライスの健全性について操作されたメッセージです。 次のIVは、個人差変数と見なすことができます。 衝動性(これはカテゴリ別の場合があります。つまり、高対低、または連続であり、スケールで測定されます) 甘い好み(これは、質問ごとに選択する3つのオプションであるアンケートによっても測定されます) BMI-それに応じて参加者の体重を測定します(これはカテゴリカルまたは継続的と見なすこともできます)。 グループは3つのグループの1つにランダムに割り当てられるため、ある種のANOVAを行っており、おそらくIVがDVに最も影響するだけでなく、研究によって示されるようにIVいくつかの組み合わせの間に関係があること。 しかし、IVをすべてカテゴリに分類するのか、継続的または混合にするのが最善かを知る必要があるため、これについて完全に確信はありません。 または、ANCOVAは可能性または回帰でさえありますが、それらがグループに割り当てられ、調査への回答に基づいて分類されていることについてはわかりません。 これが理にかなっていて、私の質問について誰かから聞いてくれることを楽しみにしています。

3
出力と予測子の間に実質的な相関関係がない場合、どのようにして適切な線形回帰モデルを取得できますか?
一連の変数/機能を使用して、線形回帰モデルをトレーニングしました。モデルのパフォーマンスは良好です。しかし、予測変数と良好な相関関係を持つ変数は存在しないことに気付きました。どうして可能ですか?

2
回帰分析と曲線近似の違い
可能であれば例を使って、回帰分析と曲線近似(線形および非線形)の実際の違いを説明してもらえますか? どちらも2つの変数間の関係(従属と独立)を見つけようとし、提案されているモデルに関連するパラメーター(または係数)を決定しようとするようです。たとえば、次のようなデータセットがある場合: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 誰もがこれら2つの変数間の相関式を提案できますか?これら2つのアプローチの違いを理解するのが困難です。他のデータセットで答えをサポートしたい場合、それは適合しにくいと思われるので大丈夫です(おそらく私だけのために)。 上記のデータセットは、受信者動作特性(ROC)曲線のおよび軸を表します。ここで、は真陽性率(TPR)、は偽陽性率(FPR)です。xxxy xyyyyyyxxx 特定のFPR(またはその逆)のTPRを推定するために、これらのポイントの中で、曲線を近似するか、元の質問に従って回帰分析を行っていますが、まだ定かではありません。 まず、2つの独立変数(TPRとFPR)の間にこのような曲線近似関数を見つけることは科学的に受け入れられますか? 第二に、実際のネガティブなケースと実際のポジティブなケースの分布が正規でないことを知っている場合、そのような関数を見つけることは科学的に受け入れられますか?

2
追加変数プロット(部分回帰プロット)は、重回帰で何を説明しますか?
Moviesデータセットのモデルがあり、回帰を使用しました。 model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 出力は次のとおりです。 今、私は最初にAdded Variable Plotと呼ばれるものを試しましたが、次の出力が得られました: avPlots(model, id.n=2, id.cex=0.7) 問題は、Googleを使用して追加変数プロットを理解しようとしましたが、その深さを理解できませんでした。プロットを見て、出力に関連する各入力変数に基づいたスキューの表現の種類を理解しました。 データの正規化を正当化する方法など、もう少し詳細を取得できますか?

2
Rの複数の従属変数を使用して一般化線形モデルを実行する方法は?
6つの従属変数(カウントデータ)といくつかの独立変数があります。MMRでは、スクリプトは次のようになります。 my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) しかし、私のデータはカウントなので、一般化された線形モデルを使用したいので、これを試しました: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") そして、このエラーメッセージが表示されます: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : (subscript) logical subscript …

4
解釈可能なモデルが必要な場合、線形回帰以外の方法はありますか?
ランダムフォレストや勾配ブースティングなどの「MLモデル」は説明が難しい、または「解釈できない」と考えているため、予測に線形回帰以外のモデルを使用しない統計学者がいました。 線形回帰では、仮定のセットが検証されると(エラーの正規性、等分散性、多重共線性なし)、t検定は変数の有意性をテストする方法を提供します。ランダムフォレストまたは勾配ブースティングモデル。 したがって、私の質問は、独立変数のセットで従属変数をモデル化するかどうかです。解釈可能性のために、常に線形回帰を使用する必要がありますか?

1
多重線形回帰では、なぜ予測点のプロットが直線上にないのですか?
YとX1、X2の関係を記述するために、多重線形回帰を使用しています。 理論から、重回帰ではYと各X(YとX1、YとX2)の間の線形関係を仮定していることがわかりました。Xの変換は使用していません。 そのため、R = 0.45とすべての有意なX(P <0.05)のモデルを取得しました。次に、X1に対してYをプロットしました。モデルの予測である赤色の円が線を形成しない理由がわかりません。前に言ったように、YとXの各ペアは線で近似されると予想しました。 プロットは、Pythonで次のように生成されます。 fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()


3
重回帰の予測変数間でr 2乗を分割する方法は?
著者が2つの予測変数を使用して重回帰を実行した論文を読んだばかりです。全体のr 2乗値は0.65でした。彼らは、2つの予測変数の間でr 2乗を分割する表を提供しました。テーブルは次のようになりました。 rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 データセットRを使用して実行したこのモデルではmtcars、全体のr 2乗値は0.76です。 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat + wt, data = mtcars) Residuals: Min 1Q …

3
多変数回帰にさらに変数を追加すると、既存の変数の係数が変わりますか?
3変数で構成される多変数(複数の独立変数)回帰があるとします。これらの各変数には、所定の係数があります。4番目の変数を導入して回帰を再実行することにした場合、3つの元の変数の係数は変わりますか? より広く:多変数(複数の独立変数)回帰では、特定の変数の係数は別の変数の係数の影響を受けますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.