タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

7
重回帰を実施する場合、予測変数をいつ中央に配置し、いつ標準化する必要がありますか?
いくつかの文献では、異なる単位の場合、複数の説明変数による回帰を標準化する必要があることを読みました。(標準化とは、平均値を減算し、標準偏差で除算することです。)他のどの場合にデータを標準化する必要がありますか?データを中央揃えするだけの場合(つまり、標準偏差で除算しない場合)がありますか?

11
線形回帰はいつ「機械学習」と呼ばれるべきですか?
最近のコロキウムでは、講演者の要約は、彼らが機械学習を使用していると主張しました。講演中、機械学習に関連する唯一のことは、データに対して線形回帰を実行することでした。5Dパラメーター空間で最適な係数を計算した後、あるシステムのこれらの係数を他のシステムの最適な係数と比較しました。 線形回帰の機械学習は、単に最適な線を見つけるのではなく、いつ行われますか?(研究者の抽象的な誤解を招くものでしたか?) 最近、機械学習が注目を集めているため、このような区別をすることが重要だと思われます。 私の質問はこれに似ていますが、その質問は「線形回帰」の定義を求めますが、私の質問は線形回帰(多数のアプリケーションを持っています)が適切に「機械学習」と呼ばれる場合を尋ねます。 明確化 線形回帰が機械学習と同じであるかどうかは問いません。一部の人が指摘したように、単一のアルゴリズムは研究分野を構成しません。使用しているアルゴリズムが単なる線形回帰であるときに、機械学習を行っていると言ってもいいのかどうかを尋ねています。 1つは、彼らがされていない場合、あなたの名前にいくつかの金の星を追加するために機械学習を行っていると言うことは非倫理的であるため、わきすべてのジョーク(コメントを参照してください)、私はこれを頼む理由の一つは、実際に機械学習を行います。(多くの科学者は自分の仕事に最適なラインを計算しますが、これは機械学習を行っているという意味ではありません。)一方、機械学習の一部として線形回帰が使用されている状況は明らかにあります。これらの状況を分類するのに役立つ専門家を探しています。;-)

12
線形回帰に関する最も一般的な誤解は何ですか?
他の研究者と協力して幅広い経験をお持ちの方にとって、あなたが遭遇する線形回帰についての最も一般的な誤解は何ですか? よくある誤解を事前に考えて、 人々の間違いを予測し、いくつかの誤解が間違っている理由を明確に説明できる 自分でいくつかの誤解を抱いているかどうかを理解してください! 私が考えることができるいくつかの基本的なもの: 独立/従属変数は正規分布する必要があります 正確な解釈のために変数を標準化する必要があります 他のもの? すべての回答は大歓迎です。

2
Rの多変量重回帰
2つの従属変数(DV)があり、それぞれのスコアは7つの独立変数(IV)のセットによって影響を受ける可能性があります。DVは連続的ですが、IVのセットは連続変数とバイナリコード変数の混合で構成されています。(以下のコードでは、連続変数は大文字で、バイナリ変数は小文字で記述されています。) この研究の目的は、これらのDVがIV変数によってどのように影響を受けるかを明らかにすることです。次の多変量重回帰(MMR)モデルを提案しました。 my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 結果を解釈するために、2つのステートメントを呼び出します。 summary(manova(my.model)) Manova(my.model) 両方の呼び出しからの出力は以下に貼り付けられ、大きく異なります。MMRの結果を適切に要約するために、2つのうちどちらを選択すべきかを誰かに説明してください。どんな提案も大歓迎です。 summary(manova(my.model))ステートメントを使用した出力: > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …

4
2番目のIVを追加すると、1番目のIVが重要になります。
おそらく簡単な質問がありますが、今私を困惑させているので、あなたが私を助けてくれることを望んでいます。 1つの独立変数と1つの従属変数を持つ最小二乗回帰モデルがあります。関係は重要ではありません。次に、2番目の独立変数を追加します。これで、最初の独立変数と従属変数の関係が重要になります。 これはどのように作動しますか?これはおそらく私の理解に何らかの問題を示していますが、私にとっては、この2番目の独立変数を追加することで最初の重要性がどのようになるかわかりません。


9
素人が分析を行うことが多い時代に、モデルの仮定と評価の重要性を誇張しているか
結論として、統計について学べば学ぶほど、自分の分野で発表された論文を信用しなくなります。私は単に、研究者が統計を十分に行っていないと信じています。 私はいわば素人です。私は生物学の訓練を受けていますが、統計や数学の正式な教育を受けていません。私はRを楽しんでおり、研究を行う際に適用する方法の理論的基礎のいくつかを読む(そして理解する)努力をすることがよくあります。今日分析を行っている大多数の人々が実際に正式に訓練されていなくても、私は驚かないでしょう。私は約20のオリジナルの論文を発表しましたが、その一部は有名なジャーナルに受け入れられ、統計学者は頻繁にレビュープロセスに関与しています。私の分析には、通常、生存分析、線形回帰、ロジスティック回帰、混合モデルが含まれます。レビューアーがモデルの仮定、適合、評価について尋ねたことはありません。 したがって、モデルの仮定、適合、評価についてあまり気にしませんでした。仮説から始め、回帰を実行し、結果を提示します。場合によってはこれらのことを評価しようと努力しましたが、常に「すべての仮定を満たしていませんでしたが、結果(「主題の知識」)を信頼しているので、もっともらしいので大丈夫です」統計学者に相談するとき、彼らはいつも同意するように思われました。 今、私は自分で分析を行う他の統計学者と非統計学者(化学者、医師、生物学者)と話をしました。人々はこれらすべての仮定と正式な評価についてあまり気にしません。しかし、CVには、残差、モデルの適合、評価方法、固有値、ベクトルなどについて尋ねる人がたくさんいます。このように言えば、lme4が大きな固有値について警告するとき、そのユーザーの多くがそれに対処することを気にかけていることを本当に疑います... それは余分な努力の価値がありますか?公開されているすべての結果の大部分がこれらの仮定を尊重しておらず、おそらくそれらを評価していない可能性はありませんか?データベースは毎日大きくなり、データが大きくなると仮定と評価はそれほど重要ではなくなるという考えがあるため、これはおそらく大きな問題です。 私は絶対に間違っている可能性がありますが、これは私がこれを認識した方法です。 更新: StasKからの引用(下):http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

5
多重比較のために重回帰のp値を調整するのは良い考えですか?
あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります(サービスのyes / noおよび機会の数を使用)。需要を理論的に説明できる予測変数/独立変数が10個あります(年齢、性別、収入、価格、人種など)。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。 私の質問:回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか?先行研究への言及は大歓迎です。


2
重回帰の他の変数を「制御する」と「無視する」の間に違いはありますか?
重回帰の説明変数の係数は、その説明変数と従属変数の関係を示しています。これらすべては、他の説明変数を「制御」します。 これまでの表示方法: 各係数が計算されている間、他の変数は考慮されないため、それらは無視されると考えます。 「制御された」と「無視された」という用語は同じ意味で使用できると思いますか?

3
重回帰モデルに相関する予測変数を持つことの効果は何ですか?
線形モデルクラスで、2つの予測変数が相関していて、両方がモデルに含まれている場合、1つは重要ではないことを学びました。たとえば、家のサイズと寝室の数が相関しているとします。これら2つの予測変数を使用して家のコストを予測する場合、どちらも同じ情報を大量に提供しているため、どちらか一方を削除できます。直感的には、これは理にかなっていますが、さらに技術的な質問があります。 モデルに予測子を1つだけ含めるか、両方の予測子を含める場合、この効果は回帰係数のp値にどのように現れますか? モデルに両方の予測変数を含めるか、1つの予測変数のみを含めると、回帰係数の分散にどのような影響がありますか? モデルがそれほど重要でないと判断する予測変数を知るにはどうすればよいですか? 予測子を1つだけ含めるか、両方の予測子を含めると、予測コストの値/分散がどのように変化しますか?

2
重回帰は共変量を実際に「制御」できますか?
私たちはすべて、考えられるすべての潜在的な交絡因子を重回帰モデルに含めることで、非ランダム化予測子Xと結果の間の因果リンクを確立しようとする観察研究に精通しています。このように、すべての交絡因子を「制御する」ことにより、関心のある予測子の効果を分離します。 主に私の統計学のクラスのさまざまな教授によって行われたオフハンドの発言に基づいて、私はこの考えにますます不快感を抱いています。それらはいくつかの主要なカテゴリーに分類されます。 1.考え、測定する共変量のみを制御できます。 これは明らかですが、実際に最も有害で乗り越えられないものなのでしょうか。 2.このアプローチは、過去にugい間違いを引き起こしました。 たとえば、Petitti&Freedman(2005)は、何十年にもわたって統計的に調整された観察研究が、心臓病のリスクに対するホルモン補充療法の効果に関する悲惨な誤った結論に至った経緯について議論しています。後のRCTでは、ほぼ逆の効果が見つかりました。 3.予測変数と結果の関係は、共変量を制御すると奇妙に動作する可能性があります。 Yu-Kang Tu、Gunnell、&Gilthorpe(2008) は、主のパラドックス、シンプソンのパラドックス、サプレッサー変数など、いくつかの異なる症状を議論しています。 4.単一モデル(重回帰)で共変量を適切に調整し、同時に予測結果の関係をモデル化することは困難です。 傾向スコアや交絡因子の層別化などの方法の優位性の理由としてこれを聞いたことがありますが、本当にそれを理解しているかはわかりません。 5. ANCOVAモデルでは、対象の共変量と予測子が独立している必要があります。 もちろん、対象の予測変数と相関しているため、交絡因子を正確に調整します。したがって、モデルは、必要なときに正確なインスタンスで失敗するようです。議論は、調整はランダム化試験でのノイズ低減にのみ適しているということです。Miller&Chapman、2001年は素晴らしいレビューを与えます。 だから私の質問は: これらの問題や私が知らないその他の問題はどれほど深刻ですか? 「すべてをコントロールする」研究を見たとき、私はどれほど恐れるべきでしょうか? (この質問が議論の領域にあまり深く入り込んでいないことを望み、それを改善するための提案を喜んで誘います。) 編集:新しい参照を見つけた後、ポイント5を追加しました。

3
適合した重回帰モデルを視覚化する方法は?
現在、いくつかの重回帰分析を含む論文を書いています。散布図を使用して単変量線形回帰を視覚化するのは簡単ですが、複数の線形回帰を視覚化する良い方法があるかどうか疑問に思っていましたか? 私は現在、従属変数と第1独立変数、次に第2独立変数などの散布図をプロットしています。

3
glmnetを使用して投げ縄の結果を表示する方法
30個の独立変数のセットから連続従属変数の予測子を見つけたいです。R のglmnetパッケージに実装されているLasso回帰を使用しています。ダミーコードを次に示します。 # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.