タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

3
重回帰モデルに相関する予測変数を持つことの効果は何ですか?
線形モデルクラスで、2つの予測変数が相関していて、両方がモデルに含まれている場合、1つは重要ではないことを学びました。たとえば、家のサイズと寝室の数が相関しているとします。これら2つの予測変数を使用して家のコストを予測する場合、どちらも同じ情報を大量に提供しているため、どちらか一方を削除できます。直感的には、これは理にかなっていますが、さらに技術的な質問があります。 モデルに予測子を1つだけ含めるか、両方の予測子を含める場合、この効果は回帰係数のp値にどのように現れますか? モデルに両方の予測変数を含めるか、1つの予測変数のみを含めると、回帰係数の分散にどのような影響がありますか? モデルがそれほど重要でないと判断する予測変数を知るにはどうすればよいですか? 予測子を1つだけ含めるか、両方の予測子を含めると、予測コストの値/分散がどのように変化しますか?

2
ロジスティック回帰の人工データをシミュレートする方法は?
私はロジスティック回帰の理解に何か不足していることを知っており、どんな助けも本当に感謝しています。 私が理解している限り、ロジスティック回帰は、入力が与えられた場合の「1」の結果の確率は、逆ロジスティック関数を通過した入力の線形結合であると仮定しています。これは、次のRコードに例示されています。 #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 #now …

6
最新の統計/機械学習で多重共線性がチェックされないのはなぜですか
従来の統計では、モデルの構築中に、分散インフレーション係数(VIF)の推定などの方法を使用して多重共線性をチェックしますが、機械学習では、代わりに特徴選択に正則化を使用し、特徴が相関しているかどうかをチェックしないようですまったく。なぜそうするのですか?


2
ランダムフォレストの仮定
ランダムフォレストは初めてなので、基本的な概念にまだ苦労しています。 線形回帰では、独立した観測、一定の分散… ランダムフォレストを使用する場合の基本的な仮定/仮説は何ですか? モデルの仮定に関して、ランダムフォレストとナイーブベイの主な違いは何ですか?

5
「内因性」と「外因性」は実質的に何を意味するのでしょうか?
私は、内因性の基本的な定義は が満たされないということを理解して いますが、これは現実世界の意味で何を意味するのでしょうか?Wikipediaの記事を読んで、需要と供給の例を理解しようと試みましたが、実際には役に立ちませんでした。内因性と外因性がシステム内にあり、システム外にあるという別の説明を聞いたことがありますが、それはまだ意味がありません。バツ′ϵ = 0X′ϵ=0 X'\epsilon=0

5
OLS残差が正規分布していない場合の回帰
このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。 しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。 残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか?または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか?

4
相違点とは何ですか?
違いの違いは、特に経済学において、非実験的なツールとして長い間人気がありました。誰かが違いの違いに関する以下の質問に明確で非技術的な答えを提供してください。 差分の推定量とは何ですか? 差異の差の推定量が使用されるのはなぜですか? 実際に差の推定値を信頼できますか?

3
ロジスティック回帰の正則化方法
Ridge、Lasso、ElasticNetなどの方法を使用した正則化は、線形回帰では非常に一般的です。私は次のことを知りたかったです:これらの方法はロジスティック回帰に適用できますか?その場合、ロジスティック回帰に使用する方法に違いはありますか?これらの方法が適用できない場合、ロジスティック回帰はどのように正規化されますか?


3
適合した重回帰モデルを視覚化する方法は?
現在、いくつかの重回帰分析を含む論文を書いています。散布図を使用して単変量線形回帰を視覚化するのは簡単ですが、複数の線形回帰を視覚化する良い方法があるかどうか疑問に思っていましたか? 私は現在、従属変数と第1独立変数、次に第2独立変数などの散布図をプロットしています。

5
ロジスティック回帰係数の重要性は何ですか?
現在、2000年と2004年の選挙における投票場所と投票の選好に関する論文を読んでいます。その中には、ロジスティック回帰係数を表示するチャートがあります。数年前のコースから少し読んで、ロジスティック回帰は、複数の独立変数とバイナリ応答変数の間の関係を記述する方法であると理解しています。私が混乱しているのは、以下の表にあるように、南部のロジスティック回帰係数が.903であるため、南部人の90.3%が共和党に投票するということですか?メトリックのロジスティックな性質のため、この直接的な相関関係は存在しません。その代わり、0.903の南は、.506の回帰で、Mountains / plainsよりも共和党に票を投じているとしか言えないと思います。後者の場合、重要なものとそうでないものをどのように知ることができますか?また、このロジスティック回帰係数を与えられた共和党の投票の割合を推定することは可能ですか? サイドノートとして、間違って記載されている場合は投稿を編集してください


2
lmで相互作用用語を書く別の方法は?
回帰モデルで相互作用を指定する最良の方法はどれかという質問があります。次のデータを考慮してください。 d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

3
0〜1の結果(比率または分数)の回帰
私は、比率の予測モデルの構築を考えています、≤ B及び> 0及びB > 0を。だから、比率が間になる0と1。a / ba/ba/b≤ Ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 線形回帰を使用できますが、自然に0.1に制限されるわけではありません。関係が線形であると信じる理由はありませんが、もちろん、とにかく、単純な最初のモデルとしてしばしば使用されます。 ロジスティック回帰を使用できますが、通常は2状態の結果の確率を予測するために使用され、範囲0.1からの連続値を予測するためではありません。 これ以上何も知らない場合、線形回帰、ロジスティック回帰、または非表示オプションcを使用しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.