タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

3
SVMとロジスティック回帰の比較
誰かがいつSVMまたはLRを選択するかについて直観を教えてもらえますか?私は、2つの超平面を学習する最適化基準の違いは何かという背後にある直感を理解したいと思います。それぞれの目的は次のとおりです。 SVM:最も近いサポートベクトル間のマージンを最大化してください LR:事後クラス確率を最大化する SVMとLRの両方の線形特徴空間を考えてみましょう。 私がすでに知っているいくつかの違い: SVMは決定論的ですが(確率スコアにはプラッツモデルを使用できます)、LRは確率論的です。 カーネルスペースの場合、SVMの方が高速です(サポートベクターのみが格納されます)

2
Rの半正弦波モデルに適したものを見つける方法は?
バルト海の海面温度は毎年同じであると仮定し、関数/線形モデルで説明します。私が考えていたのは、年を10進数(またはnum_months / 12)として入力し、その時間についての温度を取得することでした。Rのlm()関数にそれを投げると、正弦データを認識しないため、直線を生成します。そこで、sin()関数をI()ブラケットに入れて、いくつかの値を試して関数を手動でフィットさせました。しかし、海は夏には早く暖まり、秋にはゆっくりと冷却します...ですから、最初の年はモデルが間違っていて、数年後にはより正確になり、将来的にはより多くなると思いますそしてさらに間違っています。 モデルを推定するためにRを取得するにはどうすればよいですか?したがって、自分で数値を推測する必要はありませんか?ここで重要なのは、1年間だけでなく、毎年同じ値を生成することです。数学についてもっと知っていれば、sin()の代わりにポアソンやガウスのようなものと推測できるかもしれませんが、その方法もわかりません。良い答えに近づくための助けをいただければ幸いです。 ここに私が使用するデータと、これまでの結果を表示するコードを示します。 # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

2
線形回帰で標準化された説明変数を使用するタイミングと方法
線形回帰について2つの簡単な質問があります。 説明変数を標準化することが推奨されるのはいつですか? 標準化された値で推定が実行されたら、新しい値でどのように予測できますか(新しい値を標準化する方法)。 いくつかの参考文献が役立ちます。

4
予測と予測の違いは?
予測と予測の間にはどのような違いと関係があるのだろうか?特に時系列と回帰で? たとえば、私はそれを修正していますか: 時系列では、予測とは、時系列の過去の値から将来の値を推定することを意味するようです。 回帰では、予測は、与えられたデータに対して将来、現在、または過去の値を推定することを意味するようです。 よろしくお願いします!

1
線形混合効果モデルの解釈が簡単な適合度の尺度は何ですか?
現在、Rパッケージlme4を使用しています。 私はランダム効果を持つ線形混合効果モデルを使用しています: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3 <- lmer(r1 ~ p1 + p2 + (1 | site), data = sample_set) #Two …

2
2クラス分類器としてのロジスティック回帰とLDA
私は、線形判別分析とロジスティック回帰の統計的な違いに頭を悩ませようとしています。2クラス分類問題の場合、LDAは交差する線形境界を作成する2つの標準密度関数(各クラスに1つ)を予測しますが、ロジスティック回帰は2つのクラス間の対数奇数関数のみを予測することを理解しています境界を作成しますが、各クラスの密度関数を想定していませんか?

2
相互検証のどの方法が最適であるかをどのように知ることができますか?
私は自分の状況に最適な相互検証方法を見つけようとしています。 次のデータは、問題を処理するための単なる例です(Rで)が、実際のXデータ(xmat)は相互に関連付けられ、y変数(ymat)でさまざまな程度に関連付けられています。Rコードを提供しましたが、私の質問はRについてではなく、メソッドについてです。XmatX変数V1〜V100がymat含まれ、単一のy変数が含まれます。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") のyすべての変数に基づいて予測するためのモデルを構築したいと思いますxmat。したがって、線形回帰モデルになりy ~ V1 + …

4
多項式モデルの近似から係数を解釈する方法は?
私が持っているいくつかのデータに適合する二次多項式を作成しようとしています。この適合をプロットするとしましょうggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 私は得る: したがって、2次近似は非常にうまく機能します。Rで計算します。 summary(lm(data$bar ~ poly(data$foo, 2))) そして私は得る: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 0.206 # poly(data$foo, …

3
線形回帰で係数の分散共分散行列を導き出す方法
私は線形回帰に関する本を読んでいて、分散共分散行列を理解するのに苦労していますbb\mathbf{b}: 対角線の項目は簡単ですが、非対角線の項目はもう少し難しいです。私が困惑しているのは、 σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 ただし、ここにはと痕跡はありません。β0β0\beta_0β1β1\beta_1
36 regression 

4
係数total = 1になるようにRの制約付き回帰をどのように適合させるのですか?
同様の制約付き回帰がここにあります: 指定された点を通る制約付き線形回帰 しかし、私の要件は少し異なります。合計1の係数が必要です。具体的には、1つの外国為替シリーズのリターンを他の3つの外国為替シリーズに対して回帰しています。現金支出は変化してはならず、できれば(ただしこれは必須ではありません)、係数は正でなければなりません。 RとGoogleで制約付き回帰を検索しようとしましたが、ほとんど運がありません。
36 r  regression 

2
glmnetの解釈方法は?
約60の予測変数と30の観測値を持つ多変量線形回帰モデルを近似しようとしています。そのため、p> nであるため、正規化回帰にglmnetパッケージを使用しています。 私はドキュメントや他の質問を行ってきましたが、結果を解釈することはまだできません。サンプルコード(簡単にするために20の予測子と10の観測値を使用)を次に示します。 num rows = numの観測値とnum cols = numの予測子、および応答変数を表すベクトルyを含む行列xを作成します > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) アルファをデフォルトのままにしてglmnetモデルに適合します(投げ縄ペナルティの場合= 1) > fit1=glmnet(x,y) > print(fit1) ラムダの値が減少すると異なる予測が得られることを理解しています(つまり、ペナルティ) Call: glmnet(x = x, y = y) Df %Dev Lambda [1,] 0 0.00000 0.890700 [2,] 1 0.06159 0.850200 [3,] 1 0.11770 0.811500 [4,] 1 0.16880 0.774600 . . . …

4
インストルメンタル変数とは何ですか?
インストルメンタル変数は、応用経済学と統計学でますます一般的になっています。未経験者のために、以下の質問に対する技術的ではない回答がありますか? インストルメンタル変数とは何ですか? いつインストルメンタル変数を使用したいですか? インストルメンタル変数をどのように見つけ、選択しますか?


2
線形回帰の勾配ブースティング-なぜ機能しないのですか?
勾配ブースティングについて学習している間、このメソッドがモデルの構築とアンサンブルに使用する「弱い分類器」のプロパティに関する制約について聞いたことがありません。しかし、線形回帰を使用するGBのアプリケーションを想像することはできませんでした。実際、いくつかのテストを実行したとき、それは機能しません。私は、残差の平方和の勾配で最も標準的なアプローチをテストし、後続のモデルを一緒に追加していました。 明らかな問題は、最初のモデルからの残差が、もはや適合する回帰線が実際に存在しないような方法で取り込まれることです。私の別の観察では、後続の線形回帰モデルの合計も単一の回帰モデルとして表現できるため(すべての切片と対応する係数を追加)、モデルをどのように改善できるか想像できません。最後の観察結果は、線形回帰(最も一般的なアプローチ)は損失関数として二乗残差の合計を使用していることです-GBが使用しているものと同じです。 また、学習率を下げるか、各反復で予測子のサブセットのみを使用することも考えましたが、それでも最終的には単一のモデル表現にまとめることができるため、改善はないと思います。 ここで何が欠けていますか?Gradient Boostingで使用するのに線形回帰は何らかの形で不適切ですか?それは、線形回帰が損失関数として残差の二乗和を使用しているからでしょうか?グラディエントブースティングに適用できるように、弱い予測子には特定の制約がありますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.