統計とビッグデータ linear-model

3

線形回帰とロジスティック回帰の違いは何ですか？それぞれをいつ使用しますか？

122 regression logistic linear-model

9

私は線形回帰モデルを実行しており、インターセプト項を削除するための条件は何かと考えています。一方が切片を持ち、もう一方が切片を持たない2つの異なる回帰の結果を比較すると、切片のない関数のがはるかに高いことがわかります。インターセプト項の削除が有効であることを確認するために従うべき特定の条件または仮定はありますか？R2R2R^2

118 regression linear-model r-squared intercept

2

統計的に有意な切片項を削除すると、線形モデルのが増加します

単一の説明変数を持つ単純な線形モデルでは、 αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 切片項を削除すると、近似が大幅に改善されることがわかりました（値は0.3から0.9になります）。ただし、切片の項は統計的に有意であると思われます。R2R2R^2 インターセプトあり： Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

101 r linear-model interpretation r-squared intercept

9

xを使用したyとyを使用したxの線形回帰の違いは何ですか？

xとyのピアソン相関係数は、pearson（x、y）とpearson（y、x）のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか（私は常にこれを最適なラインを要約すると考えています）？

97 regression correlation linear-model pearson-r

4

PCAと分散の割合の説明

一般に、PCAのような分析における分散の割合は、最初の主成分によって説明されると言うことは何を意味しますか？誰かがこれを直感的に説明できますが、主成分分析（PCA）の観点から「分散の説明」の意味を正確に数学的に定義することもできますか？バツxx 単純な線形回帰の場合、最適な直線のr乗は常に説明された分散の割合として記述されますが、それをどうするかはわかりません。ここでの分散の割合は、最適なラインからのポイントの偏差の延長ですか？

90 regression pca linear-model dimensionality-reduction

2

線形回帰の予測値の信頼区間の形状

線形回帰の予測値の信頼区間は、予測値の平均付近で狭くなり、予測値の最小値と最大値付近で太くなる傾向があることに気付きました。これは、次の4つの線形回帰のプロットで見ることができます。これは、予測子のほとんどの値が予測子の平均値に集中しているためだと当初考えました。ただし、予測変数の多くの値が最小値の周りに集中している左下の線形回帰のように、予測変数の極値の近くに多くの値が集中していても、信頼区間の狭い中央が発生することに気付きました予測子。線形回帰の予測値の信頼区間が中間で狭く、極端に太くなる傾向がある理由を説明できる人はいますか？

69 regression confidence-interval linear-model standard-error prediction-interval

4

ログ変換された応答変数のLMとGLMの選択

一般化線形モデル（GLM）対線形モデル（LM）を使用する背後にある哲学を理解しようとしています。以下にサンプルデータセットを作成しました。 log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon この例には、yの大きさの関数としての誤差がないため、対数変換されたyの線形モデルが最適であると想定します。以下の例では、これは実際にそうです（私は思う）-ログ変換されたデータのLMのAICが最も低いからです。対数リンク関数を使用したガンマ分布GLMのAICは、より低い二乗和（SS）を持ちますが、自由度を追加するとAICがわずかに高くなります。ガウス分布のAICが非常に高いことに驚かされました（SSはモデルの中で最低ですが）。εε\varepsilonyyy GLMモデルにアプローチするタイミングについてアドバイスをもらいたいと思います。つまり、LMモデルの近似残差で、別の分布がより適切であることを確認する必要があるのでしょうか。また、適切なディストリビューションファミリを選択するには、どのように進める必要がありますか。あなたの助けに前もって感謝します。 [編集]：対数変換線形モデルのSSが対数リンク機能を備えたGLMモデルに匹敵するように、要約統計を調整しました。統計のグラフが表示されます。例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- "LM" assign(mod.name, lm(y …

55 r generalized-linear-model linear-model gamma-distribution link-function

4

外れ値にロバストな高速線形回帰

外れ値のある線形データを扱っていますが、その一部は推定回帰線から5標準偏差以上離れています。私は、これらのポイントの影響を減らす線形回帰技術を探しています。これまでのところ、すべてのデータで回帰直線を推定し、非常に大きな2乗残差（上位10％など）を持つデータポイントを破棄し、それらのポイントなしで回帰を繰り返しました。文献には多くの可能なアプローチがあります：最小二乗、分位点回帰、m-推定量など。どのアプローチを試すべきか本当に分かりませんので、提案を探しています。私にとって重要なのは、最適化ルーチンの各ステップでロバスト回帰が計算されるため、選択した方法が高速であることです。どうもありがとう！

50 regression linear-model outliers robust fused-lasso

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Yを正規に配布する必要があるという誤解はどこから来ますか？

一見信頼できるソースは、従属変数は正規分布でなければならないと主張しています。モデルの仮定：は正規分布、エラーは正規分布、独立、は固定、定数分散です。E I〜N （0 、σ 2）X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 ペンシルベニア州立大学、STAT 504離散データの分析第二に、線形回帰分析では、すべての変数が多変量正規である必要があります。統計解、線形回帰の仮定これは、応答変数に正規分布がある場合に適切です。ウィキペディア、一般化線形モデルこの誤解がどのように、またはなぜ広まったのか、良い説明はありますか？その起源は知られていますか？関連する線形回帰と応答変数に関する仮定

45 regression least-squares linear-model dependent-variable

3

重回帰モデルに相関する予測変数を持つことの効果は何ですか？

線形モデルクラスで、2つの予測変数が相関していて、両方がモデルに含まれている場合、1つは重要ではないことを学びました。たとえば、家のサイズと寝室の数が相関しているとします。これら2つの予測変数を使用して家のコストを予測する場合、どちらも同じ情報を大量に提供しているため、どちらか一方を削除できます。直感的には、これは理にかなっていますが、さらに技術的な質問があります。モデルに予測子を1つだけ含めるか、両方の予測子を含める場合、この効果は回帰係数のp値にどのように現れますか？モデルに両方の予測変数を含めるか、1つの予測変数のみを含めると、回帰係数の分散にどのような影響がありますか？モデルがそれほど重要でないと判断する予測変数を知るにはどうすればよいですか？予測子を1つだけ含めるか、両方の予測子を含めると、予測コストの値/分散がどのように変化しますか？

45 regression multiple-regression p-value linear-model multicollinearity

3

多項式回帰が多重線形回帰の特殊なケースと見なされるのはなぜですか？

多項式回帰が非線形関係をモデル化する場合、多重線形回帰の特殊なケースとはどのように考えられますか？ウィキペディアは、「多項式回帰は非線形モデルをデータに適合させますが、統計的推定問題として線形ですが、推定される未知のパラメーターでは回帰関数は線形です。データから。」E(y|x)E(y|x)\mathbb{E}(y | x) パラメーターが次数 2の項の係数である場合、未知のパラメーターで多項式回帰はどのように線形になりますか？≥≥\ge

38 regression multiple-regression linear-model nonlinear-regression polynomial

3

単純な線形回帰における回帰係数の分散を導き出す

単純な線形回帰では、。ここで、です。推定量を導き出しました：ここでおよびはおよびサンプル平均です。y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ここで、\ hat \ beta_1の分散を見つけたいと思いますβ^1β^1\hat\beta_1。次のようなものを導き出しました： Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 派生は次のとおりです。 Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are …

38 regression mathematical-statistics variance linear-model regression-coefficients

2

相互検証のどの方法が最適であるかをどのように知ることができますか？

私は自分の状況に最適な相互検証方法を見つけようとしています。次のデータは、問題を処理するための単なる例です（Rで）が、実際のXデータ（xmat）は相互に関連付けられ、y変数（ymat）でさまざまな程度に関連付けられています。Rコードを提供しましたが、私の質問はRについてではなく、メソッドについてです。XmatX変数V1〜V100がymat含まれ、単一のy変数が含まれます。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") のyすべての変数に基づいて予測するためのモデルを構築したいと思いますxmat。したがって、線形回帰モデルになりy ~ V1 + …

36 r regression cross-validation linear-model

5

線形回帰データに複数の混合線形関係が含まれている場合はどうなりますか？

水仙がさまざまな土壌条件にどのように反応するかを研究しているとしましょう。土壌のpHと水仙の成熟した高さに関するデータを収集しました。私は線形関係を期待しているので、線形回帰を実行します。しかし、私が研究を始めたとき、個体群には実際に2種類のスイセンが含まれており、それぞれが土壌のpHに対して非常に異なる反応を示すことを知りませんでした。したがって、グラフには2つの異なる線形関係が含まれます。もちろん、目で見て、手動で分離できます。しかし、もっと厳密なアプローチがあるのだろうか。質問：データセットが1行またはN行のどちらに適しているかを判断する統計的テストはありますか？ N行に適合する線形回帰を実行するにはどうすればよいですか？言い換えれば、混合データのもつれを解くにはどうすればよいですか？いくつかの組み合わせアプローチを考えることができますが、それらは計算量が多いようです。明確化： 2つの品種の存在は、データ収集の時点では不明でした。各水仙の多様性は観察も記録もされていません。この情報を回復することは不可能です。水仙はデータ収集の時から死んでいます。私は、この問題はクラスタリングアルゴリズムの適用に似たもので、開始する前にクラスターの数をほとんど知る必要があるという印象を持っています。どのデータセットでも、行数を増やすとrmsエラーの合計が減ると思います。極端な場合、データセットを任意のペアに分割し、各ペアに線を引くだけです。（たとえば、1000個のデータポイントがある場合、それらを500個の任意のペアに分割し、各ペアに線を引くことができます。）近似は正確で、rmsエラーは正確にゼロになります。しかし、それは私たちが望むものではありません。「正しい」行数が必要です。

34 regression linear-model dataset

タグ付けされた質問 「linear-model」

タグ付けされた質問「linear-model」