統計とビッグデータ regression

18

ポイントのデータセットとします。線形回帰を実行したいが、最初に値と値を互いに独立してソートし、データセット形成するn(Xi,Yi)(Xi,Yi)(X_i,Y_i)nnnXiXiX_iYiYiY_i(Xi,Yj)(Xi,Yj)(X_i,Y_j)。新しいデータセットに回帰の意味のある解釈はありますか？これには名前がありますか？これはばかげた質問だと思うので、謝罪します。統計の正式な訓練を受けていません。私の考えでは、これはデータを完全に破壊し、回帰は無意味です。しかし、私のマネージャーは、彼がこれを行うと、「ほとんどの場合、より良い回帰」を得ると言います（ここで「より良い」とは、より予測可能という意味です）。私は彼が自分を欺いていると感じています。編集：あなたの素敵で忍耐強い例のすべてに感謝します。彼に@ RUser4512と@gungの例を示しましたが、彼は頑固なままです。彼はイライラし、私は疲れ果てています。落ち込んでいるように感じます。すぐに他の仕事を探し始めるでしょう。

302 regression correlation

2

Rのlm（）出力の解釈

Rのヘルプページでは、これらの数値の意味を知っていると想定していますが、わかりません。ここですべての数字を本当に直感的に理解しようとしています。出力を投稿し、見つけた内容についてコメントします。私が想定していることを書くだけなので、間違いがあるかもしれません。主に、係数のt値の意味と、それらが残差標準誤差を出力する理由を知りたいと思います。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 これは残差の5ポイントの要約です（平均は常に0ですよね？）。数値を使用して（ここで推測しています）、大きな外れ値があるかどうかをすばやく確認できます。また、残差が正規分布から遠く離れている場合（正規分布である必要があります）、すでにここで確認できます。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

234 r regression interpretation

6

ある便利か危険？

私はCosma Shaliziによるいくつかの講義ノート（特に、2番目の講義のセクション2.1.1）をざっと読んでいて、完全に線形のモデルを持っている場合でも非常に低い取得できることを思い出しました。R2R2R^2 Shaliziの例を言い換えると、モデルがありがわかっているとします。次にとの量は、分散が説明^ 2 \ Varの[X]ので、R ^ 2 = \ FRAC {^ 2 \ Varの[X]} {^ 2 \ Varの[X] + \ Varの[\イプシロン]}。これは、\ Var [X] \ rightarrow 0として0になり、\ Var [X] \ rightarrow \ inftyとして1になります。V R [ Yは] = 2 V Rを [ X ] + V R [ ε ] 2 …

233 regression r-squared

3

投げ縄とリッジを使用する必要があるのはいつですか？

多数のパラメーターを推定したいのですが、他のパラメーターと比較してほとんど効果がないはずだと思うので、いくつかのパラメーターにペナルティを科したいとします。使用するペナルティスキームを決定するにはどうすればよいですか？リッジ回帰はいつ適切ですか？投げ縄を使用する必要があるのはいつですか？

167 regression lasso ridge-regression

8

線形回帰では、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか？

問題の独立変数のより良い振る舞いの分布を探していますか、または外れ値の影響を減らすか、何か他のものを探していますか？

164 regression distributions data-transformation logarithm regression-strategies

8

ロジスティック回帰で完全な分離に対処する方法は？

ターゲット変数のゼロと1を完全に分離する変数がある場合、Rは次の「完全または準完全分離」警告メッセージを生成します。 Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred モデルは取得できますが、係数の推定値は膨らんでいます。これを実際にどのように扱いますか？

163 r regression logistic separation

5

「他の変数をどのように」制御するのでしょうか？

この質問の動機付けになった記事は次のとおりです。私はこの記事が好きで、問題の2つの変数間の真の関係を最もよく分離するために、「他の変数の制御」（IQ、キャリア、収入、年齢など）の概念をうまく示しています。典型的なデータセットの変数を実際にどのように制御するか説明していただけますか？たとえば、同じ焦りとBMIを持ち、収入が異なる2人の場合、これらのデータをどのように扱いますか？それらを、同様の収入、忍耐、BMIを持つ異なるサブグループに分類しますか？しかし、最終的に制御する変数（IQ、キャリア、収入、年齢など）は数十個あります。これらの（潜在的に）100のサブグループをどのように集約しますか？実際、私はこのアプローチが間違ったツリーをbarえていると感じています。ここ数年、私が最後までやりたいと思っていたことに光を当ててくれてありがとう...！

141 regression causality confounding controlling-for-a-variable statistics-in-media

3

線形回帰とロジスティック回帰の違いは何ですか？

線形回帰とロジスティック回帰の違いは何ですか？それぞれをいつ使用しますか？

122 regression logistic linear-model

9

線形回帰モデルで切片を削除しても大丈夫ですか？

私は線形回帰モデルを実行しており、インターセプト項を削除するための条件は何かと考えています。一方が切片を持ち、もう一方が切片を持たない2つの異なる回帰の結果を比較すると、切片のない関数のがはるかに高いことがわかります。インターセプト項の削除が有効であることを確認するために従うべき特定の条件または仮定はありますか？R2R2R^2

118 regression linear-model r-squared intercept

9

期待値最大化を理解するための数値例

EMアルゴリズムを十分に把握して、実装して使用できるようにしています。私は丸1日、理論と、レーダーからの位置情報を使用して航空機を追跡するためにEMが使用される論文を読みました。正直なところ、私は根本的なアイデアを完全に理解しているとは思わない。簡単な問題（ガウス分布や正弦波系列のシーケンスの推定、線のフィッティングなど）のためのEMの数回の反復（3-4）を示す数値例を誰かに教えていただけますか。誰かが（合成データを使用して）コードの一部を指し示すことができたとしても、そのコードをステップスルーしてみることができます。

117 regression probability mathematical-statistics intuition expectation-maximization

3

係数の標準誤差は回帰でどのように計算されますか？

私自身の理解のために、推定係数の標準誤差の計算を手動で複製することに興味があります。たとえば、のlm()関数の出力に付属しRていますが、ピンダウンすることはできませんでした。使用される式/実装は何ですか？

114 r regression standard-error lm

3

残差が正規分布しているが、yが分布していない場合はどうなりますか？

奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uuuは正規分布していないと仮定します。これは、が正規分布になるためyyyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか？yyyyyyy

110 regression residuals error normality-assumption

5

大規模な統計分析を実行するには、どのようなスキルが必要ですか？

多くの統計業務では、大規模データの経験が求められます。大規模なデータセットを操作するために必要な統計および計算スキルの種類は何ですか。たとえば、1,000万サンプルのデータセットが与えられた場合に回帰モデルを構築するのはどうでしょうか。

107 regression machine-learning multivariate-analysis large-data

10

相関と単純な線形回帰の違いは何ですか？

特に、ピアソンの積率相関係数について言及しています。

99 correlation regression

9

xを使用したyとyを使用したxの線形回帰の違いは何ですか？

xとyのピアソン相関係数は、pearson（x、y）とpearson（y、x）のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか（私は常にこれを最適なラインを要約すると考えています）？

97 regression correlation linear-model pearson-r

タグ付けされた質問 「regression」

タグ付けされた質問「regression」