タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

18
説明変数と応答変数が回帰前に個別にソートされるとどうなりますか?
ポイントのデータセットとします。線形回帰を実行したいが、最初に値と値を互いに独立してソートし、データセット形成するn(Xi,Yi)(Xi,Yi)(X_i,Y_i)nnnXiXiX_iYiYiY_i(Xi,Yj)(Xi,Yj)(X_i,Y_j)。新しいデータセットに回帰の意味のある解釈はありますか?これには名前がありますか? これはばかげた質問だと思うので、謝罪します。統計の正式な訓練を受けていません。私の考えでは、これはデータを完全に破壊し、回帰は無意味です。しかし、私のマネージャーは、彼がこれを行うと、「ほとんどの場合、より良い回帰」を得ると言います(ここで「より良い」とは、より予測可能という意味です)。私は彼が自分を欺いていると感じています。 編集:あなたの素敵で忍耐強い例のすべてに感謝します。彼に@ RUser4512と@gungの例を示しましたが、彼は頑固なままです。彼はイライラし、私は疲れ果てています。落ち込んでいるように感じます。すぐに他の仕事を探し始めるでしょう。

2
Rのlm()出力の解釈
Rのヘルプページでは、これらの数値の意味を知っていると想定していますが、わかりません。ここですべての数字を本当に直感的に理解しようとしています。出力を投稿し、見つけた内容についてコメントします。私が想定していることを書くだけなので、間違いがあるかもしれません。主に、係数のt値の意味と、それらが残差標準誤差を出力する理由を知りたいと思います。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 これは残差の5ポイントの要約です(平均は常に0ですよね?)。数値を使用して(ここで推測しています)、大きな外れ値があるかどうかをすばやく確認できます。また、残差が正規分布から遠く離れている場合(正規分布である必要があります)、すでにここで確認できます。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

6
ある便利か危険?
私はCosma Shaliziによるいくつかの講義ノート(特に、2番目の講義のセクション2.1.1)をざっと読んでいて、完全に線形のモデルを持っている場合でも非常に低い取得できることを思い出しました。R2R2R^2 Shaliziの例を言い換えると、モデルがありがわかっているとします。次にとの量は、分散が説明^ 2 \ Varの[X]ので、R ^ 2 = \ FRAC {^ 2 \ Varの[X]} {^ 2 \ Varの[X] + \ Varの[\イプシロン]}。これは、\ Var [X] \ rightarrow 0として0になり、\ Var [X] \ rightarrow \ inftyとして1になります。V R [ Yは] = 2 V Rを [ X ] + V R [ ε ] 2 …

3
投げ縄とリッジを使用する必要があるのはいつですか?
多数のパラメーターを推定したいのですが、他のパラメーターと比較してほとんど効果がないはずだと思うので、いくつかのパラメーターにペナルティを科したいとします。使用するペナルティスキームを決定するにはどうすればよいですか?リッジ回帰はいつ適切ですか?投げ縄を使用する必要があるのはいつですか?


8
ロジスティック回帰で完全な分離に対処する方法は?
ターゲット変数のゼロと1を完全に分離する変数がある場合、Rは次の「完全または準完全分離」警告メッセージを生成します。 Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred モデルは取得できますが、係数の推定値は膨らんでいます。 これを実際にどのように扱いますか?

5
「他の変数をどのように」制御するのでしょうか?
この質問の動機付けになった記事は次のとおりです。 私はこの記事が好きで、問題の2つの変数間の真の関係を最もよく分離するために、「他の変数の制御」(IQ、キャリア、収入、年齢など)の概念をうまく示しています。 典型的なデータセットの変数を実際にどのように制御するか説明していただけますか? たとえば、同じ焦りとBMIを持ち、収入が異なる2人の場合、これらのデータをどのように扱いますか?それらを、同様の収入、忍耐、BMIを持つ異なるサブグループに分類しますか?しかし、最終的に制御する変数(IQ、キャリア、収入、年齢など)は数十個あります。これらの(潜在的に)100のサブグループをどのように集約しますか?実際、私はこのアプローチが間違ったツリーをbarえていると感じています。 ここ数年、私が最後までやりたいと思っていたことに光を当ててくれてありがとう...!


9
線形回帰モデルで切片を削除しても大丈夫ですか?
私は線形回帰モデルを実行しており、インターセプト項を削除するための条件は何かと考えています。 一方が切片を持ち、もう一方が切片を持たない2つの異なる回帰の結果を比較すると、切片のない関数のがはるかに高いことがわかります。インターセプト項の削除が有効であることを確認するために従うべき特定の条件または仮定はありますか?R2R2R^2

9
期待値最大化を理解するための数値例
EMアルゴリズムを十分に把握して、実装して使用できるようにしています。私は丸1日、理論と、レーダーからの位置情報を使用して航空機を追跡するためにEMが使用される論文を読みました。正直なところ、私は根本的なアイデアを完全に理解しているとは思わない。簡単な問題(ガウス分布や正弦波系列のシーケンスの推定、線のフィッティングなど)のためのEMの数回の反復(3-4)を示す数値例を誰かに教えていただけますか。 誰かが(合成データを使用して)コードの一部を指し示すことができたとしても、そのコードをステップスルーしてみることができます。


3
残差が正規分布しているが、yが分布していない場合はどうなりますか?
奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uuuは正規分布していないと仮定します。これは、が正規分布になるためyyyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか?yyyyyyy

5
大規模な統計分析を実行するには、どのようなスキルが必要ですか?
多くの統計業務では、大規模データの経験が求められます。大規模なデータセットを操作するために必要な統計および計算スキルの種類は何ですか。たとえば、1,000万サンプルのデータセットが与えられた場合に回帰モデルを構築するのはどうでしょうか。


9
xを使用したyとyを使​​用したxの線形回帰の違いは何ですか?
xとyのピアソン相関係数は、pearson(x、y)とpearson(y、x)のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。 関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか(私は常にこれを最適なラインを要約すると考えています)?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.