タグ付けされた質問 「least-squares」

変数の観測値など、2つの量の間の2乗差を最小化するパラメーター値を選択する一般的な推定手法と、パラメーター値に条件付けされたその観測の期待値を指します。ガウス線形モデルは最小二乗法で近似され、最小二乗法は推定量を評価する方法として平均二乗誤差(MSE)の使用の基礎となるアイデアです。

1
ガウスモデルの最小二乗とMLEの等価性
私は機械学習が初めてで、自分で学習しようとしています。最近、私はいくつかの講義ノートを読んでいて、基本的な質問がありました。 スライド13は、「最小二乗推定はガウスモデルの最尤推定と同じです」と述べています。簡単なように思えますが、これは見えません。誰かがここで何が起こっているのか説明してもらえますか?私は数学を見ることに興味があります。 リッジとラッソ回帰の確率論的観点も後で見ようと思うので、私に役立つ提案があれば、それも高く評価されます。

2
切片と勾配のOLS推定量の相関
単純な回帰モデルでは、 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS推定器とは相関しています。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 2つの推定量の相関関係の式は次のとおりです(正しく導出できた場合)。 Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 質問: 相関の存在の直感的な説明は何ですか? 相関関係の存在は重要な意味を持ちますか? 投稿は編集され、サンプルサイズとともに相関関係がなくなるという主張は削除されました。(@whuberと@ChristophHanckに感謝します。)

4
分散分析対多重線形回帰?ANOVAが実験研究でよく使用されるのはなぜですか?
分散分析対多重線形回帰? これらの方法はどちらも同じ統計モデルを使用しているように見えることを理解しています。しかし、どのような状況でどの方法を使用する必要がありますか? これらの方法を比較した場合の利点と欠点は何ですか? ANOVAが実験研究で非常に一般的に使用されているのはなぜですか?回帰研究はほとんど見つかりません

1
線形回帰予測間隔
データポイントの最適な線形近似(最小二乗を使用)がラインy=mx+by=mx+by=mx+b場合、近似誤差を計算するにはどうすればよいですか?観測値と予測値の差の標準偏差を計算するei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)と、実際の(観測されていない)値yr=real(x0)yr=real(x0)y_r=real(x_0)は区間に属します[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]()確率が約68%で、正規分布を仮定していますか?yp=mx0+byp=mx0+by_p=mx_0+b 明確にするために: 関数をいくつかの点評価することで観察しました。これらの観測値を線に適合させます。私が観察しなかったについては、大きさを知りたいと思い ます。上記の方法を使用して、prob でと言うのは正しいですか。〜68%?X I L (X )= M X + B 、X 0、F (X 0)- L (X 0)、F (X 0)∈ [ L (X 0)- σ 、L (X 0)+ σ ]f(x)f(x)f(x)xixix_il(x)=mx+bl(x)=mx+bl(x)=mx+bx0x0x_0f(x0)−l(x0)f(x0)−l(x0)f(x_0)-l(x_0)f(x0)∈[l(x0)−σ,l(x0)+σ]f(x0)∈[l(x0)−σ,l(x0)+σ]f(x_0) \in [l(x_0)-\sigma, l(x_0)+\sigma]


6
モデルをフィッティングするときに、通常、二乗和誤差(SSE)を最小化することを選択するのはなぜですか?
問題は非常に単純です。なぜ、線形または非線形のデータにモデルを適合させようとすると、通常、誤差の二乗和を最小化してモデルパラメーターの推定量を取得しようとするのでしょうか。最小化する他の目的関数を選択してみませんか?技術的な理由から、2次関数は他の関数、たとえば絶対偏差の合計よりも優れていることを理解しています。しかし、これはまだ非常に説得力のある答えではありません。この技術的な理由以外に、なぜこの「ユークリッド型」の距離関数を好むのでしょうか?そのための具体的な意味や解釈はありますか? 私の考えの背後にある論理は次のとおりです。 データセットがある場合、最初に一連の機能的または分布的な仮定(たとえば、分布全体ではなく瞬間条件)を作成してモデルを設定します。モデルにはいくつかのパラメーターがあり(パラメトリックモデルであると仮定)、これらのパラメーターを一貫して推定する方法を見つける必要があります。うまくいけば、推定器の分散が低く、その他の優れた特性を持つことになります。SSE、LAD、またはその他の目的関数を最小化するかどうかにかかわらず、これらは一貫した推定量を取得するための異なる方法だと思います。この論理に従って、最小二乗法を使用する人は1)モデルの一貫した推定量を生成する必要があると思った2)私が知らない他の何か。 計量経済学では、線形回帰モデルでは、誤差項の予測子の平均条件が0であり、等分散性と誤差が互いに相関していないと仮定すると、二乗和の最小化によりモデルの一貫した推定量が得られることがわかりますパラメーターとガウスマルコフの定理により、この推定量は青です。したがって、これは、SSEではない他の目的関数を最小化することを選択した場合、モデルパラメーターの一貫した推定値を取得する保証がないことを示唆します。私の理解は正しいですか?それが正しい場合、他の目的関数ではなくSSEを最小化することは一貫性によって正当化できます。実際には、2次関数の方が良いと言うよりも許容できます。 実際には、実際に完全なモデル、たとえば誤差項の分布仮定(モーメント仮定)を最初に明確に指定せずに、二乗誤差の合計を直接最小化する多くのケースを見ました。これは、この方法のユーザーは、データが「モデル」にどれだけ近いかを見たいと思うようです(モデルの仮定はおそらく不完全なので、引用符を使用します)。 関連する質問(このWebサイトにも関連)は、なぜ、相互検証を使用して異なるモデルを比較しようとするとき、判断基準としてSSEを再び使用するのですか?つまり、SSEが最小のモデルを選択しますか?なぜ別の基準がないのですか?

3
重回帰において「その他はすべて等しい」とはどういう意味ですか?
重回帰を行って、変数の変化について変数の平均変化を調べて、他のすべての変数を一定に保持している場合、他の変数を一定に保持しているのはどの値ですか?彼らの平均?ゼロ?値はありますか?yyyxバツx 私はそれが価値があると思う傾向があります。明確化を探しています。誰かが証拠を持っているなら、それも素晴らしいでしょう。

5
分位点回帰がOLSより悪いのはいつですか?
条件付き平均関係を絶対に理解しなければならないいくつかのユニークな状況とは別に、研究者が分位点回帰よりもOLSを選択すべき状況は何ですか? OLSの代替として中央値回帰を使用することができるため、「テール関係を理解するのに役に立たない場合」と答えたくありません。

4
この場合、最小二乗解法の結果が悪いのはなぜですか?
ビショップによる「パターン認識と機械学習」の第4章の204ページに画像がありますが、ここで最小二乗解法が悪い結果を与える理由がわかりません。 前の段落では、次の画像に見られるように、最小二乗法は外れ値に対するロバスト性に欠けているという事実についてでしたが、他の画像で何が起こっているのか、LSがそこに悪い結果を与える理由はわかりません。

2
F統計がF分布に従うことの証明
この質問に照らして:OLSモデルの係数が(nk)自由度のt分布に従うことの証明 理由を理解したい F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, ここで、pppモデルパラメータの数であり、nnn観測の数及びTSSTSSTSS全分散、RSSRSSRSSの残留分散は、以下のFp−1,n−pFp−1,n−pF_{p-1,n-p}分布。 どこから始めればいいのかわからないので、私はそれを証明しようとさえしなかったことを認めなければなりません。

2
SVAがPCAより優れている点はありますか?
私は、PCAとSVDを数学的に計算する方法を知っています。そして、両方が線形最小二乗回帰に適用できることを知っています。 SVDの主な利点は、数学的には、非正方行列に適用できることです。 どちらも行列の分解に焦点を当てています。前述のSVDの利点以外に、PCAよりもSVDを使用することで得られる追加の利点や洞察はありますか?バツ⊤バツバツ⊤バツX^\top X 数学的な違いではなく、直感を本当に探しています。
20 pca  least-squares  svd 

2
LASSO変数の選択後にOLSを実行するのはどういう意味ですか?
最近、応用計量経済学の文献で、特徴選択の問題を扱うとき、選択された変数を使用してLASSOに続いてOLS回帰を実行することは珍しくありません。 このような手順の有効性をどのように認定できるのかと思っていました。省略された変数などのトラブルを引き起こしますか?それがより効率的であることを示す証拠、または結果がより解釈可能ですか? 関連するディスカッションを次に示します。 LASSOを使用した変数選択 Lasso / Randomを使用した変数選択後のツリーの使用 指摘したように、そのような手順が一般的に正しくない場合、なぜそんなに多くの研究がまだあるのですか?LASSO推定器のいくつかの不安な性質と、OLSに対する人々の好みのために、これは単なる経験則、妥協ソリューションであると言えますか?

2
回帰に平方変数を含めるとどうなりますか?
OLS回帰から始めます ここで、Dはダミー変数で、推定値は低いp値でゼロとは異なります。次に、Ramsey RESETテストを実行し、方程式の誤認があることを発見しました。したがって、xの2乗を含みます Y = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 D + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 二乗項は何を説明しますか?(Yの非線形増加?) これを行うことにより、私のp推定値はゼロから変化せず、p値が高くなります。(一般的に)方程式の2乗項をどのように解釈しますか? 編集:質問を改善します。

3
線形回帰を解くときに、複数の局所最適解が存在しますか?
私は1つの古いtrue / false試験でこの声明を読みました。 勾配降下を使用して二乗誤差の合計を最小化することにより線形回帰問題を解くと、複数の局所最適解を得ることができます。 解決策:False 私の質問は、この質問のどの部分が間違っているのですか?なぜこの声明は偽ですか?

6
最小二乗推定量の分散における項の直感的な説明
がフルランクの場合、逆数が存在し、最小二乗推定値を取得します。 およびX T X β = (X T X )- 1 X Y ヴァー(β)= σ 2(X T X )- 1XXXXTXXTXX^TXβ^=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(β^)=σ2(XTX)−1Var⁡(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} 分散式でをどのように直感的に説明できますか?派生のテクニックは私にとって明らかです。(XTX)−1(XTX)−1(X^TX)^{-1}

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.