タグ付けされた質問 「least-squares」

変数の観測値など、2つの量の間の2乗差を最小化するパラメーター値を選択する一般的な推定手法と、パラメーター値に条件付けされたその観測の期待値を指します。ガウス線形モデルは最小二乗法で近似され、最小二乗法は推定量を評価する方法として平均二乗誤差(MSE)の使用の基礎となるアイデアです。

4
通常の最小二乗法がポアソン回帰よりも優れているのはなぜですか?
私は、都市の各地区における殺人の数を説明する回帰を当てはめようとしています。私のデータはポアソン分布に従うことがわかっていますが、次のようにOLSを近似しようとしました。 L O G(y+ 1 )= α + βバツ+ ϵlog(y+1)=α+βバツ+ϵlog(y+1) = \alpha + \beta X + \epsilon 次に、(もちろん!)ポアソン回帰も試しました。問題は、OLS回帰の結果が優れていることです。疑似は高く(0.71対0.57)、RMSEも同じです(3.8対8.88。同じ単位を持つように標準化されています)。R2R2R^2 どうして?普通ですか?データの分布が何であれ、OLSを使用することの何が問題になっていますか? 編集 kjetil b halvorsenなどの提案に従って、OLSとNegative Binomial GLM(NB)の2つのモデルでデータを適合させました。私が持っているすべての機能から始め、重要ではない機能を1つずつ再帰的に削除しました。OLSは C R Iは、mは電子のa r e a−−−−√= α + βバツ+ ϵcr私mearea=α+βバツ+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon weights =。a r e aareaarea summary(w <- lm(sqrt(num/area) …

1
LOOCV式の証明
統計学習の入門ジェームスら。、リーブワンアウトクロスバリデーション(LOOCV)推定値はによって定義されるCV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i ここMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2。 証明がなければ、方程式(5.2)には、最小二乗回帰または多項式回帰(これが1つの変数のみの回帰に当てはまるかどうかは不明)、 "ここで、Yiがされている私は、元の最小二乗から番目のフィット値(適合しないこの手段が、方法によって何全く考え、それが使用を意味し、すべてのデータセット内のポイントを)および?Hiがにより定義されるてこ」でHiは=1CV(n)=1n∑i=1n(yi−y^i1−hi)2CV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2y^iy^i\hat{y}_iiiihihih_ihi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.hi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.} これをどのように証明しますか? 私の試み:一つは、その注目して開始することができ、Y I = β 0 + k個のΣ iは= 1 β K X K + 程度の一部多項式の項 ≥ 2 が、これとは別に(私は思い出す場合、ための、式hはiが唯一であると単純な線形回帰の場合...)、ここから先に進む方法がわかりません。y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2\hat{y}_i = \beta_0 + …

1
適合確率分布におけるMLEと最小二乗
私が読んだいくつかの論文、本、記事に基づいて得た印象は、データのセットに確率分布を当てはめる推奨方法は最尤推定(MLE)を使用することです。ただし、物理学者としてのより直感的な方法は、最小二乗法を使用して、モデルのpdfをデータの経験的pdfに適合させることです。なぜ確率分布の近似においてMLEが最小二乗よりも優れているのですか?誰かがこの質問に答える科学論文/本を教えてもらえますか? 私の考えは、MLEがノイズモデルを想定しておらず、経験的pdfの「ノイズ」が異分散であり、正常ではないためです。

4
とF検定の関係は?
R2R2R^2とF検定の間に関係があるかどうか疑問に思っていました。 通常、R2= ∑ (Y^t−Y¯)2/T− 1∑ (Yt− Y¯)2/T− 1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}、それは、回帰における直線関係の強さを測定します。 F検定は仮説を証明するだけです。 R2R2R^2とF検定の間に関係はありますか?

3
単純な最小二乗係数を見つけるために「正規方程式」を使用しないのはなぜですか?
私はここでこのリストを見ましたが、最小二乗法を解く方法がたくさんあるとは信じられませんでした。ウィキペディアの「正規方程式」は、かなり単純な方法のように思われました: α^β^= y¯- β^バツ¯、= ∑ni = 1(x私− x¯)(y私− y¯)∑ni = 1(x私− x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} では、なぜそれらを使用しないのですか?マークLの上の最初のリンクで、SVDまたはQRは統計ソフトウェアで一般的な方法であり、正規方程式は「信頼性と数値精度の観点からは劣っています」と述べていることから、計算または精度の問題があるに違いないと思いました。ただし、次のコードでは、3つの一般的なpython関数と比較すると、正規方程式により小数点以下12桁までの精度が得られます。numpy's polyfit ; scipy's linregress ; およびscikit-learnのLinearRegression。 さらに興味深いのは、n = 100000000の場合に正規方程式法が最速であることです。私にとっての計算時間は次のとおりです。polyfitの場合は12.9秒。LinearRegressionの4.2秒。正規方程式の場合は1.8秒。 コード: import numpy as np from sklearn.linear_model import LinearRegression from scipy.stats import …

1
ロジスティック回帰の省略された変数バイアスと通常の最小二乗回帰の省略された変数バイアス
ロジスティック回帰および線形回帰の省略された変数バイアスについて質問があります。 線形回帰モデルからいくつかの変数を省略したとします。これらの省略された変数は、モデルに含めた変数と無相関であると仮定します。これらの省略された変数は、私のモデルの係数にバイアスをかけません。 しかし、ロジスティック回帰では、これは真実ではないことがわかりました。省略された変数が含まれた変数と無相関であっても、省略された変数は含まれた変数の係数にバイアスをかけます。私はこのトピックに関する論文を見つけましたが、それについて頭や尾を作ることはできません。 これが論文とパワーポイントのスライドです。 バイアスは、明らかにゼロに向かっています。誰もこれがどのように機能するか説明できますか?

1
リッジ回帰の反転:与えられた応答行列と回帰係数、適切な予測子を見つける
標準的なOLS回帰問題:行列\ Yと\ Xがあり、L = \ | \ Y- \ X \ B \ | ^ 2を最小化するために\ Bを見つけたいです。 解は\ hat \ B = \ argmin_ \ B \ {L \} =(\ X ^ \ top \ X)^ + \ X ^ \ top \ Yで与えられます。\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\Bβ = argmin β { …


1
回帰係数を正規化する方法に関する質問
正規化がここで使用する正しい単語であるかどうかはわかりませんが、私が尋ねようとしていることを説明するために最善を尽くします。ここで使用される推定量は最小二乗です。 、で平均を中心にできると仮定します。ここでおよび、それもはや推定には影響ありません。 Y = β ' 0 + β 1 X ' 1 β ' 0 = β 0 + β 1 ˉ X 1 、X ' 1 = X - ˉ X β ' 0 β 1y=β0+β1x1y=β0+β1x1y=\beta_0+\beta_1x_1y=β′0+β1x′1y=β0′+β1x1′y=\beta_0'+\beta_1x_1'β′0=β0+β1x¯1β0′=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1x′1=x−x¯x1′=x−x¯x_1'=x-\bar xβ′0β0′\beta_0'β1β1\beta_1 このI平均することにより中と同等です中。最小二乗計算を簡単にするために方程式を減らしました。、Y=β1、X ' 1 β 1、Y=β0+β1X1β^1β^1\hat\beta_1y=β1x′1y=β1x1′y=\beta_1x_1'β^1β^1\hat\beta_1y=β0+β1x1y=β0+β1x1y=\beta_0+\beta_1x_1 一般的にこの方法をどのように適用しますか?モデルがになりました。これをに削減しようとしています。y=β1ex1t+β2ex2ty=β1ex1t+β2ex2ty=\beta_1e^{x_1t}+\beta_2e^{x_2t}y=β1x′y=β1x′y=\beta_1x'

1
反復的に再重み付けされた最小二乗の定義と収束
次の形式の関数を最小化するために、反復的に再重み付けされた最小二乗(IRLS)を使用しています。 J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) ここで、はのインスタンスの数、は必要な堅牢な推定値、は適切な堅牢なペナルティ関数です。今は凸であり(必ずしも厳密ではないが)微分可能であるとしましょう。そのような良い例は、フーバー損失関数です。NNNxi∈Rxi∈Rx_i \in \mathbb{R}m∈Rm∈Rm \in \mathbb{R}ρρ\rhoρρ\rho 私がやってきたことは、をに関して微分し(そして操作して)、J(m)J(m)J(m)mmm dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) 0に設定し、繰り返し重みを(x_i = m {(k)}で知覚される特異点は、気になるすべての\ rhoで実際に除去可能な特異点であることに注意してください)。その後、私は取得し、kkkwi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}xi=m(k)xi=m(k)x_i=m{(k)}ρρ\rho ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0 そして解くと、m(k+1)=∑Ni=1wi(k)xi∑Ni=1wi(k)m(k+1)=∑i=1Nwi(k)xi∑i=1Nwi(k)m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ \sum_{i=1}^{N} w_i(k)}。 「収束」までこの固定小数点アルゴリズムを繰り返します。微分が0で凸関数であるため、固定小数点に到達する場合は最適であることに注意してください。 この手順について2つの質問があります。 これは標準のIRLSアルゴリズムですか?このトピックに関するいくつかの論文を読んだ後(そしてそれらは非常に散らばっていて、IRLSとは曖昧でした)、これは私が見つけることができるアルゴリズムの最も一貫した定義です。人々が望むなら、私は論文を投稿することができます、しかし、私は実際にここで誰にも偏りたくありませんでした。もちろん、この基本的な手法は、ベクトルxixix_iと\ left | …

2
残差の不均一分散性の測定
このウィキペディアのリンクには、OLS残差不均一性を検出するための多くの手法がリストされています。異分散の影響を受ける領域を検出するのに、どのハンズオン手法がより効率的かを知りたいと思います。 たとえば、ここではOLSの「残差vs適合」プロットの中央領域は、プロットの側面よりも高い分散を持っているように見えます(事実は完全にはわかりませんが、質問のためだと仮定しましょう)。確認するには、QQプロットのエラーラベルを見ると、それらが残差プロットの中央のエラーラベルと一致していることがわかります。 しかし、分散が著しく高い残差領域をどのように定量化できますか?

2
なぜ正射影の射影行列は対称的ですか?
私はこれにかなり慣れていないので、質問が素朴な場合はご容赦ください。(コンテキスト:私はダビッドソン&マッキノンの本からの計量経済学を勉強しています「計量経済理論と方法」、そして、彼らはこれを説明していないようです。私も見てきたルーエンバーガーのビットより高度なレベルでの予測を扱うことに最適の本が、運がありません)。 射影行列Pが関連付けられている正射影PP\mathbb Pとします。Iは各ベクトルを投影するに興味R nは、いくつかの部分空間にA ⊂ R N。PP\bf PRnRn\mathbb{R}^nA⊂RnA⊂RnA \subset \mathbb{R}^n 質問:T、つまりPが対称であるというのはなぜですか?この結果についてどのような教科書を見ることができますか?P=PP=P\bf{P}=PTT^TPP\bf P

1
1つの変数が他の変数の線形結合であるにもかかわらず、完全な多重共線性のためにこの回帰が失敗しないのはなぜですか?
今日、私は小さなデータセットで遊んでいて、完全な多重共線性のために失敗すると予想される簡単なOLS回帰を実行しました。しかし、そうではありませんでした。これは、多重共線性に関する私の理解が間違っていることを意味します。 私の質問は:どこが間違っているのですか? 私の変数の1つが他の変数の線形結合であることを示すことができると思います。これにより、フルランクを持たないリグレッサマトリックスが生成されるため、係数を特定しないでください。 私は小さな再現可能なデータセットを生成しました(以下のコード): exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida Florida 1007.5589 6.779686 1 7 Texas Florida 996.8938 1.570600 …

1
線形モデルのBLUE(OLSソリューション)以外の不偏推定量
線形モデルの場合、OLSソリューションはパラメーターに最適な線形不偏推定量を提供します。 もちろん、より低い分散、例えばリッジ回帰のバイアスをトレードオフできます。しかし、私の質問はバイアスがないということです。偏りはないが、OLS推定パラメーターよりも高い分散を持つ、やや一般的に使用される推定器は他にありますか? 巨大なデータセットがある場合は、もちろんそれをサブサンプリングし、より少ないデータでパラメーターを推定し、分散を増やすことができます。これは仮説的に有用だと思います。 BLUE推定量について読んだときに、より悪い代替案が提供されていないため、これは修辞的な質問です。悪い選択肢を提供することは、人々が青い推定器の力をよりよく理解するのにも役立つと思います。

1
最適なラインがあります。最適なラインを変更しないデータポイントが必要です
線のフィッティングに関するプレゼンテーションを行っています。単純な線形関数ます。散布図に入れることができる散布データポイントを取得しようとしています。これにより、同じ方程式に最適なラインを維持できます。y=1x+by=1x+by=1x+b RまたはExcelのどちらか簡単な方でこのテクニックを学びたいです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.