タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。


2
回帰用の非対称損失関数を設計および実装する方法は?
問題 回帰では、通常、サンプルの平均二乗誤差(MSE)を 計算しますMSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 予測の品質を測定します。 現在、私は回帰の問題に取り組んでおり、その目的は、多くの数値的特徴が与えられた場合に顧客が製品に対して支払う価格を予測することです。予測価格が高すぎる場合、顧客は製品を購入しませんが、価格を単純に引き下げることができるため、金銭的損失は低くなります。もちろん、製品が長期間購入されない可能性があるため、高すぎてはいけません。一方、予測価格が低すぎる場合、製品は価格を調整する機会なしに迅速に購入されます。 言い換えれば、学習アルゴリズムは、すぐに金銭的損失をもたらす真の価格を過小評価するのではなく、必要に応じて減少させることができるわずかに高い価格を予測する必要があります。 質問 このコストの非対称性を組み込んだエラーメトリックをどのように設計しますか? 可能な解決策 非対称損失関数を定義する方法は、単純に重みを掛けることです: 1n∑i=1n∣∣α−1(g(xi)−gˆ(xi))&lt;0∣∣⋅(g(xi)−gˆ(xi))21n∑i=1n|α−1(g(xi)−g^(xi))&lt;0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 を有するα∈(0,1)α∈(0,1)\alpha \in (0,1)我々は、非対称の程度を変更するために調整することができるパラメータです。ここで見つけた。これは、二次損失を維持しながら行うべき最も簡単なことのように思えます。


1
線形回帰予測間隔
データポイントの最適な線形近似(最小二乗を使用)がラインy=mx+by=mx+by=mx+b場合、近似誤差を計算するにはどうすればよいですか?観測値と予測値の差の標準偏差を計算するei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)と、実際の(観測されていない)値yr=real(x0)yr=real(x0)y_r=real(x_0)は区間に属します[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]()確率が約68%で、正規分布を仮定していますか?yp=mx0+byp=mx0+by_p=mx_0+b 明確にするために: 関数をいくつかの点評価することで観察しました。これらの観測値を線に適合させます。私が観察しなかったについては、大きさを知りたいと思い ます。上記の方法を使用して、prob でと言うのは正しいですか。〜68%?X I L (X )= M X + B 、X 0、F (X 0)- L (X 0)、F (X 0)∈ [ L (X 0)- σ 、L (X 0)+ σ ]f(x)f(x)f(x)xixix_il(x)=mx+bl(x)=mx+bl(x)=mx+bx0x0x_0f(x0)−l(x0)f(x0)−l(x0)f(x_0)-l(x_0)f(x0)∈[l(x0)−σ,l(x0)+σ]f(x0)∈[l(x0)−σ,l(x0)+σ]f(x_0) \in [l(x_0)-\sigma, l(x_0)+\sigma]


3
回帰係数を計算するとき、説明変数の順序は重要ですか?
最初は順序は関係ないと思っていましたが、重回帰係数を計算するためのグラムシュミットの直交化プロセスについて読みましたが、今は考え直しています。 gram-schmidtプロセスによれば、説明変数が他の変数の中で後でインデックス付けされると、その前の変数の残差ベクトルが減算されるため、その残差ベクトルは小さくなります。その結果、説明変数の回帰係数も小さくなります。 それが本当である場合、問題の変数の残差ベクトルは、より少ない残差ベクトルが減算されるため、より早くインデックス付けされた場合、より大きくなります。これは、回帰係数も大きくなることを意味します。 わかりましたので、質問を明確にするように求められました。だから私は最初に私を混乱させたテキストからスクリーンショットを投稿しました。はい、ここに行きます。 私の理解では、回帰係数を計算するには少なくとも 2つのオプションがあります。最初のオプションは、下のスクリーンショットで(3.6)と示されています。 次に、2番目のオプションを示します(複数のスクリーンショットを使用する必要がありました)。 私が何かを誤解していない限り(これは間違いなく可能です)、2番目のオプションでは順序が重要なようです。最初のオプションでは重要ですか?なぜですか?または、私の参照フレームがめちゃくちゃになっていて、これが有効な質問でさえないのですか?また、これは何らかの形で平方Iの合計とタイプIIの平方和に関連していますか? 事前に感謝します、私はとても混乱しています!

3
ニュースの方程式:マルチレベルモデルを一般ユーザーに翻訳する
New York Timesは、ニューヨーク市の教育者にフィードバックを提供するために使用されている「付加価値」教師評価システムについて長いコメントを持っています。ledeは、スコアの計算に使用される方程式です-コンテキストなしで表示されます。修辞的な戦略は、数学による脅迫のようです。 記事の全文は、http://www.nytimes.com/2011/03/07/education/07winerip.htmlで入手できます。 著者のMichael Wineripは、方程式の意味は、マット・デイモン以外の誰もが理解できる能力を超えていると主張している。 「Ms. Isaacsonの3.69予測スコアの計算はさらに困難です。32の変数に基づいています。これは、学生が「プレテスト年前に成績を保持した」か、学生が「プレテストまたはポストテスト年。" これらの32個の変数は、「グッドウィルハンティング」ではマットデイモンだけが解くことができる方程式の1つに見える統計モデルにプラグインされます。 このプロセスは透明に見えますが、教師、校長、ジャーナリストなどの賢い人々にとっても泥だらけです。 アイザックソン氏は2つのアイビーリーグの学位を持っているかもしれませんが、彼女は失われています。「これを理解するのは不可能だと思う」と彼女は言った。 平易な英語で、Ms。Isaacsonは、学科が彼女に何を伝えようとしているのかを最もよく推測しています。66人の学生のうち65人が州のテストで得点しましたが、彼女の3人は4人でした。 しかし、それは推測に過ぎません。」 素人にモデルをどのように説明しますか?参考までに、完全な技術レポートは次の場所にあります。 http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf 更新:Andrew Gelmanはここで彼の考えを提供しています:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

3
「エイリアス係数」とは何ですか?
R(lm)で回帰モデルを構築しているときに、頻繁にこのメッセージが表示されます "there are aliased coefficients in the model" 正確にはどういう意味ですか? また、これによりpredict()警告も出ています。 これは単なる警告ですが、モデルを構築する前にエイリアス係数を検出/削除する方法を知りたいです。 また、この警告を無視した場合に考えられる結果は何ですか?
24 r  regression 



10
大学院レベルで応用統計を自習するための本の推奨事項はありますか?
私は大学でいくつかの統計学コースを受講しましたが、私の教育は非常に理論に基づいていることがわかりました。 私は、あなたが推薦したり、良い経験をしたりした応用統計のテキスト(大学院レベル)を持っている人がいるかどうか疑問に思っていました。

1
共分散行列を使用して、重回帰の係数を見つける方法はありますか?
単純な線形回帰の場合、回帰係数は分散共分散行列CCCからC d 、eによって 直接計算できます。Cd,eCe,eCd,eCe,e C_{d, e}\over C_{e,e} ここで、dddは従属変数のインデックス、eeeは説明変数のインデックスです。 共分散行列しかない場合、複数の説明変数を持つモデルの係数を計算できますか? ETAは、2つの説明変数については、それが現れる と同様のためのβ2。これを3つ以上の変数に拡張する方法がすぐにわかりません。β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2} β2β2\beta_2


3
残差の自己相関をテストする方法は?
多くの価格(750)を持つ2つの列を持つマトリックスがあります。以下の画像では、次の線形回帰の残差をプロットしました。 lm(prices[,1] ~ prices[,2]) 画像を見ると、残差の非常に強い自己相関があるようです。 しかし、これらの残差の自己相関が強いかどうかをどのようにテストできますか?どの方法を使用すればよいですか? ありがとうございました!

4
重回帰の実行時に統計ソフトウェアによって異常値としてフラグが付けられたケースを削除するかどうか?
重回帰分析を行っていますが、データの外れ値を削除すべきかどうかわかりません。私が心配しているデータは、SPSS箱ひげ図では「円」として表示されますが、アスタリスクはありません(これは「それほど悪くない」と思わせます)。気になるケースは、出力の「casewise diagnostics」テーブルの下に表示されます。したがって、これらのケースを削除する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.